카이제곱분포

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 카이 제곱 확률변수3. 공식4. 적률생성함수5. 활용6. 그래프7. 범주형 자료 분석

7.1. 적합도 검정7.2. 동질성 검정7.3. 독립성 검정

8. 자유도9. 기타10. 여담11. 관련 문서

1. 개요

카이 제곱 분포(chi-squared distribution, χ² 분포)는 [math(k)]개의 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 확률변수의 분포이다. 구식 표현으로 카이자승분포라고도 한다. 즉 [math(k)]차원 확률벡터 [math(y \sim N(0,\ I))]에 대해[1][2]

[math( χ^2 = y^{\top} y)]

가 따르는 분포가 카이 제곱 분포이다. [math(\chi)]는 그리스 문자 카이(chi)이다. 카이 제곱 분포는 감마분포로부터 유도되고 이어서 맥스웰-볼츠만 분포로 진행되는 유도 과정을 보여준다는 점에서 이들 분포는 변수 변환과 모수 특수화를 통해 계층적으로 연결되는 내포적(또는 계층적) 분포 구조를 형성하는 지수족(Exponential Family)의 주요한 맥락(context)을 제공하는 케이스로 해석할 수 있다.

카이 제곱 분포를 사용하는 때는 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 "완벽하게 서로 다른 질적 자료"일 때 활용한다. 선거 여론조사에서 남성/여성, 연령대별(18-29세, 30대, 40대, 50대, 60대, 70대 이상) 지지율 등을 알아볼 때 쓴다. 독립변수가 양적 자료면 F-분포를 쓴다.

검정통계량이 카이 제곱 분포를 따른다면 카이 제곱 분포를 사용해서 가설검정을 하면 된다. 귀무가설 하에서의 검정통계량이 카이 제곱 분포를 따를 때 검정통계치가 카이 제곱 분포 하에서 일어나기 어려운 일이면 귀무가설을 기각하고, 충분히 일어날 수 있는 일이면 귀무가설을 기각하지 않는다. 이 때 일어날 법한 일인지, 희귀한 경우인지를 판단하는 기준은 유의수준과 p-값이다.

입문 수준의 통계학이나 학부 사회조사방법론에서는 카이-제곱 분포를 [math(\sigma^2)]을 구할 때 사용하여 모분산 검정, 적합도 검정, 독립성/동질성 검정 등에 사용한다. 귀무 가설 [math(H_0)]는 [math(\sigma^2 = 1)] 같은 것이고, 대립가설 [math(H_1)]은 [math(\sigma^2 \neq 1)] 같은 것이다. 또는 [math(H_0)]는 [math(\mu_1 = \mu_2)]이고, [math(H_a)]는 [math(\mu_1 \neq \mu_2)]와 같은 것으로 [math(H_0)]는 "[math(\mu_1)]과 [math(\mu_2)]의 약효가 비슷하다", [math(H_a)]는 "[math(\mu_1)]과 [math(\mu_2)]의 약효에 차이가 있다"와 같은 것이다.

"남성과 여성, 성별로 보수 성향과 진보 성향의 비율에 유의한 차이가 있는가" 등의 검증을 할 때 쓸 수 있다. p-값이 0.05[3]보다 작으면 유의한 차이가 있다고 생각할 수 있다. 요즘은 0.005 이하라는 기준을 쓰는 곳도 많다.

z-검정은 [math(\sigma^2)]을 알 때 [math(\mu)]를 구하는 것이고, t-검정은 [math(\sigma^2)]을 모를 때 [math(\mu)]를 구하는 것이다. 카이-제곱 검정은 [math(\sigma^2)]을 구하는 것이고, F-검정은 [math(\dfrac{{\sigma_1}^2}{{\sigma_2}^2})]을 구할 때 사용한다.

수식 없이 설명하는 카이 제곱 분포

엑셀로 카이제곱 검정 (교차분석)

중국, 일본, 대만 교육과정의 경우 고등학교 수학 확률과 통계 과목에서 연속확률분포에서 정규분포 외에 카이제곱분포와 T분포, F분포를 가르친다. 이산확률분포에서는 푸아송분포, 기하분포, 음이항분포도 가르친다. 한국 확통 교육과정은 이 분포들을 가르치지 않는다. 왜냐하면 카이제곱분포를 가르치려면 자유도에 대한 개념을 고등학생들한테 정식으로 이해를 시켜야 하기 때문이다. 한국 확통 교육과정이 세계적으로 부실한 단면 중 하나.

2. 카이 제곱 확률변수

[math(Z_1)], [math(Z_2)], [math(\cdots)], [math(Z_v)]가 서로 독립인 [math(v)]개의 확률변수이면서 표준정규분포 [math(N(0,\ 1))]을 따른다면

[math(\displaystyle U = \sum_{i=1}^v {Z_i}^2)]

을 자유도가 [math(v)]인 [math(\chi^2)](카이 제곱) 확률변수라고 한다.

예를 들어 각 [math(X_i)]가 정규분포 [math(N(\mu,\ \sigma^2))]을 따르는 [math(X_1)], [math(X_2)], [math(\cdots)], [math(X_n)]의 확률표본을 표준화하면

[math(Z_i = \dfrac{X_i - \mu}{\sigma})]

가 되고 모든 [math(Z_i)]의 제곱의 합인 다음 확률 변수는 자유도가 [math(v)]인 [math(\chi^2)] 분포를 따른다.

[math(\displaystyle\sum_{i=1}^v\left(\dfrac{X_i-\mu}{\sigma}\right)^{\!2}\!=\dfrac{\displaystyle\sum_{i=1}^v(X_i-\mu)^2}{\sigma^2})]

[math(\chi^2)] 확률변수는 연속확률변수인 표준정규변수의 함수이므로 똑같이 연속확률분포를 따른다. 또한, 제곱의 합으로 정의되기 때문에 항상 [math(0)] 이상의 값만을 갖는다. 또한, 다음이 성립한다.

[math(\operatorname{E}(U) = v,\quad \operatorname{Var}(U) = 2v)]

곧, 카이 제곱 분포는 평균이 자유도와 같고, 분산은 자유도의 2배이다.

[ 증명 펼치기 · 접기 ]: [math(\begin{aligned} U &= {Z_1}^2 + {Z_2}^2 + \cdots + {Z_v}^2 \\ \rightarrow \operatorname{E}(U) &= \operatorname{E}({Z_1}^2) + \operatorname{E}({Z_2}^2) + \cdots + \operatorname{E}({Z_v}^2) \end{aligned})]

[math(\begin{aligned} \operatorname{Var}(Z_i) &= \operatorname{E}({Z_i}^2) - \left[ \operatorname{E}(Z_i) \right]^2 \\ \rightarrow \operatorname{E}({Z_i}^2) &= \operatorname{Var}(Z_i) + \left[ \operatorname{E}(Z_i) \right]^2 \end{aligned})]

[math(Z_i)]는 표준정규분포를 따르기에 [math(\operatorname{Var}(Z_i) = 1)], [math(\operatorname{E}(Z_i) = 0)]이므로

[math(\begin{aligned} \operatorname{E}({Z_i}^2) &= 1 + 0 = 1 \\ \therefore \operatorname{E}(U) &= \underbrace{1 + 1 + \cdots + 1}_{v\ {\rm times}} = v \end{aligned})]

[math(\operatorname{Var}(U) = \operatorname{Var}({Z_1}^2) + \operatorname{Var}({Z_2}^2) + \cdots + \operatorname{Var}({Z_v}^2) = v \cdot \operatorname{Var}({Z_i}^2))]

또한 [math(\operatorname{Var}({Z_i}^2) = \operatorname{E}({Z_i}^4) - \left[ \operatorname{E}({Z_i}^2) \right]^2)]이고 [math(\operatorname{E}({Z_i}^2) = 1)], [math(\operatorname{E}({Z_i}^4 = 3))]임이 알려져 있으므로[4]

[math(\operatorname{Var}({Z_i}^2) = 3 - 1 = 2)]
[math(\therefore\ \operatorname{Var}(U) = 2v)]

3. 공식

[math(\overline{X})]와 [math(s^2)]이 독립이고 [math(X_u \sim N(\mu,\ \sigma^2))]일 때, [math(\dfrac{(n-1)s^2}{\sigma^2} \sim \chi^2 _{n-1})]
즉, 표본분산에 상수 [math(\dfrac{n - 1}{\sigma^2})]을 곱한 확률 변수는 자유도가 [math(n - 1)]인 카이 제곱 분포를 따른다. 이를 이용하여 표본분산 [math(s^2)]을 가지고 모분산 [math(\sigma^2)]에 대한 가설검정이나 신뢰구간 도출이 가능하다. 바로 이 기능, 표본분산을 보고 모분산을 추측하는 것이 카이 제곱 분포의 주요한 용도이다.

{{{#!folding [ 증명 펼치기 · 접기 ]

이하 [math(\displaystyle \sum_{k = 1}^n)]를 [math(\displaystyle \sum)]로 생략하여 쓴다.

[math(\begin{aligned} \displaystyle \sum (X_i - \mu)^2 =&\ \sum \left[ (X_i - \overline{X}) + (\overline{X} - \mu) \right]^2 \\ =&\ \sum (X_i - \overline{X})^2 + \sum(\overline{X} - \mu)^2 + 2(\overline{X} - \mu) \sum(X_i - \overline{X}) \\ =&\ (n - 1)\dfrac{\sum (X_i - \overline{X})^2}{n - 1} + n(\overline{X} - \mu)^2 + 2(\overline{X} - \mu) \sum(X_i - \overline{X}) \\ =&\ (n - 1)s^2 + n(\overline{X} - \mu)^2 \\ &(\because\ \sum(X_i - \overline{X}) = 0 \textsf{\footnotesize{(편차의 합)}}) \end{aligned})]

양변을 [math(\sigma^2)]으로 나누면

[math(\dfrac{\sum (X_i - \mu)^2}{\sigma^2} = \dfrac{(n-1)s^2}{\sigma^2} + \dfrac{n(\overline{X} - \mu)^2}{\sigma^2})]

여기에서 카이 제곱 분포의 정의에 의하여 [math(\dfrac{\sum(X_i - \mu)^2}{\sigma^2})]은 자유도가 [math(n)]인 카이 제곱 분포를 따르고 [math(\dfrac{n(\overline{X} - \mu)^2}{\sigma^2})]은 자유도가 [math(1)]인 카이 제곱 분포를 따르므로 [math(\dfrac{(n - 1)s^2}{\sigma^2})]은 자유도가 [math(n - 1)]인 카이 제곱 분포를 따른다.

[math(\therefore\ \dfrac{(n - 1)s^2}{\sigma^2} \sim \chi^2_{n-1})]

}}}

4. 적률생성함수

자유도가 [math(v)]인 카이 제곱 분포의 적률생성함수는 다음과 같다.

[math(M(t) = (1 - 2t)^{-v/2})]

이를 통해 카이 제곱 분포의 평균과 분산을 다음과 같이 구할 수 있다.

[math(\begin{aligned} M'(t) =& -\dfrac{v}{2} (-2)(1 - 2t)^{-v/2 - 1} \quad \rightarrow \quad \operatorname{E}(U) = M'(0) = v \\ M(t) =& -\dfrac{v}{2}(-2)^2 \left( -\dfrac{v}{2} - 1 \right)(1 - 2t)^{-v/2 - 2} \quad \rightarrow \quad \operatorname{E}(U^2) = M(0) = v^2 + 2v \end{aligned})]
[math(\therefore\ \operatorname{Var}(U) = \operatorname{E}(U^2) - (\operatorname{E}(U))^2 = 2v)]

5. 활용

정규분포의 확률변수를 제곱한 값에 대한 확률을 구할 때 요긴하게 쓴다.

[예제] [math(X \sim N(4,\ 9))]일 때, [math(P(-11.95 < X^2 - 8X < 10.1))]의 값을 구하시오.

{{{#!folding [ 풀이 펼치기 · 접기 ]

[math(\begin{aligned}P(-11.95 < X^2 - 8X < 10.1) &= P(4.05 < (X - 4)^2 < 26.1) \\ &= P \left( 0.45 < \left(\dfrac{X - 4}{\sqrt{9}} \right)^{2} < 2.9 \right) \end{aligned})]

[math(U = \left( \dfrac{X - 4}{\sqrt{9}}\right)^{2})]로 표준화된 '표준정규변수의 제곱'은 자유도가 [math(1)]인 카이 제곱 분포를 따르므로

[math(P(0.45 < U < 2.9) \approx 0.41376)]

}}}

6. 그래프


확률밀도함수	누적분포함수

매개변수: 자유도(자연수) [math(k)]

카이 제곱 분포는 기본적으로 좌측에 치우친 분포인데, 자유도가 커질수록 대칭의 분포로 접근한다.

7. 범주형 자료 분석

범주형 자료 분석(categorical data analysis)에 쓴다.
아래에 제시된 범주형 자료 분석의 검정통계량을 유도하기 위한 가정이 깨지는 경우가 많기 때문에 공부를 계속하다 보면 아래의 테크닉을 사용하는 빈도가 줄어든다. 하지만 통계학과 고학년이나 통계학과 및 다른 학과 대학원 레벨의 범주형 자료분석을 공부하려면 학부 회귀분석, 수리통계학에 대한 지식, 간단한 수학 테크닉이 기본적으로 필요하기 때문에 ~~학부 수준에서도 일반화 선형모형이 나온다~~ 공부를 계속할 것이 아니라면 아래의 방법으로도 충분하다.

7.1. 적합도 검정

적합도 검정(goodness-of-fit test)은 관측 결과가 특정한 분포로부터의 관측값인지를 검정한다. 예를 들어, 멘델의 이론에 의하면 노란색 완두와 녹색 완두가 [math(3 : 1)]로 나와야 한다. 교배 실험 결과 노란색 6,022개, 녹색 2,001개, 전체 8,023개로 나왔다면 이 실험 결과는 이론과 일치하는가 어긋나는가를 조사한다.

7.2. 동질성 검정

동질성 검정(test of homogeneity)은 두 집단의 분포가 동일한지를 검정한다. 예를 들어, 남학생과 여학생의 성별에 따라 물리학, 화학, 생물학에 대한 선호도가 같은가 다른가를 검증하는데 사용할 수 있다.

7.3. 독립성 검정

독립성 검정(test of independent)은 두 변수 사이에 관계가 있는지를 확인한다. 예를 들어, 성별이 특정 개인의 진보도(보수도)에 영향을 끼치는지 검정한다.

8. 자유도

일반적으로 카이 제곱 분포의 자유도는 정의 '독립적인 표준 정규 분포의 제곱 합'에서 표준 정규 분포의 개수이다.

사회과학의 학부수준의 조사방법론이나 통계학 개론에서 배우는 카이제곱 검정에서는 자료행렬의 행(row)과 열(column)의 숫자에서 1씩을 뺀 후 그 숫자를 곱함으로써, 즉, [math(df = (r - 1)(c - 1))]을 통해 자유도를 구할 수 있다. 이 때 하나의 행만 있을 경우 열의 숫자에서 1을 뺀 숫자가 자유도이다.

학부 선형대수학과 수리통계학 이상의 과정에서는 다변량정규분포를 따르는 확률벡터의 이차형식(quadratic form)으로 카이 제곱 분포를 나타내는 경우가 많다. 이 때는 일정한 행렬의 계수(rank)를 구함으로써 자유도를 구할 수 있다. 대부분의 경우 멱등행렬(idempotent)의 계수를 구하게 되는데, 멱등행렬에서는 대각합(trace)와 계수가 같다는 성질을 이용하면 손쉽게 자유도를 구할 수 있다.

9. 기타

예전에 카이 제곱 분포나 [math(F)]-분포에 양방향 검정이 불가능하다는 설명도 있었다. 일반적으로는 카이 제곱 분포나 F분포에서 양방향 검정을 할 일이 딱히 없기는 하다. 하지만 이것이 '카이 제곱 분포나 F 분포에서 양방향 검정을 해서는 안 된다'는 자명한 진리인 것은 아니다. 단일방향 검정을 할지 양방향 검정을 할지에 대해 알고 싶다면 최강기각력 검정을 공부해보자.

카이 제곱 분포의 일반화된 버전으로 비중심 카이 제곱 분포가 있다. 이 경우에는 확률변수의 기댓값이 [math(0)]이라는 조건이 없어도 된다. 분산이 [math(1)]이 아니더라도 확률변수들이 독립적이기만 하면 적절한 선형 변환을 통해 카이 제곱 분포를 따르는 확률변수를 만들 수 있다. 또한 표준정규분포를 따르지 않는 확률변수들도 정규분포를 따른다면 적절한 선형 변환을 통해서 비중심 카이 제곱 분포를 따르는 확률변수를 만들 수 있다.

[math(t)]-분포와 [math(F)]-분포는 카이 제곱 분포와 표준정규분포를 이용해 정의한다. 따라서 카이 제곱 분포를 다루는 연습을 많이 해두면 [math(t)]-분포와 [math(F)]-분포를 좀 더 쉽고 깊게 이해할 수 있다. 물론 어디까지나 본인이 흥미가 있거나, 교수님이 과제와 시험에 증명 문제를 출제할 때에나 해당되는 일이다. 검정 방법을 직관적으로 이해하고, 공식을 외우고, 컴퓨터로 결과만 낼거면 필요 없다.

10. 여담

사회과학 조사방법론 책에서는 흔히 관찰 빈도 [math(O)], 기대 빈도 [math(E)]에 대해

[math(\displaystyle \chi^2 = \sum \frac{(O - E)^2}{E})]

와 같은 표현을 쓴다. 그러나 이러한 표현은 정확한 표현이 아니다. 카이 제곱 분포는 일반적으로 앞서 말한 것처럼 '독립적인 표준정규분포 제곱의 합'으로 정의하거나 '감마분포의 특이한 경우'로 정의한다. 그런데 [math(\displaystyle \chi^2 = \sum \frac{(O - E)^2}{E})]는 마치 카이 제곱 분포의 정의가 [math(\displaystyle \sum \frac{(O - E)^2}{E})]인 것으로 사람을 오도할 수 있기 때문이다. 이러한 점에서 볼 때 좀 더 정확한 표현은 귀무가설 하에서의 검정통계량

[math(\displaystyle \sum \frac{(O - E)^2}{E} \sim \chi^2(k), \qquad)] (단, [math(k)]는 자유도)

이다.

11. 관련 문서

확률 분포
정규 분포
표준정규분포([math(z)]-분포)
[math(t)]-분포
[math(F)]-분포
Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.

[1] 이 때의 [math(0)]은 영벡터, [math(I)]는 항등행렬이다.[2] 정규분포 확률벡터의 [math(X)]의 기댓값이 영벡터라는 것은 개별 확률변수의 기댓값이 [math(0)]이라는 것이다. 그리고 항등행렬은 대각원소가 [math(1)]이기 때문에 정규분포 확률벡터의 공분산 행렬이 항등행렬이라는 것은 개별 정규분포의 분산이 [math(1)]이라는 것이다. 즉 개별 정규분포들은 표준정규분포라는 것을 의미한다. 또한 항등행렬의 비대각원소가 [math(0)]이기 때문에 임의의 두 정규분포의 공분산이 [math(0)]이라는 것을 의미한다. 그런데 정규분포에서는 공분산이 [math(0)]이라는 조건과 독립이라는 조건이 동치이다. (일반적으로는 독립이 '공분산 = [math(0)]'보다 더 강한 조건이다.) 이러한 점을 종합하면 [math(y \sim N(0, I))])는 '독립적인 표준정규분포들을 모은 벡터'를 의미한다는 것을 알 수 있다.[3] 5%가 일반적이긴 하지만 이는 개별 세부전공에 따라 다를 수 있다.[4] [math(\operatorname{E}({Z_i}^4) = \displaystyle \frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} x^4 e^{-\frac{x^2}{2}}\ \mathrm dx = \left. -\frac{1}{\sqrt{2 \pi}} x^3 e^{-\frac{x^2}{2}} \right|_{-\infty}^{\infty} + 3 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} x^2 e^{-\frac{x^2}{2}}\ \mathrm dx = 3(\operatorname{Var}(Z_i)+[{\operatorname{E}(Z_i)}]^2) = 3)]