독립항등분포

1. 개요2. 깨지는 경우

2.1. Heteroskedasticity(이분산성)2.2. Endogeneity(내생성)2.3. Multicollinearity(다중공선성)

1. 개요

independent and identically distributed (iid)
확률변수가 여러 개 있을 때 (X₁ , X₂ , ... , X_n) 이들이 상호독립적이며, 모두 동일한 확률분포 f(x)를 가진다면 iid이다.

2. 깨지는 경우

통계학에서는 좋은 가정이 성립되지 않을 때, 추정량에 어떤 악영향이 있으며 어떤 대처를 해야 하는지 다룬다. 많은 사회과학 데이터들은 자연과학의 실험(experimental) 데이터와 다르게 위에서 언급한 좋은 가정들을 만족하지 못 하기 때문에 특히 계량경제학이나 사회통계에서 중요하다.

2.1. Heteroskedasticity(이분산성)

만일 오차항(error term)의 공분산 행렬을 안다면, GLS(Generalized Least Square)를 사용하여 여전히 BLUE를 구할 수 있다. 그러나 이 가정은 현실적이지 못한 가정이므로 여러 대안이 나왔다. 그 중 비교적 대세로 자리잡은 것은 White의 robust covariance matrix estimation이다.

2.2. Endogeneity(내생성)

사회과학적 중요성이 큰 통계학 문제로, 계량경제학과 통계학 사이에서 주목받는 정도 차이가 유독 큰 분야 중 하나이다. 예를 들어 사교육이 전교석차에 미치는 효과를 알고 싶다. 간단하게 "전교 석차 = α + β·사교육비 + ε"의 식을 세운다고 하자. 사교육비 지출에 영향을 주는 관찰되지 않은 개인별 특성(예: 능력)이 석차에도 영향을 준다면, 통상최소자승(OLS) 추정치에는 bias가 발생한다. 이 특성은 오차항(ε)에 반영되어 있을 것이기 때문이다. 설명변수(X)인 사교육비와 오차항 간에 상관관계가 존재하게 되어[1] OLS 추정량은 bias되어 있고 inconsistent하다. 만약 능력이 높은 학생이 사교육을 많이 받는다면 사교육의 효과는 과대추정될 것이고, 능력이 낮은 학생이 많이 받는다면 과소추정될 것이다. 다른 예로 "일반인 1명이 대학에 갔을 경우 추가로 얻는 기대소득이 얼마일까?" 라는 질문을 생각해보자. 첫번째 아이디어는 대학에 간 사람 100명, 안 간 사람 100명을 비교해서 평균 임금을 비교하는 것이다. 그러나 곧 이 방법이 문제가 있음을 깨닫는다. 대학에 간 사람들은 상대적으로 공부를 잘하고 대학에서 얻을 것이 많은 사람들이기 때문에, 이러한 비교를 하면 대학교의 임금 상승 효과를 과대평가하게 되는 것이다. 이상적인 실험은 사람 200명을 모으고 비슷한 집단 2개로 랜덤하게 나누어서, 한 집단은 대학을 보내고 다른 집단을 그러지 않은 다음에 몇 년 후 두 집단의 임금을 비교하는 것이나, 이는 현실적으로 하기 힘들다. 따라서 이러한 실험 상황을 어떻게든 재현하기 위해, 원인에 따라 통제변수를 추가하거나, 도구변수(IV)를 사용하거나, DiD 모형 등을 이용한다.[2]

내생성을 야기하는 요인은 일반적으로 누락변수(omitted variables), 동시성(simultaneity) 및 측정오차(measurement error)의 세 가지 카테고리로 나눌 수 있다[3] 동시성 문제는 시차 변수를 사용해서 해결할 수 있다. 회귀 분석을 했을 때 생기는 누락 변수는 패널 분석을 사용해서 해결할 수 있다.

2.3. Multicollinearity(다중공선성)

공선성을 유발하는 설명변수 제거 또는 차분값, 로그형태 등 추정모형을 변화시켜보거나 거시변수의 경우 명목값이 아닌 실질값을 이용하여 모형을 추정한다.

[1] Cov(X,ε)≠0[2] 관련 방법론들은 위에서 언급한 Mostly harmless econometrics에 집중적으로 나와있다.[3] Wooldridge (2002). 50~51쪽 참조.