통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
패널 자료를 분석하는 기법이다. 패널 자료는 여러 자료에 대해 여러 기간 동안 분석해, 시계열 자료와 횡단면 자료의 특성을 모두 갖춘 자료를 말한다.패널 자료를 이용하면 주기적으로 반복 측정하기 때문에 동적 연구가 가능하다.
패널 자료는 횡단면 또는 시계열 자료에 비해 더 많은 정보와 변수를 포함하고 있어 다중공선성(multi-collinearity) 문제를 완화할 수 있으므로 효율적인 추정량을 얻을 수 있다.
2. 자료
- 균형 패널, 불균형 패널: 조사 대상 개체가 관측된 시점들이 모두 동일하면 균형 패널(balanced panel)이 되지만, 조사 누락 및 표본 탈락(attrition) 문제로 각 개체의 자료 포괄 기간이 달라져 불균형 패널(unbalanced panel)이 되는 경우가 일반적이다. 다만, Akay(2009)는 Wooldridge 방법(2005)을 불균형 패널에 활용했을 때 매우 작은 bias만이 존재함을 보였다. 따라서 실제로는 이 방법을 불균형 패널에 활용해도 된다.
2.1. 변인
양수 변수는 로그화 변환할 수 있다. 가령 1인당 GDP, 총 인구수 등은 로그 치환하고, 경제성장율, 인플레이션율 등은 0-100 %로 계산할 수 있다.로그변환 해 주는 데는 크게 2가지 이유가 있다.
- 변수들이 양수이면서 분포가 치우친 형태이면 로그변환을 했을 때 고전적 선형모형 (CLM)의 가정을 더욱 가깝게 충족한다. 왜도[1]가 -1~1 사이로 심한 치우침을 보이지 않을 경우 변환을 하지 않아도 무방하다. 하지만 조사하고자 하는 수치의 정규성 (normality)을 확인해서 상당히 왜곡 (skewed)된 분포를 보이면 로그변환을 해줘야 한다. 또는 변환 이후 분산이 크게 감소하면 로그변환을 해줘야 한다. 로그변환을 하면 변수의 분포 범위가 많이 줄어들어 결과가 이상수치(outlier)에 덜 민감하게 만든다. 이러면 거시경제 데이터에서 흔히 나타나는 이분산성 (heteroschedasiticity) 문제를 완화하여 결과의 해석이 용이해진다.
변환 이후 2 이상의 왜도 개선을 보인다면 로그변환을 해 줄 만하다. 하지만 왜도를 개선할 때 첨도[2]가 정규분포에서 멀어지거나 첨도를 개선할 때 왜도가 정규분포에서 멀어질 경우 로그화의 의미가 없다. - 변수의 단위에 관련없이 변화율이나 변화의 탄력성을 볼 수 있다.
변수는 단순 로그화 대신 로지스틱 (로짓) 변환을 해 줄 수도 있다. S자 형태처럼 비선형 구조를 가진 변수에 선형 회귀분석을 적용하기 위해서는 로지스틱 변환이 적절하다.
3. 모형
동적(dynamic) 패널 모형은 종속변수 yit의 시차값[3] yit-1 을 설명변수로 포함한 패널 모형이다. 동적 패널 모형의 경우 오차항을 고정효과로 가정하고 within 추정량을 구할 경우 편의가 발생하고, 1차 차분모형 역시 편의가 발생한다. 확률효과 모형의 경우 일치추정량을 추정할 수 없다.4. 비안정적 패널기법
절차는 패널단위근 검정, 패널공적분 검정, 패널 공적분 추정으로 구분된다.시계열 자료는 기본적으로 개별 시계열 자료에 대한 공적분 기법이 검정력[4]이 낮다는 문제를 지닌다. 만약 검정력을 높이고자 하면 되도록 주어진 귀무가설을 빈번하게 기각해야 하는데 이렇게 된다면 귀무가설이 참인 경우에도 이를 기각하는 오류 또한 빈번하게 나타날 것이다. 이 때 패널자료를 활용하면 관측 개수를 증가시켜 검정력이 증가하게 된다.
시계열 분석에서 1980년대 초까지는 모형에서 다루는 시계열 변수들이 안정성(stationarity) 을 만족한다는 가정 하에서 분석했다. 그러나 Nelson & Plosser(1982)[5]가 많은 거시경제변수들이 ‘임의보행(random walk)’을 따르는 시계열임을 보인 후, 시계열의 안정성과 비안정성(nonstationarity)에 관한 논의가 광범위하게 촉발되어 시계열의 안정성을 전제로 하는 기존의 계량경제학 방법론이 근본적인 전환을 맞게 되었다. 즉 random walk의 시계열은 유한한 분산을 가지지 않기 때문에 통상적인 최소자승법(OLS)에 의해서는 일관성있는(consistent) 회귀계수를 추정할 수 없게 된다. 또 두 변수 사이에 아무런 상관관계가 없다고 할지라도 변수가 불안정적이면 회귀계수의 t-통계량이 표본크기가 증가함에 따라 커져 회귀결과를 오도하는 가성회귀(spurious regression)의 문제가 초래된다. 따라서 시계열자료를 이용한 계량적 분석을 하기 전에 단위근 검정을 먼저 실시하여 시계열들의 안정성 검정을 해야 한다.
4.1. 단위근 검정
단위근 검정(unit root test)이란 시계열 자료의 안정성에 관한 검정방법으로 공적분 검정(cointegration test)에 앞서 선행하는 검정이다(pre-test).단위근검정을 통해서 단위근이 있다고 판정되면 그 자료는 비정상시계열 자료이며 그 상태로는 분석할 수 없으므로 공적분과 같은 방법을 통하여 정상시계열로 변화시킨다. 만약 비정상 시계열 자료를 정상시계열로 변화시키지 않고 통계분석을 하게 되면 실제로는 변수 간 아무 관계가 없으나 마치 관계가 있는 것처럼 나타나는 가성회귀(spurious regression) 현상이 나타나게 된다.
단일시계열에 대해 가장 흔히 사용되는 검정은 ADF[6] 검정이다.
패널단위근 검정은 단일시계열 단위근 검정과 유사하지만 일치하지 않는다. 이는 하나의 시계열자료를 다루는 단위근검정과는 달리 패널단위근 검정은 여러 시계열자료를 결합한 자료에서의 패널단위근 유무를 파악하는 것이기 때문이다. 패널단위근에서의 각 횡단별 시계열자료를 단위근검정하는 것은 그 분산이 다양하기 때문에 통계 검정력이 떨어지게 된다. 따라서 패널단위근 검정은 여러 시계열 자료가 혼재되어 있는 패널 데이터 자체를 검정하는 방법이 많이 쓰인다. (신현중, 2006)
패널 단위근 검정으로 많이 쓰이는 방법은 IPS[7], ADF-Fisher 검정, LLC [8]이 있다.
4.2. 패널 간의 이질성을 해소하는 기법
동적 이질적 패널 자료 모형들에서 통합자료 모형을 추정하는 전통적 절차는 고정 효과 (fixed effects), 도구 변수 (IV; Instrumental Variables)를 통한 2단계 최소제곱법(2SLS), 일반화적률법 (GMM) 추정량 [9]이다. Pesaran et al.(1999)은 이런 절차들이 비일관적(inconsistent)이고 잠재적으로 매우 오도하는 장기계수 추정치를 생산할 수 있다는 것을 증명하였다. 패널 간의 이질성을 해소하는 것은 어렵다. 패널 공적분 기법은 패널 간의 이질성을 해소하기 위한 좋은 방법이다.4.2.1. 패널 공적분 기법
Pedroni (1999,2003)의 패널 공적분 기법은 패널 단위근이 존재하고 패널 공적분 관계가 존재하는 것으로 나타난 변수들이 있을 때, 변수들 간 장기균형 관계를 명시적으로 분석하기 위해 패널 공적분 벡터를 추정한다. 주로 DOLS[10]와 FMOLS[11]와 같은 패널공적분 기법들이 사용된다.Montalvo(1995)은 유한 표본에서 DOLS가 FMOLS나 이와 유사한 Park(1992)의 CCR에 비해 더 우수한 것으로 평가하고 있다. Kao and Chiang(2000)은 패널자료의 공적분 회귀모형 내에서 통상최소자승(OLS), FMOLS, DOLS 추정량들의 점근분포를 연구하였다. 몬테카를로 시뮬레이션 결과 OLS 추정량이 유한표본에서 무시할 수 없는 편의를 갖고 있고, FMOLS 추정량은 일반적으로 OLS 추정량보다 개선되지 않으며, DOLS가 OLS와 FMOLS 추정량보다 우수한 성과를 보였다. Harris and Sollis(2003)은 FMOLS와 같은 비모수적 방법은 자료에 특이치가 있거나 오차항에 상당한 크기의 음(-)의 MA 요인이 있는 경우 DOLS 추정량에 비해 강건성이 떨어진다는 것을 보이고 있다. 또한 Wagner and Hlouskova(2010)도 DOLS가 단일 및 연립 방정식 모형 모두에 대해 다른 추정량에 비해 더 우수하다는 것을 보이고 있다.
5. 교란항
시간차원을 고려한 패널자료를 분석할 때 가장 중요한 과제는 '시간에 따라 변화하지 않으며 관측되지 않는 개별특성을 나타내는 오차항'을 어떻게 고려할 것인가이다. 패널 자료는 횡단면 데이터와 시계열 데이터의 특성을 동시에 가지기 때문에 오차항에 자기상관이 존재하거나 동분산성 가정을 위배할 가능성이 높다. 따라서 병합된 (merge) 패널데이터를 pooled OLS로 추정할 경우 일치추정량이 되지 못 한다[12]. 따라서 이러한 문제를 해결하기 위해 패널 개체의 특성을 고려한 모형을 사용한다. 그 중 가장 많이 사용하는 모형이 고정효과 모형과 확률효과 모형이다. 둘 중 무엇을 쓸 지는 절편, 기울기 계수, 오차항에 대한 가정에 따라 고른다.- 오차항이 확률변수가 아니고 고정된 값을 갖는 변수라고 여겨질 경우에는 고정효과모형(FEM: Fixed Effect Model)을 사용. 모든 횡단면 단위들의 기울기 계수는 일정하다고 가정한다. 절편은 횡단면 단위간 상이할 수 있는 omitted variables[13]로부터의 이질적 영향을 감안하는 고정효과 벡터로, 시간에 영향을 받지 않는다.
- 오차항이 확률변수인 경우 오차항의 공분산행렬을 구한 후 이를 이용하여 일반화된 회귀분석(GLS) 추정량을 구하는 확률효과모형[14]을 사용.
각 모형은 단점을 지니고 있다.
- 고정효과 모형은 특정 특성 (예: 국가별 특성)을 반영하는 고정효과가 다른 설명변수와 상관관계를 가질 가능성이 크다.
- 고정효과 모형이 시차종속변수 [15]을 설명변수로 포함하고 있는 경우 오차항과 설명변수간 상관관계로 인한 내생성 문제가 존재한다.
- μi 을 더미변수처럼 사용할 수 있거나, μi 을 고정된 값으로 가정하고 우도함수를 구한 후 최우추정법(MLE)을 사용할 경우 고정효과가 있다. 하지만 T가 짧고 N이 큰 대부분의 패널자료에서 앞의 두 경우는 거의 나타나지 않는다. 따라서 T가 짧고 N이 큰 경우 오차항을 확률변수로 보는 것이 타당하다.
- 임의효과 모형은 횡단면 단위의 숫자가 추정되는 계수의 숫자보다 적을 경우 이용할 수 없다.
오차구성모형[16]은 교란항의 구조에 대한 가정에 따라 One-way ECM과 Two-way ECM으로 나뉜다.
- One way ECM: uit = μi + εit. 여기서 i (individual)은 개별 특성과 관련된 효과, t (time)은 시간과 관련된 효과이다.
- μi 는 관측되지 않은 개별특성효과(unobservable individual effect)로, i와는 관련있고 t에는 무관한 변수이다.
- εit는 횡단관측치에 의한 영향과 시계열에 의한 영향을 혼합한 확률적 교란항으로 i,t와 관련있는 변수이다.
- Two way ECM: uit = μi + εit + λt
- λt는 관측되지 않은 시간 효과(unobservable time effect)로 t와는 관련있고 i에는 무관한 변수이다.
5.1. 미관찰 이질성
패널분석은 개체들의 미관찰 이질성 (unobserved heterogeneity)을 모형에 구축할 수 있어 모형 설정 오류(model mis-specification)를 줄일 수 있다.- 상태의존성(state dependence): (t-1)기의 상태가 t기의 상태에 영향을 미치는 정도. [17] genuine state dependence[18]이 존재하는지 알고 싶어서 상태의존성을 확인하는 것이지만, 실제로는 개인의 '미관찰 이질성'(unobserved heterogeneity) 통제에 실패했기 때문일 수도 있다. 횡단면 조사나 시계열 조사보다는 패널 조사가 미관찰 이질성 문제가 적다. 패널 조사에서도 여전히 미관찰 이질성 문제가 나타나지만, Wooldridge(2005)에 따르면 균형 패널일 경우 통제를 위해 대안적 추정량을 사용하여 해결할 수도 있다. Wooldridge(2005) 방법은 계산하기 쉬운 장점이 있다.
- 초기조건 문제: 조사에서 관찰된 기간의 처음시점의 조건이 개인이 실제 사건을 경험한 확률적 과정의 처음시점의 조건과 다른 데서 발생하는 문제이다. 미관찰 이질성을 통제하는 것은 쉬운 일이 아니다. 패널 자료 추정에서 미관찰 이질성을 잘 통제했다 하더라도 초기조건 문제가 발생한다. 상태의존성과 미관찰 이질성을 구분하기 위해 초기조건 문제를 사전적으로 처리해야 한다. 예를 들어, 빈곤 문제에서 t=1이 1998년이라면 이들 표본 중 많은 사람들이 1998년 이전에 이미 빈곤 경험이 있을 수 있다. t=1 이전 시기의 상태에 대한 상태의존성이 있을 수도 있고, 미관찰 이질성 때문일 수도 있다. 이 초기조건 문제를 해결하기 위해서는 초기조건을 확률적으로 설정한 random effects model을 이용할 수 있다.
이 문제는 도구변수 분석법을 이용할 수 있으면 좀 더 간단하다. 하지만 도구변수 선정이 적절하다는 보장이 없어서 문제가 된다.
6. 상관계수 분석
양이나 음의 관계가 나타날 때, 인과관계가 증명되었다고 좋아하면 안 된다. 단순히 두 현상이 같이 나타난다는 의미 정도로 보아야 한다. 엄밀한 의미의 변수간 인과관계를 확인하려면 그레인저 인과관계 분석을 해야 한다.[1] 0에 가까울수록 좌우대칭인 분포를 의미하고 음수값이면 왼쪽 꼬리가 긴 경우, 양수값이면 오른쪽 꼬리가 긴 형태를 의미한다.[2] 분포의 중앙 부분이 뾰족하고 꼬리 부분이 두터울수록 높아지는 값. 첨도가 3에 가까우면 정규분포에 가깝다. 3보다 크면 정규분포에 비해 꼬리 부분이 두터워진다.[3] lagged variable[4] 통계적 의사결정에 있어서 귀무가설(null hypothesis)이 거짓인 경우 이를 기각하는 가능성. 몬테 카를로 실험에 의한 Augmented Dickey-Fuller 단위근 검정법의 검정력에 관한 연구 (2005)에서 따옴.[5] 미국의 대표적인 거시 및 금융변수 14개의 시계열 중 실업율을 제외한 13개의 시계열이 단위근을 가진 불안정적 시계열이었다. Nelson, C.R. and C.I. Plosser (1982), "Trends and Random Walks in Macroeconomic Time Series," Journal of Monetary Economics : 10, 139-162[6] Augmented Dickey-Fuller. 오차항의 자기상관을 보정하기 위하여 Dickey-Fuller 검정법을 보완한 것이다.[7] Im, Pesaran and Shin (2003)의 W-test[8] Levin, Lin and chu (2002)의 t-ratio test[9] Generalized Method of Moments estimators[10] 동적 최소자승법. dynamic OLS. Stock and Watson (1993)[11] 완전-수정 최소자승법. fully-modified OLS. Phillips and Hansen (1990)[12] 출처 (2014)[13] 미관찰 변수[14] 임의효과 모형. REM: Random Effect Model[15] lagged dependent variable[16] ECM; Error Component Model[17] 예: (t-1)기에 저임금이었던 사람이 t기에도 저임금일 가능성이 높으면 상태의존성이 높다(존재한다).[18] true state dependence. '진정한 상태의존성'. (t-1)기 상태가 t기의 상태에 영향을 주는 인과관계로 설명됨.