나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2023-11-21 10:00:05

추론통계학

대립 가설에서 넘어옴

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리​통계학 기반 실해석학(측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률변수 · 확률분포(표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · t-분포 · z-분포 · F-분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙(무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균(산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차(절대편차 · 표준편차) · 분산(공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론​통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석(요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습(군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타분석 · 모델링(구조방정식)
기술​통계학 · 자료 시각화 도표(그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요
1.1. 추론
2. 들어가기 전에
2.1. 표본분포
3. 추정
3.1. 점추정: 좋은 추정량의 기준3.2. 구간추정: 추정의 오류 관리
4. 검정
4.1. 영가설과 대립가설4.2. 가설 검정의 오류와 그 관리
5. 관련 문서6. 둘러보기

1. 개요

/ inferential statistics

전체 모집단 중 일부를 표본으로 추출하여 통계량을 구한 뒤, 오차 및 오류의 허용 수준을 객관적으로 관리하면서 모수의 불확실한 성질을 추정하고, 이를 근거로 하여 특정한 진술을 받아들일지를 검정하는 학문. 즉 추론(inference)은 추정된 정보만 가지고 무엇을 검정한 결과를 자기 의사결정의 근거로 삼는 활동을 말한다.

경제학계, 공학계 등에서는 통계적 추론(statistical inference)이라고도 불린다. 반면 사회조사분석사 자격시험 및 기타 사회과학 영역들에서는 추론통계학으로 부른다. 이런 용어의 차이는 추론이라는 학문적 활동에서 어떤 측면을 강조할 것인가, 추론을 어떻게 바라볼 것인가에 대한 입장의 차이를 반영하고 있다. 아래 '점추정' 단락에서 상세히 서술되어 있으나, 상경계열에서는 모수추정 중에 발생하는 편의를 굉장히 민감하게 여기기에 추정이라는 활동을 무조건 선호하지는 않으며, 충분한 데이터가 가용하다면 담백하게 기술통계만 하거나 비모수적 모형만 만들어서 아예 편의를 0으로 유지하고 싶어한다. 반면 순수사회과학 분야에서는 잘못된 표집으로 인한 일반화의 제약을 항상 염두에 두기 때문에 불편추정과 효율추정을 함께 고려한다.

1.1. 추론

추론을 확률통계학적으로 간단히 정리해본다면 추정과 검정(가설검정)의 과학적 작업이라고 이해해볼수있다.
추정은 당연하겠지만 모집단을 대신해서 다루어진 표본(sample)에 대한 것이므로 점추정(표본평균,표본표준편차 등)과 구간추정(신뢰구간, 신뢰도 등) 의 표본통계량 작업이고 이를 바탕으로 가설검정단계로 넘어가 각 절차를 밟게 된다.
표본통계량인 추정 값(데이타)들은 신뢰구간,유의수준 같은 조건과 가정(설정)하에서 가설검정을 거치고 나면 비로서 검정통계량인 결론을 얻을 수 있게된다.

2. 들어가기 전에

통계적 방법으로서 추론통계학을 배울 경우, 대개의 사회과학 분야 학생들은 커리큘럼 첫 시간에 서론의 성격으로서 기술통계학과 추론통계학을 비교하게 된다. 그리고 여기서 모집단(population)과 표본(sample)의 차이를 배우게 되고, 모집단의 성질을 나타내는 모수(parameter)로서 모평균(μ)과 모표준편차(σ)가 있는 반면, 표본의 성질을 나타내는 통계량(statistic)으로서 표본평균(m)과 표본표준편차(s)가 있음을 배운다. 두 통계학적 흐름 속에서 사용하는 용어들이 서로 달라지게 된다는 것이다. 그러고 나서 커리큘럼은 본격적으로 기술통계학으로 넘어간다.

그런데 기술통계학 강의가 마무리된 뒤, 교수들이 가르치라는 추론통계학은 안 가르치고 갑자기 확률확률분포를 가르치기 시작한다. 특히나 수포자들은 갑자기 확률 이론이 예상치 못하게 튀어나오니 정신줄을 놓아 버리게 되고, 정규분포의 면적을 구하기 위해 분포를 뒤집어보고 접어보고 하다가 중간고사를 치르고 나면 커리큘럼의 흐름을 십중팔구 놓쳐 버리게 된다. 그 후부터는 추정을 가르치니까 추정을 배우고, 검정을 가르치니까 검정을 배울 뿐이다. 최악의 사례로는, 추론통계학은 첫 시간에 소개했던 m과 s 개념이 전부이고 추정과 검정은 전혀 다른 세계의 무언가(…)라고 받아들이는 경우도 있다. 이런 경우는 배움의 체계가 잡히지 못한 것이다.

큰 흐름을 잡아 보면, 통계적 방법의 커리큘럼은 분명히 서론 - 기술통계 - 추론통계 - 분석 순서로 이어진다. 그런데 별도의 사전지식 없이도 어렵잖게 직관적으로 받아들일 수 있는 기술통계학과는 달리, 추론통계학은 별도의 사전지식이 필요하다. 그것이 바로 확률과 분포에 대한 이론들이다. 이걸 이해해야만 비로소 추론통계로 진도가 넘어갈 수 있는 것이다. 이과생들을 대상으로 커리큘럼을 짜는 경우에는 기술통계에서 추론통계로 곧바로 넘어가도 낙오하는 사람이 없을지 몰라도, 문과생들은 그런 식으로 진도를 뽑으면 단체로 난 누군가 또 여긴 어딘가의 혼란에 빠질 위험이 있다. 그래서 서론 - 기술통계 - 확률과 분포 - 추론통계 - 분석 순으로 가르치곤 하는 것.

그래서 추론통계학은 단순히 표본을 추출해서 그 통계량을 근거로 모수를 추론하고 끝나는 통계가 아니다. 그건 그냥 표본조사라는 조사방법론이고, 더 냉정하게 말하면 일반인들도 그 정도는 할 수 있다. 추론통계학이 학문의 영역에 있을 수 있는 이유는, 그것이 추론에는 잘못된 판단이 나올 수 있다는 점을 솔직하게 인정하고, 적어도 그 잘못된 판단을 저지를 확률을 충분히 낮게 유지하고자 노력하며, 이를 위해 각종 수학적 논리를 활용하여 모두가 합의할 수 있는 기준점을 세웠다는 데 있다.

심하게 말하면, 모수에 대한 전수조사가 불가능해서 일부만 뽑아놓고 그걸로 전체를 추측하는 것은 그저 일상적인 추론이지, 수학적인 '추론' 이 아니다. 수학적인 '추론' 의 관점에서 본다면, 일상적인 추론은 자기 좋을 대로 "표본에서 이 숫자가 나왔으니까 모집단에서도 이 숫자가 분명해!" 라며 아득바득 입을 터는 것뿐이다. 반면 수학적인 '추론' 은 "뭐 좋아, 내가 입을 터는 게 맞긴 한데, 최소한 나는 내가 틀릴 가능성이 우리가 예전에 약속했던 수준보다 더 작아지도록 애를 쓰면서 입을 터는 거야" 라고 쿨하게 데이터를 오픈하는 것이다. 그렇기에 학자들이 추론통계학을 신뢰하고, 또 적극적으로 활용하는 것이다. 이 문서에서 '오차 관리' 나 '오류 관리' 같은 표현들이 앞으로 계속 등장할 텐데, 실제로 추론통계학을 학습할 때는 오차의 최대허용한계를 끊임없이 의식하면서 진도를 뽑아야 헤매는 일이 없다.

추론통계학의 논리는 "혹시 재수없게 엄청 이상한 표본이 뽑혀서 그런 데이터가 나온 건 아닌가?"(표본분포), "그 표본의 통계량이 모수의 성질을 제대로 '기대' 할 수 있다는 게 정말로 증명됐는가?"(점추정), "그 점추정 결과가 모수의 데이터와 항상 정확히 일치한다는 건 비현실적인 추정이 아닌가?"(구간추정), "구간추정에서의 오류 관리 방법이 모수에 대한 지식을 쌓는 데 어떤 도움이 되는가?"(가설 검정), "그 오류 관리 기준을 만족시켜서 어떤 가설을 채택했다 해도, 알고보니 끝내 본인이 틀렸을 가능성은 여전히 남을 텐데, 그건 어떻게 할 셈인가?"(유의수준)와 같은 가혹한 태클들을 쉴새없이 견뎌내면서 세워졌다. 표본을 뽑아다가 달랑 그 정보만 가지고 모수를 가늠하겠다는 주장 자체가 학술적으로는 이 정도의 반발을 불러일으킬 정도로 '억지 주장' 이 될 수도 있었지만, 놀랍게도 그걸 다 이겨냈기 때문에 학계가 끝내 추론통계학의 논리를 인정하고 수용한 것이다.

2.1. 표본분포

만일 우리가 대한민국 직장인들의 평균[1] 연봉에 대해 알고 싶다면, 모든 직장인들의 자료를 일일이 다 조사하는 것은 불가능하거나 혹은 매우 어려울 수 있다. 이 경우, 200명 정도의 직장인들만 무작위로 따로 뽑아내서 그들의 평균 연봉을 구한 다음, 그 통계량을 바탕으로 해서 당초 관심이 있었던 모평균을 추론하고자 시도할 수 있다. 그런데 이런 식의 논리는 금세 문제에 봉착한다. 그 표본을 어떻게 추출할 수 있는가? 자기 주변의 지인들 위주로 알음알음 추출하는 것은 너무 주관적이고 편향이 심하다. 그렇다면 난수표의 도움을 받아서 컴퓨터로 완전 무작위 추출을 한다면 해결될 것인가? 때로는 그조차도 문제가 될 수 있다. 정말 재수없게 극단적인 사람들만 랜덤신의 간택을 받아서 표본으로 뽑힐 위험이 있기 때문이다. 기껏 최대한 무작위로 추출하고 나서 봤더니 죄다 김앤장 같은 로펌 법조인만 모여있으면 연봉의 표본평균은 1억을 넘어갈 것이다.

흔히 표본평균과 모평균의 차이(m-μ)로 정의되는 표본오차(sampling error)는 이처럼 이상하게 튀는 표본에서 유독 극심해진다. 그런데 학자들이 표본오차를 줄이려고 봤더니, 표본오차는 표본의 크기가 모집단 크기에 대해 증가할수록 감소하는 경향을 보였다. 이렇게 되면 추론이라는 활동의 가치가 떨어진다. 작은 표본으로도 커다란 모집단에 대해 믿을 만한 통찰을 주자는 게 추론의 목적이기에, 표본을 무작정 키우라고 충고하는 건 "추론 따위 포기하면 편해"(…)에 가까운 항복 선언이기 때문이다. 결국 학자들은 개별 표본 내부에서 자체적으로 해결책을 찾으려는 시도를 단념하고, 다수의 표본을 추출하는 상황으로 관심을 돌렸다.

모집단에서 표본을 추출하는 것은 꼭 하나의 상황만 가능한 것은 아니다. 모집단이 100명이고 그 중에서 10명만 표본으로 뽑는다 해도 이미 [math(_{100}{rm C}_{10})]만큼의 가짓수가 가능하다. 표본을 무선적으로 추출하는 활동이 영 믿을 수 없는 활동이라면, 그 수많은 가짓수들은 완전히 제멋대로인 표본평균을 가질 것이다. 하지만, 만일 표본추출이 나름대로 믿을 수 있다면, 수많은 표본평균들을 분포로 늘어놓았을 때 어떤 중심화 경향(central tendency)이 드러날 것이고, 그렇게 중심에 모인 다수의 표본평균들이 소수의 이상한 표본평균을 압도할 것이다. 여기에 한 가닥 희망을 품은 학자들은 표본을 미친 듯이 반복추출해서 그 표본평균들만 모아다가 새로 분포를 만들었는데... 그렇게 만들어진 표본평균의 분포, 즉 평균의 표본분포(sampling distribution of the mean)가 뚜렷한 정규분포를 드러낸다는 것이 밝혀졌다.[2]

분포에 대한 지식이 있다면 정규분포는 매우 익숙한 분포이겠지만, 정규분포의 핵심적 메시지가 있다면 그것은 바로 평범할수록 흔해지고 극단적일수록 드물어진다는 점이다. 그렇다면, 평균의 표본분포가 정규분포의 모양을 갖는다는 얘기도, 표본을 뽑아 보면 평범한 표본일수록 많이 만들어지는 반면 이상한 표본일수록 적게 만들어진다는 의미라고 해석할 수 있다. 표본으로 모집단을 추론한다는 논리에서 수학적인 정당화의 첫 주춧돌이 놓이는 순간이다. 누군가가 "네가 들고 있는 그 표본이 평범하다는 증거 있어?" 라고 물을 때 괜히 후달려서 혓바닥을 길게 놀릴 필요 없이 평균의 표본분포는 정규분포에 근사한다는 간단한 사실만 상기시키면 되기 때문. 다시 말해 자신이 뽑은 표본은, 적어도 단순무선추출(simple random sampling)이 지켜졌다는 전제 하에서는, 뽑힐 수도 있었던 수많은 다른 표본들과 비교할 때 크게 이상하지 않을 거라는 자신감이다.

이 논리는 평균의 표준오차m; SEM; standard error of the mean)와도 관계가 있으며, 추론통계학에서는 위에서 소개했던 표본오차와 엄연히 구분되면서도 훨씬 더 주목을 많이 받는다. SEM은 평균의 표본분포가 갖는 표준편차이며, 이는 즉 숱하게 많은 표본평균들을 쭉 늘어놓은 분포에서 그 표본평균들이 사방으로 산포되어 있는 정도를 의미한다. 따라서 평균의 표본분포를 정규분포처럼 표현한다면 N(μ,σm2)이 된다.[3] 당연히 SEM이 클수록 평균의 표본분포는 가운데가 내리눌려져 꼬리가 두꺼워진지라 추론하기 힘든 정규분포가 되고, SEM이 작다면 평균의 표본분포도 그만큼 홀쭉하고 높아서 추론하기 편한 정규분포가 된다. 위의 표본오차 개념은 특정한 하나의 표본에서 나온 하나의 표본평균이 모평균과 얼마나 유사한지를 견주어 보지만, SEM이라는 개념은 숱하게 많은 표본평균들이 사방으로 튀는 경향성이 어느 정도만큼 심할지를 보여준다.[4]

SEM의 크기는 표본의 크기(n)와 모표준편차(σ)의 두 가지에 의해 좌우된다. SEM을 커지게 만드는 원인은, 표본의 크기(n)가 작아지거나, 모집단 자체가 원래 산포가 심해서 모표준편차(σ)가 커지거나, 혹은 둘 다인 경우이다(σm=σ/√n).[5] 표준오차는 표본분포의 표준편차이므로, 표본분포의 분산은 표준오차의 제곱이기도 하며(σm2=σ2/n), 모분산(σ2)을 그 표본의 크기(n)로 나누어 준 값이기 때문에 표본분포의 분산은 모분산보다 훨씬 더 작게 나타나는 경향이 있다.

그렇다면 평균의 표본분포는 어떻게 정규분포에 근사하는 것일까? 어쩌면 그 모집단 자체가 정규성을 띠고 있어서일지도 모른다.[6] 그게 사실이라면, 만일 모집단이 정규분포를 따르지 않는 경우에는 표본을 함부로 뽑아서는 안 될 일이며, 모집단이 정규성을 갖는다고 어떻게 확신했길래 표본을 뽑았냐는 비판에 끝없이 시달리게 된다. 하지만 평균의 표본분포가 드러내는 정규분포 모양은 모집단이 무엇이더라도 상관이 없다. 모집단이 푸아송분포를 따르든, 이항분포를 따르든, 아니 심지어 정규성이나 중심화 경향 자체가 없는 균등분포든 간에, 표본을 뽑으면 평범한 표본평균이 많이 뽑히고 이상한 표본평균은 적게 뽑힌다는 점은 차이가 없다. 즉 모집단의 분포 모양을 전혀 몰라도 표본으로 모집단을 추론하는 데는 아무 문제가 없다. 어차피 표본들을 잔뜩 추출해 보면 표본평균은 그것이 극단적인 만큼 드물게 나타나기 때문이다. 이것이 바로 중심극한정리(CLT; central limit theorem)이며, 이 정리가 밝혀지고 나서부터 학자들은 마음 놓고 표본을 추출할 수 있게 되었다.[7]

이 링크에서 직접 시뮬레이션을 돌려 볼 수 있다. 먼저 왼쪽 위의 'begin' 버튼을 클릭하고, 4개의 좌표평면 오른쪽에 있는 버튼들을 보자. 맨 아래쪽 좌표평면까지 사용할 필요는 없고, 셋째 좌표평면의 오른쪽에서 'Mean' & 'N=25' 를 설정하고 둘째 좌표평면에서 'Animated' 를 눌러 보자. 그럼 둘째 좌표평면은 개별 표본 내에서의 관찰값들의 산포를 보여주고, 셋째 좌표평면은 표본추출 결과로 얻어진 표본평균들의 산포를 보여준다는 걸 확인할 수 있다. 이번에는 셋째 좌표평면 오른쪽의 'Fit normal' 에 체크한 후, 둘째 좌표평면 오른쪽의 '5' 를 계속 누르면서, 셋째 좌표평면 왼쪽에서 Reps=100이 될 때까지 반복해 보자. 이것은 모집단에서 표본을 100개 추출했다는 얘기다. 마지막으로는 '10,000' 숫자를 눌러서 예쁘장한 정규분포를 감상할 수 있다.

이번에는 맨 위쪽의 'Clear lower 3' 을 클릭해서 전부 지우고, 그 아래에서 균등분포를 의미하는 'Uniform' 을 클릭하자. 모집단이 정규성을 갖지 않는다 해도 평균의 표본분포는 여전히 정규분포의 형태로 나타난다. 단지 모표준편차(σ)가 커서인지 아까보다는 조금 더 SEM이 커져서, 좌우로 좀 더 뚱뚱해진 곡선을 그리게 될 뿐이다. 마찬가지로 좌우 비대칭인 모집단인 'Skewed' 를 선택해서 불러온다 해도, 평균의 표본분포는 그 위치만 수평이동할 뿐 정규성을 잃지는 않는다. 맨 위 좌표평면을 마우스로 조작해서 아무리 괴상망측한 분포를 만들어도, 평균의 표본분포는 끈질기게 정규분포 모양을 유지한다.
<colbgcolor=#EEEEEE>Step 1<colbgcolor=#FFFFFF>파일:sampdist_step1.png<colbgcolor=#EEEEEE>n=25인 표본 1개를 추출한 히스토그램.
세로축은 관찰값 25개의 구간별 빈도이다.
Step 2파일:sampdist_step2.pngn=25인 표본 1개로부터 얻어진 표본평균의 표본분포.
세로축은 표본평균 1개의 구간별 빈도이다.
Step 3파일:sampdist_step3.pngn=25인 표본 10,000개로부터 얻어진 표본평균의 표본분포.
세로축은 표본평균 10,000개의 구간별 빈도이다.

여기서 표본의 크기를 N=5로 할 때와 N=25로 할 때에 가장 두드러진 차이는 역시 산포의 정도일 것이다. 위에서 SEM이 표본의 크기(n)가 작아질수록 커지게 된다는 내용을 이미 설명했다. 실제로 표본이 커질수록 시뮬레이터 상의 분포는 보기 좋게 모여드는 모습을 보인다. 그런데 사실 중심극한정리가 성립하기 위해서는 그 표본분포를 구성하는 표본들의 크기(n)가 충분히 커야 한다. 이에 대한 딱 떨어지는 수학적인 기준은 없지만, 통계학자들의 관행적인 합의는 30개 이상의 크기를 지닌 표본(n≥30)일 때 표본분포가 정규분포에 근사하게 된다는 것이다. 이 시뮬레이터에서 지원되는 표본크기는 그를 충족하지 못하지만, 이런 소표본일 때는 아쉬운 대로 정규분포가 아니라 그와 비슷한 t-분포(student t-distribution)라는 정규분포 비슷한 놈을 대신 잡아다 쓰게 된다. 이 경우 표본이 작아질수록 t-분포의 자유도(df; degree of freedom)가 함께 작아지고 산포의 정도도 커지긴 하는데, 그렇다고 종 모양 자체가 사라지지는 않으니 방법론으로서 치명적인 한계는 아니다.

t-분포 자체는 아래의 구간추정 파트에서 자세히 설명하겠지만, 그 외에도 t-분포가 표본분포에서 시사하는 점이 있다면 현실적으로 모집단의 산포에 대한 정보를 알 수 있기는 한가의 질문을 던진다는 것이다. 지금까지 설명한 표본분포의 각종 내용들은 암묵적으로 모표준편차(σ)를 알고 있을 때라는 전제를 깔고서 소개되었다. σ 값을 알면서 심지어 모집단이 정규분포를 따른다는 것까지도 안다면? 평균의 표본분포는 평범할수록 많이, 이상할수록 적게 나타날 것이다. σ 값을 알면서 모집단의 정규성은 모르지만, 어쨌든 표본의 크기(n)가 충분히 크다면? 중심극한정리에 따라서, 평균의 표본분포는 여전히 정규분포를 따른다고 확신할 수 있다. 그런데 막상 σ 값을 모르는 상황이라면? 평범한 사람들이야 표본표준편차(s)를 꿩 대신 닭으로 쓰자고 말해도 되겠지만, 수학적으로는 좀 더 엄밀한 주장이 요구된다. 표본표준편차(s)는 정말로 모표준편차(σ)를 제대로 가리킬 수 있는 믿을 만한 수치인가? 이 의문은 다음에 소개할 점추정의 문제의식과 연결된다.

3. 추정

Estimation

맨 처음에서 설명했듯이, 추론통계학은 모수의 불확실한 성질을 간접적 숫자들만 가지고 가늠해 보아야 하는 학문이다. 그런데 일반인들의 직관으로는 표본을 뽑아서 얻은 숫자들이 곧 모수의 그것과 같다고 치자고 생각할 수 있고, 의구심을 품는 사람들일지라도 "대충 그쯤 되겠지" 정도로 둘러대면 납득하는 편이다. 그런데 수학의 엄밀한 관점에서 본다면 그런 것은 입을 터는 것 이상도 이하도 아니다. 자신의 손에 들린 숫자가 자신이 알고자 하는 숫자를 얼마나 잘 가리키고 있는지(점추정), 그리고 그 가리키는 방향 속에 웬만하면 그 알고자 하는 숫자가 포함되어 있다고 얼마나 자신하는지(구간추정) 하나하나 따박따박 증명해 보여야 한다.

추정은 크게 점추정(point estimation)과 구간추정(interval estimation)으로 나누어지며, 현실적으로 점추정은 교육적 의의만을 가지며 역시나 구간추정이 가르칠 것도 훨씬 많고 쓰임새도 훨씬 많다. 그래서 어떤 사회통계 커리큘럼들에서는 점추정을 간단히 지나가듯 소개하거나, 구간추정의 소개를 위해서 먼저 잠깐 동원하거나, 심지어는 아예 생략하고 넘어가기도 한다. 하지만 점추정을 강조하지 않는다는 것은 추론통계학의 중요한 정당화 논리 중 하나가 통째로 빠져나간다는 것과도 같다. 이 논리들은 사회통계 커리큘럼에서는 깊이 가르치지 않기에 언뜻 당연해 보이지만 일단 파고들면 이것도 절대 만만치 않다. 추정의 수학적 기초는 회귀분석에서도 의지하고 있으므로[8] 나중에 거기까지 배운 뒤 다시 돌아와서 더 깊게 파고드는 것도 심화 공부로서는 제격이다.

본격적으로 들어가기 전에 미리 용어를 정리하자면, 추정량(estimator)이라는 단어는 모수를 추정할 수 있으리라 여겨지는 통계량의 후보들을 말하고, 추정치(estimate)라는 단어는 실제로 표본추출 결과 얻어진 추정량의 관찰값을 말한다. 예컨대 어떤 표본의 평균이 14.88이 나왔다면 추정량은 표본평균, 추정치는 14.88이 된다. 그런데 '추정량 - 추정치' 번역이 항상 합의된 것은 아니어서 일부는 '추정치 - 추정기' 같은 다른 번역을 쓰기도 하며, 이 때문에 혼란이 초래되기도 한다. 통계적 방법의 세계에서 번역은 종종 학문적 비용을 초래할 정도로 심각한 문제이며, 아예 한글 번역어가 아니라 영어단어로만 기억하는 것도 나쁘지 않은 선택이다.

3.1. 점추정: 좋은 추정량의 기준

양궁을 한다고 가정하자. 점추정은 과녁을 향해 화살을 쏘는 것과도 같다. 과녁의 정중앙에 화살을 최대한 가까이 꽂아야 하듯이, 좋은 추정을 하려면 모집단의 모수라는 과녁에 표본의 통계량이라는 화살을 최대한 가까이 꽂아야 한다. 그리고 표본의 추출은 화살이 될 것이고, 위에서 소개했던 표본분포 개념은 과녁에 화살들이 꽂힌 모양에 대응될 것이다. 표본분포가 정규분포를 따른다는 얘기는, '방금 자신이 쏘았던 한 발의 화살은 평소 자기 실력에서 크게 벗어나지 않은 화살' 이라고 웬만하면 믿을 수 있겠다는 얘기가 된다.

실력 있는 사수의 과녁은 어떤 모습일까? 우선, 매번 화살을 쏠 때마다 손이 흔들려서 화살들이 사방팔방으로 튀면 안 된다. 과녁에 화살들이 얼마나 넓게 퍼져서 꽂혀 있는지의 산포의 모습은 곧 평균의 표본분포가 갖는 분산이 될 것이다. 그런데 양궁의 실력은 분산만으로 끝이 아니다. 좋은 양궁 실력은 단순히 일관되게 쏘는 능력뿐만 아니라 목표했던 과녁 정중앙에 화살을 정확히 조준하는 능력도 포함하기 때문이다. 화살들이 오밀조밀 모여 있는데 과녁 가장자리에 죄다 박혀 있다면(…) 그 사람은 잘 쏘는 게 아니다. 여기서 과녁 정중앙을 얼마나 정확히 조준하고 있는지의 모습은, 평균의 표본분포가 갖는 편의(bias)라는 개념에 대응된다.[9][10] 그리고 각각의 화살이 꽂힌 위치(표본평균)와 과녁 정중앙(모평균) 사이의 거리를 재어 보면, 그 거리에는 분산과 편의 두 종류가 모두 반영되어 있다. 이것을 추정오차(estimation error)라고 한다.[11]

분산과 편의가 모두 반영된 개념이 추정오차라면, 어떤 표본평균이 모평균에 대해 갖는 추정오차를 최소화할 때 비로소 좋은 추정이 이루어졌다고 판단할 수 있을 것이다. 즉, 분산과 편의가 모두 작은 추정이 필요하다. 그렇다면 추정오차가 최소화되었는지는 어떻게 알 수 있을까? 기술통계학에서의 분산의 논리를 생각해 보자. 평균으로부터 각 관찰값들이 얼마나 멀리 퍼져 있는지는, 관찰값과 평균의 차이인 편차(deviation)를 모두 구한 후, (-) 부호를 떨구기 위해서 임의로 모든 수에 제곱연산을 해 주고, 이 값들을 합산한 편차제곱합에다 관찰값의 수를 나누어 주면 된다. 그렇다면 마찬가지로, 표본평균들이 모평균으로부터 떨어진 거리인 추정오차를 제곱해서 (-) 값을 떼어내고 전부 합산해서 표본평균의 수로 나눌 수도 있을 것이다. 이 논리가 바로 평균제곱오차(MSE; mean of squared error)이다. 그렇다면 분산에 표준편차가 있듯이, MSE에도 똑같이 루트를 씌울 수 있겠다 싶을 것이다. 실제로 그것은 평균제곱근오차(RMSE; root mean squared error)라고 불리며, MSE만큼 흔하게 쓰인다.[12]

MSE든 RMSE든 간에, 숫자가 작으면 작을수록 좋은 추정이라고 할 수 있으니, 이제 남은 것은 (R)MSE를 최소화할 수 있는 추정의 수학적 논리를 찾는 것이다. 자세한 내용을 구구절절 확인하는 것은 사회과학이 아니라 수학의 영역이기는 하나, 사회과학자들보다 수학을 더 잘 했던 수학자들은 마침내 기댓값(expected value)이 추정치의 편의를 최소화하는 계산 방식임을 확인했다. 하지만 모수를 추정하기 위한 추정량의 후보들은 하나 둘이 아닌데, 무엇의 기댓값을 구할 것인가? 당장 표본평균 이외에도 표본중앙값, 표본최빈값 등이 있다. 수학자들이 발견한 것은, 중앙값이나 최빈값이 아니라 평균의 기댓값을 구했을 때 비로소 그 기댓값이 모평균과 동일하다고 수학적으로 유도되더라는 것이다(E(m)=μ). 이처럼 표본의 추정량으로부터 기댓값을 구했을 때 모수와 동일하다는 결론이 나온다면 불편성(unbiasedness)을 만족한다고 하고, 이런 추정량들을 불편추정량(unbiased estimator)이라고 부르기도 한다.

마찬가지로 모분산을 알고자 할 경우에도 표본분산의 기댓값은 모분산과 동일하다(E(s2)=σ2)는 점을 활용할 수 있다. 그런데 분산에서는 뜻밖의 문제 하나가 생겼다. 수학자들이 표본분산의 기댓값 수식을 열심히 만지작거리며 모분산으로 바꾸려고 노력해 보니, 모분산이 나오긴 나오는데 쓸데없이 (n-1)/n이라는 찌꺼기(?)가 덜렁덜렁 붙어 나오더라는 것이다(σ2(n-1)/n). 바로 이 숫자가 과녁의 조준을 '비틀어지게' 하는 것이다. 그래서 이걸 없애줄 깔끔한 방법을 찾던 수학자들은, 차라리 표본분산의 정의에서 분모를 살짝 바꿔 버리자는 결론에 도달했다. 모든 문제는 표본분산을 정의할 때 편차제곱을 평균한다는, 즉 편차제곱합을 관찰값의 수(n)로 나눈다는 데 있었으니, 애초부터 거기서 1을 뺀 수(n-1)로 나눈다고 재정의해 버리면 기댓값을 계산할 때 분모에 n 대신 n-1이 들어가면서(σ2(n-1)/(n-1)) 분자의 n-1과 함께 사라져 버리는 것이다(σ2). 그래서 표본분산은 추론통계학의 목적의식에 부합하기 위해 도구적으로 재정의된 사이비(…) 분산이 되었다. 즉, 표본분산의 분모가 유독 n-1인 이유는, 그렇게 해야 표본분산이 모분산에 대한 좋은 추정량이 될 수 있기 때문이다.[13]

그런데 위에서 추정오차는 분산과 편의가 모두 반영되었다고 소개한 것을 되새겨 보자. 추정오차를 최소화하기 위해서는 기댓값을 통해서 편의를 최소화하는 것도 필요하지만, 분산을 최소화할 필요도 있다. 여러 추정량들 중에서 분산이 충분히 작게 나타나는 성질을 효율성(efficiency)[14]이라고 하며, 이를 만족하는 추정량들은 효율추정량(efficient estimator)으로 인정한다. 즉, 좋은 추정은 불편성을 만족할 뿐만 아니라(편의의 최소화) 그와 동시에 효율성까지도 만족해야 한다(분산의 최소화). 편의와 분산이 모두 최소화되었을 때 가능한 가장 작은 (R)MSE 값이 구해져서, 과녁의 중앙에 최대한 가깝게 화살을 꽂을 수 있는 것이다. 만일 편의는 최소화됐으나 분산은 큰 추정량이 있다면, 과녁을 제대로 겨누기는 했으나 화살들이 과녁의 중심 주변으로 퍼져서 꽂힐 것이다. 이런 추정량의 대표적인 사례가 가중산술평균(weighted arithmetic mean)이다. 추론통계학에서 한사코 평범한 산술평균을 고집하는 이유가 바로 이 효율성이 좋기 때문이다. 평균이 한계가 많은 요약임에도 불구하고 추정에는 워낙에 강력하다 보니 인기가 있는 것.

그런데 사실 모수라는 것이 표본의 관점에서 본다면 '영원히 닿을 수 없을 만큼 멀리서 반짝이는' 아득한 무언가인 것은 아니다. 표본을 한없이 늘려 가기만 한다면, 그 표본이 갖고 있는 평균이나 분산 등은 모평균과 모분산에 점차로 가까워져서, 표본이 마침내 모집단과 동일해지게 되는 순간에는 표본평균이 곧 모평균이 되고, 표본분산이 곧 모분산이 되어야 한다. 마찬가지로 표준오차의 경우에도, 표본의 크기가 작을 때에는 표본에 따라서 별의별 숫자가 나올 수 있으니 모분산과 표본분산의 차이가 크게 나타나겠지만, 표본의 크기가 점차 커져서 모집단의 상당수를 차지하게 되면 모분산과 표본분산의 차이는 굉장히 작아질 것이다. 이처럼 좋은 추정량은 표본의 크기가 커질수록 각 추정치들이 모수를 향해 점근적(asymptotic)으로 모여드는 경향을 보여야 한다. 이를 가리켜 일치성(consistency)이 좋다고 하고, 이런 추정량을 일치추정량(consistent estimator)이라고 한다.[15]

일반인들이 직관적으로 표본평균만 갖고도 모평균을 가늠할 수 있다고 입을 터는 동안, 우리의 엄밀한 수학자들은 위의 모든 세심한 검토를 거치고 나서야 비로소 어렵사리 "표본평균으로 모평균을 추정한다 해도 큰 문제는 없겠다" 라는 판단을 할 수 있었다. 위의 이야기들이 없었더라면 표본평균이 가리키는 어떤 한 숫자가 그 자체로 곧 모평균이라고 주장하는 것은 굉장한 부담이 따랐을 것이며, 주장하는 것 자체가 학술적인 스캔들(…)이 되었을지도 모른다. 아니, 심하게 말하면 점술가들이 미래를 본다고 말하는 것과 크게 다르지 않았을 것이고, 소수의 실험 참가자 표본을 뽑아서 전체 인간 세계로 일반화하는 현대의 과학적 방법들조차 유사과학이라는 의심의 눈총을 받아야 했을지도 모른다. 하지만 위의 작업을 통해, 학자들은 자신들이 추정에 있어서 오차를 최대한으로 줄이려고 노력했고 그들이 할 수 있는 최선의 선택을 했다는 점을 입증할 수 있게 되었다. 그래서 설령 추정이 잘못되더라도 틀렸지만 최선을 다했다로 평가받을 수 있다. 비록 말 그대로 "모수는 바로 여기에 있어!" 라고 콕 집어 말하는 식으로 점추정을 하는 경우는 실제로는 거의 없지만, 그 기본 논리는 살아남아서 후학들이 아래의 구간추정을 마음 놓고 할 수 있도록 뒷받침해 주고 있다.

3.2. 구간추정: 추정의 오류 관리

위에서 지적했듯이 점추정은 그 자체만으로는 잘 쓰이지 않는다. 그것은 마치 "모수는 정확히 이것이다" 라고 주장하는 것과 같기 때문이다. 하지만 모든 추정은 결국 불확실성을 갖는데, 점추정은 불확실성이 얼마나 큰지에 대한 정보를 주지 못한다. 점추정의 논리가 아무리 탄탄하더라도 그 점추정의 기초가 되는 표본추출 자체가 모집단을 완벽하게 대표할 수 있는지는 불확실성의 영역이고, 점추정의 결과가 정확히 모수와 같다는 주장도 비현실적이게 된다. 저 중심극한정리 같은 개념들도 단지 표본이 극단적일 경우는 별로 없다고 안심시키는 논리일 뿐, 통계량이 정확히 모수와 동일하다고까지 주장하는 논리는 아니다.

그렇다면 이에 대한 보완 논리가 필요하다. 평범한 연구자들은 죽었다 깨어나도 모집단을 '완벽할 정도로 정확하게' 대표하는 표본을 뽑을 수가 없다. 통계량과 모수가 웬만큼 비슷하리라는 것 정도는 기대하지만, 얼마나 비슷할지는 잘 모른다. 그렇다면, 적어도 비슷할 것이 기대되는 이상, 표본평균 같은 점추정 결과를 놓고 위아래로 구간을 잡아서 "대충 이 정도 안에 있겠지" 라고 말할 수 있을 것이다. 하지만 이것도 역시 일반인들의 직관이다. 수학자들은 대번에 "구간으로 추정한다는 건 좋아, 근데 뭘 근거로 범위를 그만큼 잡았는데?" 라고 반문할 것이다. 점보다는 구간으로 추정하는 것이 더 바람직하지만, 이때는 구간의 산정 근거가 있어야 한다.

가장 우선적으로 생각할 것은, 역시 구간은 좁으면 좁을수록 좋다는 것이다. 쉬운 예로, "대한민국 20대 남성들의 평균 키는 얼마인가?" 의 질문을 받고는 "표본의 평균이 173cm로 나왔으니, 최소 73cm 내지는 최대 273cm 사이겠네요" 라고 대답하는 건 그냥 싸우자는 얘기다(…). 이 사람은 가장 안전한 대답을 원했을지 몰라도, 질문자는 정확한 대답을 원했기 때문이다. 그런 대답은 아무짝에도 써먹을 수 없다. 하지만 그렇다고 해서 반대로 "최소 172.5cm 내지는 최대 173.5cm 사이입니다" 라고 대답하는 건 뒷일을 감당하기 힘들어진다. 누군가는 이 주장을 고스란히 믿고 큰돈을 들여 뭔가에 투자할 수도 있기 때문이다. 정리하자면, 구간은 필요한 만큼 정확하면서도(좁을수록 바람직) 그 정확성을 담보하는 한에서 안전해야 한다(넓을수록 바람직). 구간의 산정은 이 둘 사이의 오묘한 줄타기이자 타협의 결과이다.

그렇다면 모수가 있을 것으로 생각되는 구간의 범위를 제시하는 식은, 표본평균으로부터 특정한 숫자를 빼서 하한선을 정하고(m-ε), 표본평균에다 특정한 숫자를 더해서 상한선을 정하여(m+ε)[16] 이 두 한계점 내부에 모수가 있을 것이라고 생각하면 될 것이다(m-ε≤μ≤m+ε). 그런데 여기까지는 역시 일반인들의 직관이다. 수학자들은 어떤 구간 안에 어떤 수가 들어있을 확률에 대해 '있거나 없거나', 즉 있을 확률 1/2, 없을 확률 1/2로만 대답하기 때문이다. 수학자들이 생각하는 구간추정의 확률 계산법은, 표본을 계속 재추출하며 같은 구간으로 반복추정을 했을 때 그 구간 속에 모수가 얼마나 자주 들어있어야 하는가에 대한 대답이 먼저 나와야 한다. 반복추정이라는 전제를 넣어야 모수가 들어있을 확률의 계산(P(m-ε≤μ≤m+ε))이 가능해지는 것이다.

그럼 숱하게 표본을 반복추출해서 구간추정을 하는 동안, 그 구간 속에서 얼마나 자주 모수가 발견되도록 구간을 조절해야 할까? 이 문제를 신뢰수준(confidence level)이라고 하며, 사실 여기에 수학적인 정답은 없다. 100번의 구간추정 중 99번에서 모수가 발견되게 한다면 추정의 정확성은 높겠지만, 그 가혹한 허들을 넘기 위해 구간은 한없이 넓어질 것이다. 결국, 위에서 사례로 들었던 저 무책임한 답변자가 되는 것이다. 반대로 100번 중 80번만 모수가 발견된다 해도 만족한다면, 필요한 구간은 매우 좁혀지겠지만 반대로 뒷일을 감당하기 힘들어진다. 모수 없는 20개의 '꽝' 표본에 당첨(?)됐을 수도 있기 때문이다. 이런 고약한 상황은 최대한 유의해서 피해야 하므로, 학자들은 '꽝' 에 당첨될 확률에다 유의수준(significance level), 더 짧게는 알파(α)라고 별도로 이름까지 붙여 주었다. 그렇다면 반대로 반복추정 시 모수가 구간 속에 들어있을 확률인 신뢰수준은 전체 확률에서 유의수준을 뺀 확률이 되며(1-α), 신뢰수준과 유의수준을 합하면 전체 확률이 된다.

신뢰수준이 얼마나 높아야 할지(=유의수준이 얼마나 작아야 할지)에 정해진 정답이 없다면, 남은 것은 자기들끼리 모여서 별 수 없이 쑥덕거려서 합의하는 것밖에는 없다. 결국 학자들은 관행적으로, 100번의 구간추정 중 95번의 추정에서 모수가 발견되는 수준에서 추정의 정확성과 안전성을 관리하자고 의견을 모았다(1-α=0.95). 거꾸로 말하면, 엄밀한 통계적 방법을 따랐을 때 하필이면 '꽝' 에 걸릴 확률이 5% 수준으로 관리되도록(α=0.05) 구간을 조절하자는 얘기다. 여론조사 보도에서 흔히 나오는 "본 조사는 95% 신뢰수준으로 실시되었으며..."클리셰적인 멘트는 바로 이런 뜻을 담은 것이다. 똑같은 조사를 99번 더 진행한다 해도 그 중 95번은 결과가 어떻게 나오든 자기들이 옳을 것이니 무작정 자기들 욕하지 말라는 얘기다(…). 이러한 신뢰구간에 대한 직관적인 설명을 담은 영상이 있다.

이제 우리는 0.95 혹은 95%라는 신뢰수준을 얻었다. 다음으로는 반복추정 시 모수가 발견될 확률이 이 기준을 충족할 수 있도록 신뢰구간(CI; confidence interval)[17]을 정하면 된다(P(m-ε≤μ≤m+ε)=1-α=0.95). 이는 곧 표본평균에서 더하거나 빼 줄 특정한 숫자(ε)를 어떻게 산출할 것이냐의 문제다. 만일 이 숫자(ε)가 작다면 그것은 구간이 좁아진다는 의미가 되고, 반대로 커진다면 그것은 구간을 넓게 잡는다는 의미가 된다. 그래서 확률이 0.95에 일치하도록 이 숫자(ε)를 키우거나 줄여야 한다. 여기서 문제의 숫자의 크기(ε)를 결정하는 정보는 총 3가지이다. 하술하겠지만 이 정보들 중 일부를 모르더라도 대응 자체는 가능하지만, 일단 전부 알려져 있을 때를 기준으로 설명하면 다음과 같다.

이를 수식으로 풀어 쓰자면 P(m[20]-Zα/2[21]σ[22]/√n[23]≤μ≤m+Zα/2σ/√n)=1-α가 되며, 구간추정에서 허용되는 오차범위(ε)는 ε=±Zα/2σ/√n로 쓰이게 된다. 예를 들어, 95% 신뢰수준(Z0.025=1.96)에서 표본평균(m)은 43.22, 모표준편차(σ)가 15이고 표본의 크기(n)가 900이라면, 여기서의 오차의 허용한계는 1.96×(15/√900)=0.98이 되며, 해당 신뢰수준에서의 구간은 최소 42.24, 최대 44.2로 나오게 된다. 즉 42.24~44.2 정도 범위 속에서 모수가 있다고 말하고 싶은데 동일한 표본추출을 100번 해도 95번은 모수가 발견되리라는 오차 관리가 이루어진 것이며, 직관적으로도 꽤나 믿을 만한 추정이 완료된 것이다. 흔한 여론조사에서 "...38%의 응답자들이 대통령을 지지하였고, 오차범위는 ±1.2%입니다..." 라고 클리셰적으로 멘트를 치는 것 또한 이상의 의미를 담고 있는 것이다. 자기들은 적어도 36.8%에서 39.2% 사이에 '진짜' 지지율이 있다고 보는데, 똑같은 조사를 100번 진행해도 자기들이 95번은 맞출 거라고 자신할 수 있다는 것.

파일:CI-95%.png
(단, 신뢰수준에 따르는 추정구간의 변화는 이해를 돕기 위해 과장되어 있다.)

다양하게 나타나는 빨간색의 표본평균(m)들이 모평균(μ)을 단 하나도 정확히 맞추지 못했지만, 그래도 95% 신뢰수준에서 z-값과 모표준편차(σ), 표본의 크기(n)를 활용해 초록색 구간을 만듦으로써 20번 중 19번은 모평균(μ)을 포함하는 데 성공한 모습이다. 허들을 99%로 높이면 '꽝' 표본을 뽑는 상황이 100번 중에 겨우 1번이어야 하므로, 이 가혹한 요구에 부응하기 위해 구간을 늘릴 수밖에 없다. 반대로 허들을 90%로 낮추면 "사람이 틀릴 수도 있지 뭐" 모드가 발동하여(…) 좀 더 과감하게 좁은 구간에서 추정할 수 있게 된다. 키가 73~273cm일 게 뻔하다는 드립처럼 '부정확하고 믿을 만한' 추정을 하거나, 키가 172.5~173.5cm일 수도 있는데 틀려도 책임 안 진다는 드립처럼 '정확하지만 무책임한' 추정을 하는 극단적인 상황이 아니더라도, 허들의 높이는 적당히 타협하면 되는 문제다. 어쨌든 구간추정이 점추정에 비해 갖는 장점은 자신의 추정이 틀릴 수 있다는 불확실성을 인정하고 체계적으로 관리함으로써 책임감 있는 추정을 할 수 있다는 데 있다.

위의 그림도 이 링크에서 똑같이 시뮬레이션할 수 있다. 왼쪽 Method 아래에서 각각 Means, Normal, z with sigma를 설정하고, μ=0, σ=10, n=30, intervals=20, 신뢰수준은 95%로 설정하여 Sample을 클릭해 보면 위와 똑같은 모습을 볼 수 있다. 반복 클릭을 할 때마다 가끔은 20개 모두 모평균을 포함하기도 하고, 때로는 두세 개가 빗나가기도 하지만, 아래쪽의 Running Total은 요구한 신뢰수준에 점점 맞춰져 가는 걸 볼 수 있다. 시험삼아 모표준편차(σ)와 표본의 크기(n)를 조절해 보면 그것이 구간의 길이에 영향을 줄 수 있음도 확인된다. 오른쪽 아래 Sample Statistics에서도, 모수 없는 '꽝' 표본()보다는 모수를 포함하는 평범한 표본()이 훨씬 더 많이 뽑히는 걸 볼 수 있다.

그런데 위에서 잠깐 언급했었지만, 위와 같은 방식으로 추정하는 전략이 힘겨울 때가 있다. 우선 현실적으로 우리는 모집단의 성질에 대해 모르는 경우가 많다. 풀어서 말해, 모집단이 얼마나 산포되어 있는지 모르는 채 추정을 시도할 때가 많다. 그런데 표본이 크다면 이 문제는 충분히 무시할 수 있다. 만일 표본의 크기가 충분히 크다면(n≥30), 모집단의 산포가 작거나 큰 여부에 의해 평균의 표본분포의 분산이 크게 영향을 받지 않으므로 안심하고 정규분포를 가정, z-값을 쓸 수 있다. 반면 표본이 너무 작을 경우(n<30), 모집단의 산포의 정도는 이따금 평균의 표본분포가 갖는 분산을 뒤흔들어서 갑자기 극단적인 분산 값이 자꾸 튀어나오게 만들 수도 있다. '극단적임에도 드물지 않은' 분산 값의 패턴은 종 모양의 곡선을 무너뜨려서 표본분포가 갖는 정규성이 위배될 위험을 초래한다.

하지만 이 두 가지 상황에 처한 사람도 어쨌든 추정다운 추정을 해야 할 일이 생기니 문제다. 다행히 먼 옛날에 양조장에서 일하던 어떤 머리 좋은 직원이 있었고, 그는 이 리스크를 회피하기 위해 정규분포에 엇비슷하게 생긴 땜빵용 분포(…)를 그리는 'T' 라는 이름의 확률변수를 고안했다. 이 확률변수가 그리는 분포의 이름은 t-분포로 정해졌다. 그 후로 소표본을 활용할 일이 있을 때에는 모두가 줄창 t-분포만 쓰게 되었다. 그래서 현대의 사회통계 커리큘럼에서도 "소표본일 때는 z-값이 아니라 t-값을 쓴다" 정도는 꼭꼭 가르치고 있는데, t-분포에는 자유도라는 복병이 기다리고 있으니 문제다.

자유도 개념은 통계적 방법에서 설명하기가 가장 까다로운 개념으로 손꼽히며, 지금 이 순간에도 수많은 교수들과 강사들이 자유도를 문과생들에게 조금이라도 더 쉽게 설명할 길을 찾기 위해 애쓰고 있다(…).[24] 사실 t-분포에서 자유도가 도입된 것은 그것이 저 위의 각주에서 잠시 소개했었던 χ2-분포에 기원하기 때문이며, χ2-분포 자체가 자유도의 영향을 받아 분포의 모양이 변화하기 때문에 t-분포까지도 그걸 물려받은 것이다. 아무튼 중요한 것부터 설명하자면 t-분포에서 자유도는 기본적으로 표본의 크기(n)에서 1을 빼 준 값이다(k=n-1). 위의 불편추정량 부분에서 설명했지만 표본분산은 철저히 모분산의 편의 없는 추정을 위해서만 정의되는, 수학적 순수함이 좀 낮은(…) 괴상한 분산이다. 표본분산은 그것이 모분산을 정확히 가리키고 있다는 전제가 걸려 있다 보니, 관찰값들의 분산을 평범하게 '기술' 할 때는 자유도에 관여하지 않았던 평균 계산이, 모분산을 '추정' 할 짐을 짊어진 여기서는 우리의 자유도를 1만큼 희생시키고 말았다.[25]

어설프게 표현하자면, 자유도라는 것은 미지수에 대응하여 정보를 채워넣을 수 있는 자유의 정도와 유사하다. 그리고 미지수들이 하나씩 식별 혹은 관측되어 그 정체가 드러날 때마다 자유도도 1씩 감소한다. 여기까지는 쉬운데, 마지막으로 중요한 것은 다른 미지수의 정보에 종속된 미지수는 자유도를 제공하지 않는다는 점이다. a+b+c+d+e=10이 성립할 때 마지막 e가 자유도를 제공하지 않아서 자유도가 4에 그치는 이유는, 마지막 하나의 미지수만큼은 다른 미지수들에 정보를 채워넣는 것에 종속되어 있어서 자동으로 식별되어 버리기 때문이다. 기본적으로 미지수는 무주공산이며, 우리는 주어진 자유도 내에서는 악동처럼 아무 정보나 미지수에다 마구잡이로 때려넣어도 수식을 깨뜨리지 않을 수 있다. 하지만 그 이상으로는 정보를 집어넣을 자유를 누릴 수 없다. 나머지는 이미 전부 식별되어 있거나, 우리가 집어넣는 정보에 종속되어 있기 때문이다. 다른 미지수에 종속된 미지수가 여럿이라면 당연히 1을 뺄 게 아니라 그 이상으로 빼야 한다. 여기서 요점은 표본분산 속에 종속된 미지수가 하나 생겨나 있고, 표본분산에 기초하는 χ2-분포와 t-분포 역시 그 종속된 미지수를 그대로 안고 간다는 점이다.

아무튼 t-분포도 이 자유도(k=n-1)에 의해서 모양이 바뀌지만, 한 가지 희소식이 있다. 표본이 충분히 크다면(n≥30), t-분포의 모양은 정규분포의 예쁜 종 모양에 무한히 가까워지며, 사실 n=30만 되어도 벌써 t-분포와 정규분포를 겹쳐 놓으면 육안으로 구분하기 힘들 정도이다. 그렇기 때문에 충분히 큰 표본에서는 t-값을 쓰든 z-값을 쓰든 별 상관이 없다. 문제는 표본이 너무 작을 때인데(n<30), 비록 좌우대칭의 종 모양은 꾸준히 유지되기는 하나, 자유도가 작을수록 중앙부의 꼭대기가 낮아지고 양 옆의 꼬리가 두꺼워지는 모습을 보인다. 연속형 확률변수는 면적으로 확률을 구한다는 점을 상기하면, 같은 95% 신뢰수준에서 표지판을 꽂을 때에도 가운데가 눌리는 만큼 t-분포의 0.95 면적은 좌우로 정규분포보다 좀 더 넓은 범위로 벌어져 나오게 된다. 실제로 정규분포는 1.96 위치에서 표지판을 꽂는 반면, t-분포는 자유도(k=n-1)에 따라 그보다 조금 더 양쪽으로 멀리 떨어진 주소지에 t-값의 표지판을 꽂는다. 표본의 크기가 20 미만으로 떨어지면 2.xxx로 주소지가 계속 멀어지기 시작하더니, 표본의 크기가 달랑 3일 때(k=2)는 4.30이라는 까마득한 멀리까지 날아가 꽂힌다. 이를 해석하면, 표본이 작은데도 요구하는 신뢰수준에 부응하려면 그만큼 구간을 넓게 잡을 수밖에 없다는 의미가 되며, t-분포는 소표본의 크기에 민감하게 대응하여 구간을 조절해 주는 좋은 분포라고 하겠다.

그래서 t-분포를 사용해서 신뢰구간을 산정할 때는 위에서 설명했던 것보다는 조금 복잡해진다. 위에서는 z-값을 확인하기 위해 유의수준(α)이 얼마로 요구되는지만 알면 되었다. 그런데 t-값을 활용하려면 유의수준(α) 외에도 자유도(k=n-1)에 대한 정보도 함께 필요하다. 물론 여기서의 자유도는 심플하게 표본의 크기에서 1만 빼 주면 끝이다. 하지만 z-값을 구할 때 z-분포표를 사용하는 것처럼, t-값을 구할 때는 별도로 t-분포표를 쓰게 되며, 세로열에서 원하는 유의수준에 해당하는 열을 찾은 뒤 가로행에서 자유도를 찾는 식으로 읽는다. 물론 t-값만 자동으로 찾아 주는 웹 사이트도 있다.
   α
자유도(k) 
0.40.05<colbgcolor=#B7F0B1>0.0250.0005
<colbgcolor=#EEEEEE>
80.2621.8602.3065.041
90.2611.8332.2624.781
100.2601.8122.2284.587
110.2601.7962.2014.437
120.2591.7822.1794.318
130.2591.7712.1604.221

위의 t-분포표의 경우, 표본의 크기가 12에 불과한 소표본이고(n=12) 요구되는 유의수준이 α=0.05일 경우, 구간의 양측에 표지판을 세워야 하기 때문에 α/2로 적용하여 0.025의 세로열을 먼저 찾는다.α/2를 적용하는 이유를 직관적으로 설명한 영상[26] 이후 자유도는 11에 해당하므로(k=12-1=11) 이 두 조건을 모두 만족하는 t-값은 t(0.025,11)=2.201로 얻어지는 것이다. 같은 유의수준에서 표본의 크기만 충분히 컸어도 ±1.96 주소지에다 z-값의 표지판을 꽂자는 초안을 낼 수 있었는데, 표본의 크기가 작다는 문제로 인해서 ±2.201 주소지에다 t-값의 표지판을 더 넓게 꽂자는 초안이 나온 상황이다. 결과적으로 똑같은 허들을 적용했음에도 추정해야 할 구간은 더욱 늘어나게 되었다.

또한 t-분포를 써야 하는 소표본의 처지는, 거의 대개의 경우 위에서 설명한 것처럼 모집단의 산포의 정도를 모르는 채로 추정을 진행하게 된다. 그래서 구간추정을 할 때 일반적인 경우처럼 모표준편차(σ)를 그대로 쓰는 것이 아니라 표본표준편차(s)로 바꾸어 쓰게 된다. 위에서 살펴보았듯이 표본분산(s2)은 특수한 놈이고, 그 놈에다 루트를 씌운 표본표준편차(s)도 특수한 놈이다. 우리의 추정을 돕기 위해 추정의 편의를 제거함으로써 자유도를 희생시키면서까지 부단히 노력(?)한 통계량인 것이다. 따라서 우리가 모표준편차(σ) 대신 표지판 위치 조정장치로 활용하기에 편의가 없다고 인정해 줄 수 있다. 아무튼 그래서 구간추정의 수식은 P(m-t(α/2,k)s/√n[27]≤μ≤m+t(α/2,k)s/√n)[28]=1-α가 되며, 오차의 허용한계(ε)는 ε=t(α/2,k)s/√n라고 할 수 있다.

4. 검정

<colbgcolor=#000> 과학 연구 · 실험
Scientific Research · Experiment
{{{#!wiki style="margin:0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 과학적 방법
기반 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
통계적 방법 혼동행렬 · 회귀분석 · 메타분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자)
실험 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
연구윤리 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문·과학 공동체 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 }}}}}}}}}

testing[29]

지금까지의 추정은 모집단의 성질을 모르는 상태에서 표본의 통계량만 가지고 최대한 가늠해 본다는 의미가 있었다. 즉 추정에서는 통계량에 비추어 볼 때 모수는 대략 어디쯤에 있다는 구간을 잡는 과정이다. 그런데 이제부터 살펴볼 검정은 약간 목적의식이 다르다. 참과 거짓이 판명되지 않은 어떤 '썰' 을 지지해야 할지 말아야 할지 고민할 때, 데이터로부터 얻어진 수치를 활용해서 판단의 근거로 삼자는 게 통계적 검정이다.[30] 그리고 이 검정의 논리에는 위에서 살펴보았던 유의수준(α)이나 신뢰구간(CI)의 상·하한값, t-값 같은 추정의 논리들이 대거 동원된다. 따라서 검정을 이해하려면 먼저 추정에 대한 배경지식이 있어야 한다.

대부분의 사회통계 커리큘럼에서 관심의 대상이 되는 것이 모수이고, 이번 단원에서도 검정을 통해 모수를 판단하는 상황이 많이 소개되곤 하지만, 사실 모수에 관심을 두지 않고 검정 자체에만 초점을 맞출 수도 있다. 이를 비모수적 검정(non-parametric test)이라고 하며, 사회통계 강의에서 소개되는 일은 많지 않지만 Mann-Whitney 검정이나 Wilcoxon 검정 등등이 있다. 또한 위에서 잠깐 언급했던 χ2-분포 역시 비모수적 검정에 즐겨 활용된다. 교차표에 범주형 자료를 늘어놓고서 기댓값과 실제값을 비교할 때라든지, 요인분석에서 요인구조의 모델링이 실제 데이터에 비추어 얼마나 적합한지 평가하는 적합도검정(goodness-of-fit test)을 할 때에도 쓰인다. 비모수적 검정은 명목 혹은 서열 수준으로 측정된 자료이거나, 소표본(n<30)이지만 t-분포를 굳이 사용할 의미가 없을 때 쓰인다.

비모수적 검정의 반대말은 모수적 검정(parametic test)으로, 지금부터 소개할 내용이 바로 모수적 검정이고, 절대 다수의 통계적 방법 강의들에서 다루는 내용도 바로 이것이다. 그리고 실제로 검정의 상당수는 모수를 추론하기 위한 목적으로 활용되기 때문에, 대부분의 경우 검정은 추론통계학의 영역에서 쓰인다 해도 과언이 아니다. 모수적 검정에서는 중심극한정리에 의거해 모집단이 N(μ,σ2) 형태의 정규분포를 따른다고 가정하기 때문에 어떤 '썰' 을 지지할지 말지를 정규분포를 펼쳐 놓고서 고민하게 된다.

4.1. 영가설과 대립가설

추정의 논리를 본격적으로 도입하기 전에, 검정이라는 것은 모집단에 대한 어떤 썰을 지지해야 할지 말아야 할지 판단하는 과정임에 주목해야 한다. 이것은 곧 "먼저 썰이 있었고, 그 다음에 검정이 있다" 의 의미라고도 할 수 있으며, 위의 추정과는 달리 모집단에 대해 무언가를 주장할 수 있는 최소한의 정보가 이미 주어져 있는 상황을 전제한다. 또한 그 썰들이 참이냐 거짓이냐를 객관적으로 확인해 볼 수 있는 검정 가능한(testable) 속성을 가짐도 암시한다. 덮어놓고 다짜고짜 "한국인은 똑똑하다" 같은 주장을 한다고 해도, 그것은 검정할 수 없는 자의적인 주장이다. 이 주장을 검정할 수 있도록 만들려면, "한국인의 평균 IQ는 105 이상이다" 처럼 비교 가능한 기준점을 세우거나(단일집단 검정), "한국인의 평균 IQ는 미국인의 평균 IQ보다 높다" 처럼 비교 가능한 집단을 설정해야 한다(두 집단 검정). 그래야만 통계적으로 평균을 계산해 보고 추정의 논리에 비추어 보아 그 주장을 지지할지 말지 결정할 수 있는 것이다.

이처럼 우리의 관심이 되는 대상에 대한 어떤 정보를 진술하면서도 통계적인 비교가 가능한 주장을 가설(hypothesis)이라고 한다. 문제는, 모든 가설이 다 같지는 않아서, 어떤 가설은 그것을 믿어도 됨을 주장하는 부담이 큰 반면, 어떤 가설은 그런 부담이 적다는 것이다. 예컨대 어떤 사람이 "모든 백조는 희다" 를 주장한다면, 그 가설이 옳은지 보려면 세상에 존재하는 모든 백조들을 전부 뒤져봐야 한다. 하지만 "모든 백조가 다 흰 것은 아니다" 를 주장한다면, 그 가설은 단 하나의 검은 백조만 들이대면 곧바로 믿을 수 있게 된다. 그렇다면, 어느 종류의 가설을 디폴트로 놓고 검정을 시행하는 것이 속 편할까? 학자들은 증명의 부담이 큰 쪽을 디폴트로 놓음으로써 증명의 부담이 작은 주장들에게 공격당할 수 있도록 했다. 그래서 공격이 성공하면 이를 영가설을 대신하는 새로운 정보로 삼고, 실패하면 기존의 디폴트 가설을 버리지 않았다. 이렇게 한다면 세상에 대한 인류의 지식이 축적되고 정교화될 수 있는 것이다.

위에서 '디폴트 가설' 이라고 표현했던, 증명의 부담이 큰 가설을 귀무 가설 혹은 영가설(H0; null hypothesis)이라고 한다. 디폴트의 위치에 있기 때문에 영가설은 관습적이고 보수적이며, 그것을 채택한다고 해서 이상한 사람 취급을 받지는 않는다. 쉽게 말해, 잘 모르겠다면 영가설 쪽을 지지하는 것이 안전하다. 영가설은 그 주장에 '동일하다(=)', '차이가 없다', '존재하지 않는다', '효과가 없다', '새롭지 않다', '변화가 없다' 등의 내용이 포함되는 모든 가설이다. 영가설은 참일 수도 있고 거짓일 수도 있으나, 관행적으로 참이라고 받아들여져 왔다(accepted as true). 이는 영가설을 직접적으로 검정하기가 쉽지 않기 때문이며, 대립가설이 나타나게 되면 그때 비로소 간접적으로 검정의 대상이 된다.

반대로 위에서 증명의 부담이 작다고 설명한 가설을 연구 가설 혹은 대립가설(H1; Ha; alternative hypothesis)이라고 한다. 영가설과는 달리, 대립가설은 지금까지 알려지지 않았던 새로운 주장에 속하고, 따라서 그 존재 자체로 새로운 검정을 촉발시킨다. 그 모집단에 대해 잘 알고 있는 연구자가 아니라면, 잘 모르는 상황에서 대립가설을 지지하는 것은 위험하다. 대립가설은 그 주장에 '동일하지 않다(≠)', '차이가 있다(<,>)', '존재한다', '효과가 있다', '새로운 무엇이다', '변화했다' 등의 내용이 포함되는 모든 가설이다. 대립가설도 마찬가지로 참일 수도 있고 거짓일 수도 있으나, 일단은 참일 수도 있다(might be true)고 간주된다. 대립가설은 주장의 부담이 작지만 그만큼 쉽게 무너지기도 하며, 대립가설이 힘을 잃으면 우리는 "영가설을 기각할 이유가 없다" 고 판단하여 다시 영가설로 되돌아간다.[31]

영가설과 대립가설은 논리적으로 상호배타적이며 포괄적인 관계에 있다. 즉 영가설을 기각한다는 것은 곧 대립가설을 자동으로 채택한다는 말이 되며(상호배타성), 영가설과 대립가설 양쪽 모두가 포함시키지 못하는 경우는 존재하지 않는다(포괄성). 그래서 만약 영가설이 (=)를 '참이라고 간주' 한다면 대립가설은 (≠)가 '참일 수도 있다고 주장' 해야만 한다. 그렇게 해야 상호배타적이고 포괄적인 관계가 형성되기 때문이다. 만일 영가설이 (≤)를 포함할 경우에는 대립가설은 (>)를 포함하게 되고, 반대로 영가설이 (≥)를 포함할 경우에는 대립가설은 (<)를 포함하게 된다.

현실에서도 영가설과 대립가설의 개념은 굉장히 유용할 때가 많다. 무안단물이나 무한동력처럼 딱 봐도 사이비 티가 나는 주장이라면 모르겠으나, 대부분의 우리는 모든 분야에서 완벽한 지식을 갖고 있는 것이 아니고, 때때로 낯선 분야에서 긴가민가하고 수상쩍인 주장을 접하기도 한다. 이럴 때 취할 수 있는 포지션은, 위에서도 언급했지만 잘 모르겠으면 영가설의 편에 서라는 것이다. 그것이 참이어서가 아니라, 그것을 지지하기에 더 속 편하고 부담이 없기 때문이다. 저 소위 '존재 증명' 류의 떡밥들도 마찬가지다. 러셀의 찻주전자내 차고 안의 용 같은 것들이 시사하는 것은, 무엇의 존재를 주장하는 쪽에(대립가설) 존재의 증명의 부담, 즉 거증책임이 지워지기 때문에 그 증명이 완료되기 전까지는 존재하지 않는다는 쪽(영가설)에 서라는 것이다. 거증책임의 무게를 감당할 자신이 없다면 말이다.

이상의 논리에서 참과 거짓은 상대적으로 중요하지 않다. 사실 통계라는 것이 감히 참과 거짓을 논할 만한 물건은 아니다. 그저 데이터에 의해 지지받는 주장이 있고, 그렇지 못한 주장이 있을 뿐이다. 어쩌면 데이터는 참 혹은 거짓 중의 하나를 암시하고 있을지도 모른다. 하지만 결국 데이터가 틀렸다더라 하는 경우도 결코 드물지 않다. 그래서 가설 검정은 뭔가 굉장히 그럴 듯하고 논리적이고 지적인 활동처럼 보일지도 모르지만, 그보다는 훨씬 더 겸손하고 소박한 활동이다. 통계를 근거로 참과 거짓을 가를 수는 없다. 통계는 무엇을 '증명' 할 수도 없고, 무엇의 '확실함' 을 보장하지도 못한다. 검정이 이렇게 조심스러운 이유는, '자신이 틀렸을 가능성을 인정하고 그것을 최소화하는 선에서 관리한다' 는 추정의 덕목을 본받았기 때문이다. 검정은 대립가설을 채택하거나 기각하면서도 한편으로는 "그래도 내가 틀렸을 가능성이 조금은 있지만..." 이라며 여지를 남겨두는 활동이다.

4.2. 가설 검정의 오류와 그 관리

모든 검정에는 오류의 가능성이 있다.[32] 검정을 통해 내리는 판단이 '채택함' 과 '거부함' 의 두 가지 중 하나이고, 이것이 객관적으로 존재하는 '참' 과 '거짓' 과는 달라진다는 점을 다시 상기해 보자. 그렇다면 제대로 된 판단을 하는 경우 두 가지가 있고, 잘못된 판단을 하는 경우 두 가지가 나올 수 있다. 제대로 된 판단은 객관적으로 참인 것을 잘 채택하는 경우, 객관적으로 거짓인 것을 잘 거부하는 경우이고, 잘못된 판단은 객관적으로 참인 것을 잘못 거부하는 경우, 객관적으로 거짓인 것을 잘못 채택하는 경우이다. 즉 검정에는 두 가지 오류의 가능성이 도사리고 있다.

두 오류 중에서 어느 쪽이 더 위험할까? 객관적으로 참인 것을 거부하면 위험할 때가 많다. 흔한 예로 화재 경보기를 생각할 수 있다. 만일 화재가 발생하지 않았는데(객관적으로 거짓) 저 혼자 괜히 울린다면(잘못 채택), 그것은 그저 한때의 해프닝에 그칠 뿐이며, 잘해봐야 화재대피 훈련 정도의 불편함을 초래하게 될 것이다. 물론 이런 오류도 점점 반복되면 다들 무감각해지거나 혹은 그 멍청한 경보기를 손보게 될 것이다. 하지만 정말로 화재가 발생했는데(객관적으로 참) 경보를 울리지 않을 때(잘못 기각) 발생하는 재산피해와 인명피해와는 비교할 수 없을 수준이다. 마찬가지로, 암이 없는데 암이라고 오진할 때보다는, 암이 있는데도 그걸 발견하지 못하고 넘어가는 오진이 생명에는 훨씬 위험하다.

그런데 통계학적 가설 검정에서는 둘 중 어느 쪽이 더 위험하냐는 질문을 받으면 대번에 다음과 같이 반응한다. "뭐에 대한 참·거짓 얘긴데?" 영가설이 참인지 거짓인지를 볼 것인가, 아니면 대립가설이 참인지 거짓인지를 볼 것인가? 벌써 여기서부터 사회통계 교육현장에서 엄청난 혼란이 초래되는 경우가 드물지 않다. 가설 검정에서 잘못된 판단은 모두 영가설에 대한 얘기다. 신약을 개발했는데 객관적으로 효과가 없음에도 기적의 암 치료제라고 논문을 쓰는 사례를 생각해 보자. 이건 객관적으로 거짓인데 잘못 채택한 경우가 아니다. 이렇게 말한다는 건 대립가설을 주어로 삼는다는 것인데, 대립가설은 그 정도의 무게가 없다. 제대로 고치자면 영가설이 참인데도 잘못 기각한 사례가 된다. 초능력 논문 게재 사건도 마찬가지로, 영가설이 참인데도 잘못 기각한 것이다. 검정의 관심은 항상 영가설에 있다.[33]

이처럼 오류에 얽힌 용어들은 비직관적이고 헷갈리기도 엄청나게 헷갈려서 사회통계 기말고사의 킬러 문제의 위상에 오르곤 한다. 통계학 바깥에서는 이런 네 가지 경우들을 보기 좋게 정리한 것을 혼동행렬(confusion matrix)이라고 부른다.[34] 그래서 예컨대 의학계에서는 혼동행렬을 가지고 간혹 정확도(accuracy), 정밀도(precision), 민감도(sensitivity), 특이도(specificity) 따위를 계산하기도 한다. 여기서는 가설 검정이라는 통계학적 활동을 다루므로, 영가설에 검정의 관심을 두어서 다음과 같이 정리할 수 있다.[35]
 영가설의 실제
H0[36]
(true)
H0 거짓[37]
(false)
검정 결과H0 기각 실패[38]
(failed to reject H0)
올바른 판단
(1-α)
2종 오류(β)[39]
Type II error
H0 False Positive
H0 기각[40]
(reject H0)
1종 오류(α)[41]
Type I error
H0 False Negative
올바른 판단
(1-β)

두 오류를 다시금 정리하면 아래와 같다.[42] 관련 영상

앞에서 검정의 두 종류를 각각 ① 특정한 기준점을 삼아서 비교하거나 ② 특정한 다른 집단과 함께 비교하는 경우로 나누었다. 물론 동일한 집단으로부터 여러 번 데이터를 얻어서 비교하는 반복측정 기법도 매우 많이 쓰이고 있지만, 여기서는 논리를 파악하는 것이 중요하므로 가장 단순한 것만 설명하기로 한다. 아래로 소개되는 것은 단일집단 검정, 그리고 두 집단 간의 차이 검정이다.

단일집단 검정에서 가설과 관련된 데이터는 하나의 기준점과 함께 비교된다. 예컨대 어떤 공장에서 생산되는 제품의 중량이 500g이 되도록 애쓰고 있다고 가정하자. 이를 가설적인 모평균(μ0)이라고 하자. 생산된 제품 400개를 모아놓고 생각했을 때, 이 표본의 평균(m)을 통해서 구간추정을 하는 것은 실제 모평균(μ)이다. 여기서 영가설은 '가설적인 모평균(μ0)은 실제 모평균(μ)과 차이가 없다' 가 되고(H0: μ0=μ), 대립가설은 '차이가 있다' 가 된다(H0: μ0≠μ).[44] 그런데 이미 추정의 논리를 배운 상태인 우리는 이 문제를 해결하는 방법을 알고 있다. 표본이 충분히 크다면, 평균의 표본분포에서 95%의 면적이 만들어지도록 σm=±1.96 즈음에 표지판을 꽂아 표본평균(m)의 95%가 위치할 구간을 표시하고, 이 분포에서 m이 영점에 해당하는 μ0로부터 몇 단위(σm)만큼 떨어져 있는지(Z=(m-μ0)/σm) 주소지를 살펴보면 되는 것이다.

이상의 논리는 결국 재수없게 극단적인 표본이 뽑힐 경우 그 표본평균(m)을 바탕으로 실제 모평균(μ)의 위치가 잘못 구간추정될 가능성을 품고 있다. 극단적인 표본은 실제 모평균(μ)의 추정된 구간까지 극단적으로 만들어 버려서, 가설적 모평균0)과 실제 모평균(μ)이 다르다는 잘못된 판단을 하게 만든다0≠μ; Type I error). 그런 오류를 범할 가능성을 관리하기 위해서 신뢰구간이 있는 것이다. 신뢰구간의 허들(1-α)을 만들어 놓고 상한과 하한을 그에 맞춘 뒤, 그 표지판 안쪽에 기준점이 들어오면 영가설을 기각하지 않고, 표지판 밖으로 기준점이 나가면 영가설을 기각하는 것이다. 한편으로 통계의 목적에 따라서는 '넘어서는 안 되는 기준선' 을 넘었는지 확인하기 위해 단일집단 검정을 하기도 한다.[45] 다른 경우로는, 가령 통계 응답자들을 '행복한 사람들' 로 한정해야 할 때에도, 행복감을 100점 만점의 점수로 표기하게 한 다음 그 표본평균(m)으로 추정된 모평균(μ)을 비교하기 위한 50점의 중간 점수(μ0)를 세워둘 수 있다. 그래야 영가설을 기각하는 검정 결과를 통해 정말로 응답자들이 잘 한정되었다고 말할 수 있다. 이런 상황들에서는 가설적 모평균이라는 표현보다는 기준점이라는 표현이 더 어울릴 것이다.

평균의 표본분포에서 μ0의 주소지는 0이기 때문에, m이 μ0의 95% 오차범위 구간 밖으로 빠져나가는 순간 모평균(μ) 구간추정의 상한과 하한에 눈에 띄는 패턴이 나타난다. m이 μ0왼쪽으로 멀리 떨어질 경우, 상한과 하한의 주소지 모두 음수 z-값을 가지며, m이 μ0오른쪽으로 멀리 떨어질 경우, 상한과 하한의 주소지 모두 양수 z-값을 갖는다. 반대로 만일 하한은 음수 z-값인데 상한은 양수 z-값으로 나타난다면, 그것은 m이 μ0의 95% 오차범위 내에 있다는 얘기고, 하한과 상한의 절댓값이 유사할수록 m이 μ0와 근접해 있다는 얘기다. 직관적으로 요약하면 상한과 하한 사이에 0이 포함돼 있으면, 즉 양쪽의 부호가 다르면 영가설을 기각하지 못한다. SPSS에서 출력되는 결과표에서도 t-값이나 p-값들이 이에 함께 맞추어 움직이는 걸 볼 수 있다.[46] 의학처럼 엄격한 학문일수록 논문에서 p-값보다는 신뢰구간을 먼저 보려고 하는 경향이 있으며 아예 신뢰구간 병기를 투고 조건으로 요구하는 깐깐한 저널들도 있다.

위의 공장에서, 어떤 소비자 단체가 400개의 표본을 모아놓고 중량 계산을 했더니 μ0인 500g으로부터 2.21단위(σm)만큼 떨어진 주소지에 표지판이 꽂혔다고 가정하자(Z=(m-μ0)/σm=2.21). 이 경우 해당 주소지를 중심으로 95% 신뢰구간을 만든다면 그 상한값이 음수 z-값을 가져서 μ0에 도달하지 못하게 된다. 이 단체는 그 표본을 근거로 해서 "공장이 중량을 속이고 있다" 고 주장할 수 있다. 이는 표본을 근거로 가설적인 모평균이 실제와 '다르다' 고 판단하는 것으로(μ0≠μ), 가설 검정의 용어로 표현하면 영가설을 기각하는 것이다. 그러자 공장에서는 자체적으로 400개의 표본을 새로 추출하여 중량 계산을 했고, 그 결과 평균 중량이 ±1.96단위(σm) 이내의 주소지에 위치했음을 확인했다(Z<1.96). 이는 가설적인 모평균이 실제와 '같다' 고 주장하는 것으로(μ0=μ), 가설 검정의 용어로는 영가설을 기각하지 못하는 것이다. 그래서 상황에 따라서는 영가설을 기각하지 못하는 것이 오히려 좋은 일인 경우도 적지 않게 접해볼 수 있다. 이는 영가설을 무엇으로 삼을 것인가의 문제다. 영가설이 어떤 준칙이나 관리기준, 전범(典範), 오피셜에 엮이게 되면, 영가설을 기각하지 못하는 게 좋은 일이다. 영가설이 어떤 멀리 있는 기준점에 엮이게 되면, 그때는 영가설을 기각하는 게 좋은 일이다.

그래서 정규분포(평균의 표본분포)를 놓고 z-값을 통해서 검정할 때는 영가설이 기각되느냐 아니냐가 결정되는 중차대한 문제가 걸렸으므로 z-값이 꽂히게 되는 위치를 잘 살펴야 한다. 그리고 이 분포에는 표지판이 꽂혀 있는데, 단측검정의 경우 1개만, 양측검정의 경우 2개가 꽂혀 있다. 이 표지판 안쪽 넓은 부분에 z-값이 꽂히게 되면 표본의 신뢰구간에 μ0이 속하므로 영가설은 기각되지 않지만, 만일 표지판 밖의 얇은 꼬리에 z-값이 꽂히게 되면 표본의 신뢰구간에서 μ0이 빠져나가므로 영가설은 기각된다. 이때 표지판 안쪽 넓은 부분을 비기각역(non-rejection region)[47]이라고 하고, z-값이 비기각역에 꽂히면 영가설은 기각되지 않는다. 한편 비기각역 바깥의 작고 얇은 꼬리 부분을 기각역(rejection region)이라고 하고, z-값이 기각역에 꽂히면 영가설은 기각된다. 그리고 비기각역과 기각역 사이에 선을 긋는 표지판이 꽂혀있는 지점을 임계치 혹은 임계값(critical value)이라고 부른다. 기각역의 구체적인 위치는 양측검정, 좌측검정, 우측검정에 따라 전부 다르며, 어떤 분포를 사용하며 신뢰수준이 어느 정도인지에도 영향을 받는다. 표본이 충분히 클 때의 양측검정에서는 z-분포를 사용하므로 95% 신뢰수준에서 ±1.96이다. 마지막으로, 이때의 z-값을 검정통계량(test statistic)이라고 하고, 검정에 따라 t-값이나 F-값, χ2-값도 될 수 있다.

모평균(μ)의 신뢰구간과 가설적 모평균(μ0)을 비교하는 검정 방식이 있고, 이를 정규분포 상으로 옮겨 와서 검정통계량과 기각역을 서로 비교하는 검정 방식이 있는 한편으로, 앞의 검정 방식들을 보완하는 또 다른 판단의 도구가 있다. 앞의 두 가지 모두 어떤 일정한 기준점0 혹은 임계값)을 실제 얻은 데이터(모평균(μ)의 신뢰구간 혹은 검정통계량)와 비교한다는 논리를 따른다. 그 과정에서 발생할 수 있는 두 가지 오류의 가능성을 최소화하기 위해 노력한다. 마지막으로 소개할 보완적 판단 도구 역시, 일정한 기준점과 실제 데이터를 서로 견주어 본다는 점에서 공통점이 있다. 마찬가지로 이것도 오류의 가능성을 관리하기 위한 노력 차원에서 나왔기도 하다. 그런데 이번 검정 도구는 그 높은 직관성으로 인해 도리어 사람들이 검정의 논리를 간과하게 만든다는 비판을 받고 있다. 이는 앞에서 채택과 기각의 주어가 무엇인지, 무엇과 무엇을 비교하자는 것인지 정확히 이해하지 못했을 때 빠지기 쉬운 함정이다.

마지막 판단도구는 위의 검정통계량을 통한 영가설 기각 여부를 확률의 논리로 보완한다. 기각역에 대해 생각해 보자. 검정통계량이 기각역에 꽂혔다고 하더라도, 그것은 영가설이 거짓임을 전혀 보장하지 않는다. 물론 검정통계량이 기각역에 꽂혔다는 것 자체가 극단적인 사례이기는 하나, 현실은 그보다도 더 극단적일 수 있다. 랜덤신의 농간(…)에 휩쓸리면 정말정말 이상한 표본이 튀어나와서 표본평균(m)으로 하여금 전혀 엉뚱한 공간에서 모평균(μ)의 구간추정을 하게 만들고, 결과적으로 영가설을 잘못 기각하는(μ0≠μ) 오류를 범할 수 있다. 기각역은 단순히 허들을 만들어 놓고 오류의 가능성을 충분히 낮게 관리한다(1-α)는 의미밖에는 없는 것이다. 그렇다면 여전히 깐깐한 동료 학자들은 의심을 품을 수 있다. 검정통계량과 임계값만 숫자로 비교하지 말고, 신뢰수준의 허들을 만족하는 상태에서 그 검정통계량을 갖고서도 여전히 1종 오류를 저지를 가능성을 확률로 비교하라는 것이다. 그래야만 수상하다 싶을 때 95%의 신뢰수준의 허들을 자기들이 99%까지 올려보고, 필요할 경우 심지어 99.9%까지 올리면서 확인할 수 있겠다는 것.

따라서 1종 오류를 저지를 확률을 어디까지 허용할지(α)에 대한 허들의 높이를 기준점으로 삼고, 그 허들 위로 얼마나 높게 뛰어넘었는지에 대한 실제 높이를 수치로 공개해서 비교할 수 있다. 여기서의 기준점은 신뢰수준(1-α)이 된다면, 여기서 실제로 얻은 데이터는 p-값(p-value)이라고 한다. 신뢰수준(1-α)이 95%일 경우, 1종 오류의 확률(α)은 0.05가 될 것이며, p-값도 검정통계량이 임계값과 동일할 때 p=.05로 나타나고, 그보다 작아지면 애스터리스크(*) 하나를 달아서 표시해 준다.[48] 신뢰수준이 99%로 높아지면 1종 오류를 관리하기 위한 허들도 0.01로 높아지고, 이를 만족하는(p<.01) p-값에는 애스터리스크 두 개를 붙인다(**). 신뢰수준을 99.9%까지 높인다면 허들도 0.001로 높아지는데, 심지어 이것까지 만족한다면(p<.001) 이때의 p-값에는 애스터리스크 세 개를 붙인다(***).[49]

그래서 여러 검정들에서 p-값들이 낮게 나타나는 것을 대학원생들의 은어로 "별이 많이 떴다" 고 한다. 그런데, 의학에서는 0.01, 심지어 0.0001 이하까지 요구하는 경우도 생겨나고 있고, 한 술 더 떠서 특정 영역에서는 요구되는 p-값이 매우 가혹해진다. 물리학의 경우, 특히 입자물리학은 새로운 입자의 '발견'으로 인정되려면 무려 p-값이 3×10-7 즉 1000만분의 3 이하가 될 것을 요구하고(z값 ≥ 5.0), 생물학 중에서도 유전체 연구에서는 p-값 5×10-81억분의 5(z값 ≥ 5.4)라는 매우 가혹한 값을 요구한다. 이렇게 가혹한 값을 요구하는 이유는, 이런 영역에서는 심지어 3시그마(z값 = 3.0) 수준에서도 통계적 이상(statistical anomaly)이 영향을 미칠 수 있다고 보기 때문이다. 특히 입자물리학은 3시그마 수준은 입자가 있다는 간접적인 '증거' 수준까지는 쓸 수 있지만, '발견'으로 인정하기에는 턱없이 모자라는 수준이다. 힉스 보손 발견 당시 z값이 무려 5.9였으니, 얼마나 가혹한 값을 요구하는지 알 수 있다.

p-값은 상당한 오해를 불러일으키는 주범이며, 통계학자들이 이를 가는 개념이라고도 할 정도로 그 의미가 잘못 소통되고 있다. 엄격한 규율이 존재하는 연구중심대학의 대학원에서는 괜찮은데, 그렇지 못한 연구환경의 대학원도 있으니 문제다. 오죽하면 미국통계학회(ASA)에서 2016년2019년에 p-값의 남용을 경계하는 입장문을 저널에 내기도 했을 정도이다.[50] 영문 위키피디아에도 p-값의 오용에 대한 문서가 존재한다. xkcd에서도 p-값에 관련된 유머가 있다.[51] 학문 세계에도 밑바닥(?)은 있고, 이런 '심해' 에서는 p-값이 .05 이하이면 연구 성공, 반대로 .05 초과이면 (때때로는 심지어 .10 초과이면) 연구 실패의 의미로 통하기도 한다. p-값이 갖는 직관성은 분명 장점이지만, 그렇다고 검정의 논리들을 전부 뭉갤 수는 없는 노릇이다.

가장 흔한 오해로는 p-값이 영가설이 참일 확률이라고 생각하는 것인데, 사실 아예 베이지안으로 갈 게 아니라면 영가설은 그냥 참이거나 아니거나 둘 중 하나다.[52] p-값은 영가설이 참인 상황에서 데이터가 영가설을 잘못 기각하는 결론(Type I error)으로 유도할 확률이다. 또한 p-값이 작을수록 관찰된 현상의 중요성이나 크기가 증가하는 것도 아니다. p-값에는 표본의 크기(n) 정보가 이미 반영되어 있으며,[53] 표본이 수십 건으로 작을 때에는 꽤 높은 숫자를 산출하다가도, 표본이 수백 혹은 수천까지 커지면 순식간에 낮아지기도 한다. 이렇게 표본이 크기 때문에 p-값이 과도하게 작아져서 의미가 약해진 상태를 '통계적으로 유의하지만 임상적으로 유의하지 않다'(statistically significant but not clinically significant)고 한다. 따라서 p-값이 매우 낮다고 해도, 표본의 크기(n)가 천 단위가 넘어간다면 그것의 의미가 자칫 과대평가되지 않았나 마음을 가라앉히고 생각해야 한다.

통계적 판단에 있어서 p-값을 사용하는것, 특히 0.05를 기준으로 유의성을 판단하는 관례 아닌 관례는 Ronald Fisher[54][55]쓴 「Statistical methods for research workers」에서부터 시작된 것이다. 이 텍스트의 전체적인 맥락은 '후속연구를 진행할지 말지를 판단할 때 p-값이 괜찮은 통계적 지표가 되며, 0.05 괜찮은 기준이 될 것이다'는식의 내용이다. 그런데 이것이 점차 앞뒤 다 자르고 'p-값 0.05'라는 식으로 오남용되기 시작한 것이다.

이상의 내용을 표로 정리하면 다음과 같다. p-값이 왜 그렇게 인기가 있는지도 짐작할 수 있는 부분.
검정의 수단
 신뢰구간 활용검정통계량 활용유의확률 활용
<colbgcolor=#EEEEEE>보고 형식CI95[±x.xx,±x.xx]
CI99[±x.xx,±x.xx]
z=±x.xxx
t=±x.xxx
F=±x.xxx
p=.xxx
p=.0xx*
p=.00x**
p<.000***
비교의 기준점가설적 모평균(μ0)
가설적 평균차(D0)
임계값
(z=±1.96)
(t=±2.20)
알파(α)
(α=0.05)
(α=0.01)
비교대상실제 모평균(μ) 추정구간
실제 평균차(D) 추정구간
검정통계량
(z-값)
(t-값)
p-값
영가설 기각μ0의 μ 추정구간 밖 위치
D0의 D 추정구간 밖 위치
(+)검정통계량>(+)임계값
(-)검정통계량<(-)임계값
p<α
영가설 기각 실패μ0의 μ 추정구간 내 위치
D0의 D 추정구간 내 위치
(+)검정통계량<(+)임계값
(-)검정통계량>(-)임계값
p>α

앞에서는 내내 단일집단의 점추정만을 다루었지만, 사실 학계에서의 대부분의 검정은 두 집단에서 얻어진 통계량의 차이가 정말로 유의한(significant) 차이인지, 아니면 유의하지 않아서 무시할 만한 차이인지에 관한 것이다. 당장 가장 고전적인 형태의 실험설계부터가 통제집단과 실험집단을 서로 비교하는 것이기도 하다. 앞에서 단일집단 때의 검정통계량 계산식(Z=(m-μ0)/σm)을 되새겨 보자. 이 논리는 표본평균(m)과 가설적 모평균(μ0) 사이에 차이가 발생했는데(m-μ0) 이를 곧이곧대로 받아들이기에는 이미 기존에 주어진 차이들이 있어서(σm) 기존 차이와 얼마나 잘 구분될 수 있는지((m-μ0)/σm)를 본다는 의미이기도 하다. 그래서 실험을 위해 통계적 방법을 배우는 분야에서는 검정이 의미 없는 노이즈 속에서 의미 있는 유의성을 분리해 내는 작업이기도 하며, 실제로 사회통계 시간에 "노이즈와의 싸움" 같은 표현을 자주 접하게 된다. 이것은 분산분석에 대한 지식이 있다면 상당히 낯익을 논리인데, 이 논리를 최대한으로 써먹는 게 사실 분산분석이기 때문이다.

여기서는 표본집단 A에서 얻어진 표본평균으로 모평균이 추정되고(μ1), 표본집단 B에서도 모평균이 추정된다(μ2).[56] 그리고 두 모집단 간의 차이를 가설적 평균차(D0=μ1-μ2)라고 부를 수 있으며, 영가설은 가설적 평균차가 존재하지 않는다(H0: D0=0), 대립가설은 존재한다(Ha: D0≠0)가 된다. 문제는 집단 내에도 각각의 값들이 산포되어 있고, 집단 간에도 마찬가지로 산포가 존재한다는 점. 두 평균이 서로 다르다는 판단은, 집단 내의 산포(즉 두 집단의 표준오차의 합)로부터 집단 간의 산포(즉 두 표본평균 간의 차이)가 명확하게 분리될 때 내려져야 한다. 단순히 평균의 차이가 크다고 무턱대고 가설적 평균차가 존재한다(D0≠0)고 할 수는 없다. 원래 두 집단 속의 산포가 엄청나게 커서 평균의 차이를 뒤덮어 버릴 수도 있기 때문이다. 그렇다면 검정의 논리는, 집단 내의 산포m1+σm2=σ1/√n1+σ2/√n2)가 충분히 작으면서 집단 간 평균의 차이(m1-m2)는 충분히 클 때 검정통계량도 커진다(Z=(m1-m2)/(σm1+σm2))고 할 수 있다. 자연히 검정통계량이 표지판 너머 저 멀리에 꽂히게 되니, 영가설도 기각되는 것이다(D0≠0). 이상의 검정통계량 계산식은 이후 배우게 되는 분석 단원의 논리에 적응하는 데 도움이 된다.

지금까지 전반적으로 유지되어 온 추론통계학의 철학이 있다면, 결국 통계는 어디까지나 수단에 불과하다는 것이다. 인간인 이상 누구나 잘못된 추정을 할 수 있고, 참인 영가설을 잘못 기각하거나 거짓인 영가설을 기각하지 않는 오류를 저지를 수 있다. 추론통계학은 얼마든지 그런 사태가 벌어질 수 있음을 쿨하게 인정한다. 그 대신, 잘못된 판단을 아예 안 할 수는 없더라도, 잘못된 판단의 가능성을 어느 정도 이하로 최대한 낮추었음을 보여주고자 한다. 바로 이 점에 학계가 설득되었기 때문에 지금까지 검정이 통계적 방법에서 분석의 핵심이 되고 있고, 과학적 방법의 기반으로 잘 작동하고 있는 것이다. 일반인들이 직관에 호소하여 대충 가늠하는 동안 학자들이 얼마나 피나는 노력을 하면서 동료들을 설득하기 위해 애써 왔는지를 엿볼 수 있는 대목이다.

5. 관련 문서

6. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -2px -11px"
<colbgcolor=#C1F3FF>📝 서론<colbgcolor=#F7FFFF,#191919>사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리
🔍 조사방법론 I변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석)
👔 공인 자격증사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서연구방법론 관련 정보
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨
}}}}}}}}} ||

[1] 본 문서에서 이 이후로 설명되는 모든 추론은 평균을 주제로 하며, 분산이나 비율에 대한 추론이나, 다수의 모집단이나 반복측정(repeated measures) 결과에 대한 추론은 최대한 생략한다. 그 부분은 다른 교과서나 전문자료를 참고하면서 평균을 추론하는 논리와 어떻게 달라지는지 비교하는 것도 좋은 공부가 된다.[2] 평균의 표본분포가 존재한다면, 당연히 분산의 표본분포도 존재한다. 이 분포를 χ2-분포(Chi-square distribution)라고 부른다. 이에 대해서는 교차표(crosstab; cross tabulation)를 활용한 통계분석을 소개할 때 간략히 언급하도록 하겠다.[3] 표본분포에서는 기존의 표준편차가 갖던 단위로서의 의미를 표준오차가 대체하므로, 이 분포에서의 z-값은 Z=(m-μ)/σm이다.[4] 이렇게 접근하지 않으면 나중에 "표준편차와 표본오차, 표준오차에 대해 각각 설명하시오" 같은 서술형 문제를 접했을 때 백 퍼센트 헷갈린다.[5] 시험삼아 아무 숫자나 대입해 보면 금방 알 수 있다. ① σ=10이고 n=400인 경우에는 0.5, ② σ=10이고 n=900인 경우에는 0.33..., ③ σ=15이고 n=400인 경우에는 0.75가 나온다. σm=σ/√n 공식은 하술될 구간추정 파트에서도 추정할 구간의 넓이를 결정하는 키 플레이어로서 인상 깊게 재등장한다. 표본평균들이 심하게 튀어다니면 구간추정을 할 때에도 그것에 대응하기 위해 구간을 그만큼 넓혀야 한다.[6] 모집단의 정규성은 Shapiro-Wilk 검정이나 Q-Q도표 등을 이용하여 확인한다. 이에 대한 자세한 설명은 하술될 검정에 대한 이해가 먼저 필요하긴 한데, 어차피 컴퓨터가 대신 다 해 준다. 누가 정규성 검정 해 봤냐고 묻는다면 그때 컴퓨터에게 일을 시키는 방법만 알고 있으면 된다(…).[7] 중심극한정리는 분포의 세계에서 정규분포를 최고존엄의 자리에 올려놓은 정리이기도 하다. 연속형 확률분포 중에서는 하단에 소개할 t분포 및 사회통계 커리큘럼을 벗어나는 감마분포(γ-distribution), 이산형 확률분포 중에서는 푸아송분포(Poisson Distribution)가 중심극한정리에 의해 표본의 크기가 충분히 크다면 전부 정규분포로 근사한다. 그런데 푸아송분포는 이항분포(binomial distribution)의 상위호환이고, 이항분포는 다시 초기하분포(hypergeometric distribution)의 상위호환이다. 또한 감마분포는 기하분포(geometric distribution)의 상위호환이다. 정규분포의 위상을 알 수 있는 부분.[8] 회귀분석의 가우스-마르코프 정리(Gauss-Markov theorem)를 이해하려면 점추정에 대한 아래 내용을 반드시 알고 있어야 한다. 점추정을 모르면 회귀분석을 배울 때 도대체 왜 최소제곱법이 쓰인다는 건지 이해하지 못하고 그저 '가르치니까 외운다' 식으로 받아들이게 된다.[9] 조사방법론에 대한 지식이 있다면 여기서 직감적으로 신뢰도와 타당도를 떠올릴 것이다. 실제로 분산은 신뢰도(reliability)를 저하시키는 비체계적 오차(non-systematic error)에, 편의는 타당도(validity)를 저하시키는 체계적 오차(systematic error)에 대응되는 관계다.[10] 영어단어 bias는 분야마다 번역하는 방식이 다 다르다. 수학이나 통계학에서는 편의(偏倚)로, 심리학에서는 편향(偏向)으로 번역되며, '치우쳐지면 안 될 무언가가 치우쳐졌다' 는 의미를 갖는다. 그냥 아예 속 편하게 '바이어스' 라고 음역해 버리는 분야들도 많다. 국내 의학계도 한자어 번역의 어려움을 인식했는지 순우리말로 '비뚤림' 이라고 번역했다.[11] 정확히 말하면 추정오차는 편의의 제곱에 분산을 합산한 값이며, 회귀분석에서 모델링을 세울 때 쓰는 용어인 잔차(residual)에 대응된다. 잔차는 모델을 활용해서 얼마만큼의 오차는 설명하는 데 성공했지만, 이 모델로도 나머지 얼마만큼의 오차는 설명되지 못하고 남겨졌다는 의미다. 언뜻 비슷해 보이지만 잔차에서는 표본분포 개념을 전제하지 않는다는 차이가 있다. 추정오차를 잔차의 논리로 설명하는 경우도 많으나, 사회통계 커리큘럼에서는 벗어난다.[12] 추론통계학에서 오차를 관리하는 다른 논리들로는 최대우도법(ML; maximum likelihood) 등이 있으며, 사실 ML도 굉장히 중요한 방법론이긴 하다. 단지 일반적인 사회통계 커리큘럼의 범위를 벗어날 뿐이며, 설령 소개된다 해도 회귀분석의 최소제곱법(LSM; least-squares method)을 설명할 때 ML이라는 비슷한 것도 있다는 정도로 이름만 말하고 넘어가는 수준이다.[13] 이 부분은 하술될 자유도 개념과도 관련이 있다. 모분산을 편의 없이 추정해야 한다는 절박한 목적의식이 편차제곱의 평균을 계산하는 동안 우리의 자유도에 제약을 일으켰고, 그 결과 (n-1)/n만큼의 비틀림이 발생했다고 볼 수도 있다. 모분산은 있는 그대로를 계산하면 되니까 편차제곱의 평균 계산이 자유도에 영향을 주지 않았지만, 표본분산은 있는 그대로가 아니라 모분산을 의식하면서 계산되어야 했던 것. (n-1)/n은 이런 부담으로 인해 자유도에 제약이 발생했다는 시그널인 것이다. 이에 대해 매우 잘 설명하고 있는 한 블로그 포스트에서는 "불편추정량을 만족하는 표본을 뽑기 위해서, 자유도가 하나 줄었다고 표현할 수 있겠습니다" 라고 설명하고 있다.[14] 유효성이라고 번역하기도 하나, 영어단어의 원뜻을 고려하면 효율성으로 번역되는 것이 더 적절하다.[15] 그리고 이에 더해 흔히 소개되는 것이 "단순성이 서로 동일할 경우 더 많은 정보력을 갖는 추정량이 좋은 추정량이다" 로 알려져 있는 충분추정량(sufficient estimator)이다. 그러나 막상 웬만한 추정량 강의에서도 수학과나 통계학과 외부로 나가면 이 부분은 생략되는 경우가 많고, 사회과학 방법론으로서 추정을 배울 경우에도 딱히 더 깊이 파고들려고 하지 않는다면 이름만 기억하는 것으로도 충분하다.[16] 이때 빼는 숫자와 더하는 숫자는 서로 같은 것이 가장 바람직하다. 계속 설명될 논리에 비추어 볼 때, 여기서 서로 다른 숫자를 넣어 버리면 쓸데없이 구간이 늘어난다. 정확히 같은 숫자를 넣어줄 때 가장 작은 구간이 만들어진다.[17] 신용구간(credibility interval)과는 다른 개념임에 유의해야 한다. 신뢰구간은 빈도주의적인 통계 이론에 기반하는 반면, 신용구간은 베이즈 확률론에 기반하고 있다. 빈도주의는 알려지지 않은 모수가 고정(fixed)이라고 보고, 데이터는 임의(random)라고 보며, 무한대의 횟수만큼 측정이 가능하다고 가정하고 확률을 계산한다. 반대로 베이즈주의는 모수가 임의이고 데이터는 고정이라고 본다. 만약 베이지안에서 신용구간이 80%라고 한다면, 이는 "어떤 임의의 모집단에서 내가 확보할 수 있는 수만큼 표본을 추출했을 때, 그 중 80%가 모집단의 값을 가질 것이라고 믿을 수 있다" 는 것과 같다. 신뢰구간이라면 '고정되어 있지만 내가 모르는 모수에서 무한대 횟수만큼 표본을 추출했을 때' 로 다른 전제를 취할 것이다.[18] 이 값은 정규분포의 왼쪽 꼬리 면적이 전체 면적의 2.5%에 해당하려면 어디에다 표지판을 꽂아야 하는지에 대한 주소지라고 볼 수 있다. 정규분포는 좌우대칭이므로 오른쪽 꼬리에서도 같은 주소지를 적용하면 마찬가지로 그 오른쪽으로 2.5% 면적이 얻어지며, 양쪽 꼬리를 모두 합하면 우리가 당초 원하던 유의수준 5%를 얻을 수 있다.[19] 이에 해당하는 z값은 정확히 1.6449...로, 이를 소수 셋째 자리까지 나타낸 1.645를 많이 사용하고, 이것을 둘째 자리까지 반올림한 1.65와, 원래 값을 둘째 자리까지 반올림한 1.64 역시 사용한다. 1.64가 1.65보다 정확하다.[20] 추출된 표본을 통해 얻어진, 편의와 분산이 최소화되어 있는 추정치인 표본평균. 즉, 가능한 한 과녁 정중앙으로 날아갈 수 있는 화살.[21] 원하는 신뢰수준(1-α)에 맞게 표지판을 꽂아서, 화살이 꽂힌 위치를 중심으로 신뢰구간을 어디까지 잡을지 초안을 제시하는 z-값.[22] 모집단 산포가 심할수록 이에 대응하여 구간의 길이도 함께 넓어지게 하는 모표준편차. z-값의 표지판 위치를 재조정하는 두 가지 장치 중 첫째.[23] 표본이 클수록 이에 대응하여 구간의 길이를 좁아지게 하는, 루트 씌워진 표본의 크기. z-값의 표지판 위치를 재조정하는 두 가지 장치 중 둘째.[24] 가장 흔한 경우, a+b+c+d+e=10이 성립할 때 다섯 미지수 중 4개는 마음대로 자유롭게 숫자를 넣을 수 있지만 마지막 하나만큼은 내 마음대로 숫자를 정할 수 없으므로 자유도는 n-1이라고 가르치게 된다. 문제는 자유도가 n-2가 될 때도 있는데 이때 다시 개념을 잡아주지 않으면 그때부터 또 헤매게 된다는 것(…). 그렇게 헤매기 시작하면 끝내 분산분석에서 길을 잃어버리고 만다. 그리고 그대로 대학원에 갔다간 모델링을 할 때 식별문제(identification problem) 같은 것에 걸리는 순간 GG를 치게 된다(…).[25] 표본분산은 표본으로부터 얻어진 편차제곱들의 평균으로 구해진다. 편차제곱 자체는 괜찮은데 이를 최종적으로 평균하는 과정이 우리에게는 그다지 자유롭지 못한 것. 그리고 이런 자유도 문제를 겪는 표본분산은 χ2-분포와 중요한 관계가 있으며, χ2-분포를 바탕으로 만들어진 t-분포에서도 끝내 발목을 잡게 된 것이다(…).[26] 이 부분에서 보기 쉽도록 아예 단측일 때의 α와 양측일 때의 α를 두 줄로 적어놓은 테이블도 있다.[27] t-분포를 활용한 구간추정의 하한.[28] t-분포를 활용한 구간추정의 상한.[29] 대중적으로는 검증(檢證)이라는 단어가 거의 동일한 뜻을 가지며, 단어 자체는 오히려 검사(檢査)로 번역되는 일도 많다. 하지만 적어도 통계학에서만큼은 검정(檢定)이라는 단어로 번역하고 있다.[30] 아래에서 다시 강조하겠지만, 통계적 검정을 통해서 참과 거짓이 판명되는 것이 아니다. 통계적 검정은 자신이 틀릴 가능성을 관리한다. 그것은 그저 채택해도 되겠다(to accept), 거부하겠다(to reject)의 판단의 근거만을 제공할 뿐이며, 기껏 채택하기로 했는데 하필 거짓이거나, 거부하기로 했는데 알고보니 참인 경우가 존재할 수 있다.[31] 여기서 "영가설을 채택한다"(accept the H0?)는 표현은 쓰지 않는다. 아직 세상 어딘가에 발견되지 않은 흑조가 있을지도 모르기 때문이다. 그래서 그 대신 "영가설을 기각하지 못했다"(failed to reject the H0)는 표현을 쓴다. 또한 이번 대립가설이 패배했다고 해서 영가설을 지지할 수 있음이 검정된 것은 아니다. 다음에도 언제든지 또 도전자가 나타날 수 있기 때문이다. 확실한 것은, 그 대립가설만큼은 믿을 만하지 못했다는 것뿐이다. 물론 용어 자체가 비직관적인 것은 사실이며, 이를 헷갈리지 않으려면 별 수 없이 검정의 논리 전체를 확고하게 이해해야만 한다.[32] 추정에서 말하는 '오차' 와는 다르다. 오차는 과녁의 정중앙에서 틀어져 빗나간 화살의 위치를 거리로 나타낸 것이라면, 검정에서 말하는 '오류' 는 참·거짓 여부가 객관적으로 존재하는 상태에서 잘못된 판단을 하게 되는 확률을 말한다. 오차는 m-μ 따위의 차이로 표현되지만, 오류는 논리적으로 상호배타적이기에 α와 1-α의 관계로 표현된다. 그러나 영어로는 양쪽 모두 error라는 단어를 쓴다.[33] 사실 대립가설을 주어로 삼는 것이 더 직관적이기도 하고 외우기도 더 쉽다. 그렇다 보니 어떤 강의들에서는 아예 검정의 대상이 되는 것이 대립가설이라고 뒤집어서 가르치는 경우도 있는 모양. 그런 경우에는 영가설이 검정 대상이라는 올바른 정보를 뒤늦게 접하고서 혼란을 느끼는 경우가 굉장히 많다.[34] 심리학 전공자라면 여기서 신호탐지이론(SDT; signal detection theory)을 떠올릴 수도 있다. 연구자가 (불 깜박임과 같은) 어떤 신호를 주었을 때 실험 참가자가 그에 맞게 (버튼을 누르는 등으로) 잘 반응하는지 여부를 혼동행렬과 유사하게 정리한 것으로, 각각 hit, false alarm, miss, correct rejection의 4가지 상황이 된다. 이게 가설 검정의 오류에도 엇비슷하게 적용 가능한지라 혼용되기도 하지만, 가설 검정의 경우 각각의 셀들을 엄밀히 정의하면 사실 이쪽은 4가지 사건들의 확률의 문제다. 그래서 굳이 신호탐지이론의 용어를 들여온다면 전부 rate 단어를 뒤에 붙여주는 것이 좋다. 관련하여 읽어볼 만한 글[35] 아래 표에서 혼동행렬의 영향을 받아 올바른 판단을 각각 True Positive, True Negative라고 부르는 경우도 있으나, 엄밀한 관점을 따르는 학자들은 True가 정확히 무슨 의미냐고 반문하기도 한다. 그리고 이런 용어들을 만든다는 것은 곧 유의할 부분을 가리키기 위함인데, 오류가 아닌 올바른 판단에까지 용어를 굳이 붙일 필요는 없다는 시각도 많다. 오히려, 선별적으로 용어를 붙임으로써 학계의 관심이 쏠려야 마땅한 곳에 제대로 쏠리게 할 수 있다.[36] 즉, 알고보니 "없다" 가 정답이었던 경우.[37] 즉, 알고보니 진짜로 뭔가가 있긴 있었던 경우.[38] 즉, 검정을 통해 "없다" 로 판단한 경우.[39] 즉, 실제로는 어떤 현상이나 효과가 존재하는데 그것이 존재하지 않는다고 잘못 판단한 경우.[40] 즉, 검정을 통해 뭔가가 존재한다고 판단한 경우.[41] 즉, 실제로는 아무런 현상이나 효과도 없는데 그것이 존재한다고 잘못 판단한 경우.[42] 3종 오류(Type III error)라는 것이 1948년에 통계학자 프레더릭 모스텔러(F.Mosteller)에 의해 정의되기도 했다. 이것은 '영가설을 잘못된 이유로 올바르게 기각하는 것' 을 말한다. 그러나 이는 일반적인 사회통계 커리큘럼에서 벗어나기 때문에 여기서는 생략한다. 즉, 결정이 옳긴 한데 그렇게 결정한 이유가 핀트를 벗어났다는 뜻이다.[43] 그래서 "어떤 현상이 발견되지 않았다" 는 실망스러운(?) 내용의 논문이 학계에 투고되면 제일 먼저 리뷰어들이 묻는 것이 "이거 표본수 더 늘려봐야 하지 않겠어?" 다. 이런 뒷말이 나오지 않게 하려면 1-β를 미리부터 관리해야 하며, 1-β가 보장되는 최소한의 표본의 크기(n)를 찾아주는 것이 바로 검정력 분석이다. 여기에는 사후적(post-hoc)인 것과 선험적(a priori)인 것이 있는데, 선험적인 것은 연구 시작 즈음에 검정력을 보장하기 위한 참가자 수를 산정할 근거로 쓰이고, 사후적인 것은 이미 실시된 연구의 검정력이 문제없음을 보여주는 디펜스다. 당연히 착한 연구자들은 매너있게 선험적 검정력 분석을 한다.[44] 여기서 H0: μ0=m으로 세우는 것이 아니다. 표본평균(m)은 단지 가설적 모평균(μ0)과 실제 모평균(μ)이 같은지 아닌지를 판단하기 위한 도구에 불과하다. 표본평균(m)으로 구간추정을 한 뒤에 그 구간 전체를 실제 모평균(μ)으로 잡고 가설적 모평균(μ0)이 그 속에 걸리느냐 안 걸리느냐만 보는 것이다.[45] 예컨대 표본을 모집한 뒤 자살위험지수 같은 것을 측정한 결과가 평균 75점 이상(μ0)인지 알고 싶은데, 막상 표본평균(m)으로 추정된 모평균(μ)은 29점이라거나 하는 경우가 있다. 99.9% 신뢰수준으로 허들을 아무리 높여서 신뢰구간을 넓혀놓고 단측검정을 한다 해도, 이때는 아닌 건 아닌 것이다. 이때는 모평균이 75점이라는 기준점보다 더 낮기 때문에, 영가설(μ0=μ)을 기각하지 못하는 것이 오히려 오류다(Type II error).[46] 극단적으로 p=.935 처럼 연구자가 병나발을 불게 하는(…) 숫자가 튀어나왔을 때, t-값 역시 t=-.013 같은 식으로 매우 작게 나오게 되며, 신뢰구간 역시 CI95=[-1.79, 1.78] 같은 식으로 나온다. 정반대로 p=.000*** 숫자가 나와서 연구자가 쾌재를 부를 때, t-값도 t=17.918 같은 식으로 엄청나게 커지게 되고, 신뢰구간 역시 CI95=[15.07, 18.46] 같은 식으로 튀어나온다. (단, 앞의 숫자들은 느낌을 전달하기 위해 임의로 넣은 것일 뿐, 서로 통계적으로 연결성이 확인된 숫자들이 아님에 유의.)[47] 간혹 '채택역' 이라고 이르는 경우도 있지만 이번에도 역시 주어가 영가설임을 명시하지 않았기 때문에 벌어지는 문제다. 영가설을 채택한다는 말은 없다. 영가설을 기각할 정도로 결정적인 '스모킹 건' 이 발견되지 않았기 때문에 아직은 관습적인 생각을 그대로 갖고 있겠다는 판단일 뿐이다.[48] 간혹 애스터리스크가 아니라 기호가 붙는 경우도 있다. 이것은 신뢰수준(1-α)이 반대로 90%일 경우로, p<.10일 때 달리는 기호다. 당연히 허들을 낮추었으므로 1종 오류의 가능성이 증가하여 극단적인 표본에 취약해지며, 자연과학계에서는 거의 쓰지 않는다. 반면 사회과학계에서는 변인 통제가 쉽지 않아서 오히려 변인의 혼입으로 인해 2종 오류가 예상될 때 (즉 이론이 예측하는 대로 패턴 자체는 나타났는데 그 패턴의 강도는 다소 약할 때) p-값을 근거로 섣불리 기각하는 것은 자제해야 한다. 이럴 때 해당 기호를 붙여두면 영가설을 확실히 기각하진 못하더라도 대립가설(이론적 예측)이 잘못됐다는 결론 역시 피할 수 있다.[49] 의학 등의 분야에서는 당연히 이 정도를 기대하며, p-해킹 같은 이슈가 떠오를 때마다 사회과학계도 이 정도 허들을 도입해야 한다고 요구하는 사람들도 있다. 하지만 상기한 것처럼, 허들을 높인다는 것 자체가 2종 오류를 유발함을 생각하면 무작정 허들을 높인다고 해서 해결될 문제는 아니다. 노이즈가 끼었을 뿐 분명히 현상 자체는 존재하는데도 "에이 없나 보네" 하면서 학자들이 실망해서 떠나가 버리면 그것도 학문적인 손실이기 때문이다.[50] 그러나 이들의 제안이 정반대 방향으로 지나치게 가혹한 것이 아니냐는 지적도 있다. 예컨대 '통계적으로 유의한'(statistically significant) 같은 표현을 아예 쓰지 말라는 가이드라인은 비현실적이라는 것이다. 이에 관련된 읽어볼 만한 글[51] 여기서 풍자하는 것은 어디서든 효과(look-elsewhere effect)에 대한 것으로, 원래 숱하게 많은 다수의 비교집단들을 선정해서 각각의 통계적 검정을 동시에 진행할 경우에는 우연이 강하게 개입하여 낮은 p-값도 쉽게 얻어질 수 있다는 얘기다. 젤리빈들을 색상에 따라 죄다 나눠 놓고서 개별적으로 가설 검정을 하면, 그 중의 하나의 색 정도는 여드름을 유발시킨다는 잘못된 결론이 얻어지는 게 인지상정이라는 것(1종 오류).[52] 위에서 바로잡았던, 신뢰구간 안에 모수가 들어있을 확률이 95%라는 통념과도 비슷한 부분.[53] 사실 이에 대해서는 효과 크기(effect size)에 대한 엄밀한 이해가 선행되어야 한다. 효과 크기는 추정의 중요한 주제 중 하나이며 실제로 논문에서도 많이 발견되는 개념이지만, 사회통계의 일반적인 커리큘럼 범위에서는 벗어난다.[54] 통계학이 독자적인 학문으로 발전하는데 큰 역할을 한 사람으로, 초기 통계학이 수리통계적 논리구조를 갖추는데 큰 기여를 한 사람이다.[55] 여담으로 동시대의 저명한 통계학자인 Karl Pearson과는 학문적 지향점이 달랐다. 피어슨 역시 수리적 테크닉을 통해 논리적인 체계를 만들고자 했으나, 피어슨은 대중들이 더 직관적이고 쉽게 데이터를 받아들일 수 있는 방법을 찾으려고 했다. 반면 피셔는 어린 시절부터 수학물리학에 심취해있던 사람이기 때문인지, 고도의 수리적 테크닉을 활용해 엄밀한 통계 논리를 구축하는데 몰입했다고 한다.[56] 두 모집단에서 각각 표본집단을 독립적으로(independently) 추출하면 표본의 크기(n)가 서로 같을 필요는 없다. 그러나 짝지어(paired) 추출하면 표본의 크기(n)가 반드시 같아야 하며, 소표본일 때에는 모분산이 동일함을 가정하여 공통분산(sp2)을 검정통계량 계산에 활용할 수 있다. 공통분산을 못 쓰면 계산이 매우 복잡해지지만 어차피 컴퓨터가 다 해 줄 것이기 때문에 걱정할 필요가 없다.