통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment | ||||
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" | <colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 | 과학적 방법 | ||
기반 | 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학) | |||
연구·탐구 | 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화 | |||
연구방법론 | 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트) | |||
통계적 방법 | 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도) | |||
측정·물리량 | 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 기수법) | |||
실험 | 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구 | |||
연구윤리 | 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회 | |||
논문·과학 공동체 | 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구 | |||
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 | }}}}}}}}} |
1. 개요
記述統計學 / Descriptive statistics수집된 자료를 정리하여 표나 도표로 제시하거나, 자료를 요약하여 그 산포나 대푯값을 구하는 학문.
관심의 대상이 되는 전체 모집단의 자료를 획득하여 통계하는 경우가 많지만, 추론통계의 목적으로 추출한 표본의 자료를 통계하여 '기술통계량' 을 제시하기도 한다. 이는 신뢰구간 추정 등 향후 추론통계를 위한 사전 작업의 성격을 지닌다.
2. 자료의 요약
사회조사 목적으로 수집된 대개의 원천자료(raw data)는 어지간한 크기의 모니터로는 한 화면에 담기에는 택도 없는 규모를 자랑한다. 특히 사회조사의 세계에서 전수조사는 인구주택총조사(센서스) 외에는 찾기도 힘들 정도이며, 일단 시행하려면 나랏님이 직접 나서서 어마어마한 행정력을 투입해야 할 만큼 엄청난 규모의 자료가 얻어진다. 굳이 그런 대규모 조사가 아니라 단순히 한 학교 한 학년 학생들의 중간고사 성적을 기술통계하는 것조차도 엑셀에서 수백 개의 행을 채우는 양이 된다. 이런 자료를 요약하지 않고 고스란히 들고 다닐 수는 없다. 특히나 실무에서 윗사람에게 올릴 보고서에 인용하거나, 외부 시민 대중에게 공개하거나, 학계에 발표할 때 이런 막대한 자료를 고스란히 보여주는 건 그냥 미친 짓이다(…).자료를 요약한다는 것은 곧 그 자료가 갖고 있는 특성이나 속성을 몇 종류의 수치만으로 한눈에 볼 수 있게 압축한다는 것을 의미한다. 그렇다면 당연히 그 자료를 읽고 활용할 사람이 관심을 갖는 쪽의 특성이나 속성을 신경쓸 수밖에 없다. 그 사람이 자료에서 나온 수치가 대체로 얼마나 높은지를 주로 볼 수도 있고, 어떤 수치가 가장 흔하게 나오는지를 궁금해할 수도 있고, 개별 수치들이 서로 얼마나 멀리 퍼져 있는지를 볼 수도 있으며, 때로는 수치가 어느 쪽에 주로 몰려 있는지가 중요할 수도 있다. 그래도 대부분의 경우 가장 흔하게 관심을 받는 특성이나 속성은 결국 '대체로 얼마나 높은지' 와 '서로 얼마나 멀리 퍼져 있는지' 에 맞춰지는 경향이 있다. 이것만 봐도 어지간한 통찰은 얻을 수 있기 때문이다. 물론 이것만으로는 설명되지 않는 자료에서는 다른 자료를 함께 제시하면 된다.
이처럼 방대한 원천자료를 요약한다면 짧은 시간에 효율적이고 편리하게 그 자료가 가진 특징의 엑기스를 뽑아 볼 수 있다. 엑셀에서 괜히 부분합 기능이 지원되는 것이 아니다. 전체적인 평균을 살펴보고, 원하는 범주의 자료를 다시 뽑아내어 그 자료 묶음의 평균만 따로 살펴보고, 필요하다면 원천자료의 세부 조각을 열람하는 식으로 활용하자는 것이 부분합이다. 마찬가지로, 일단 요약된 자료는 그 자료의 평균연령이 만 몇 세인지, 연령대는 얼마나 폭넓게 응답되었는지, 청년층과 노년층 사이에서 과대 응답된 연령대는 없는지를 단 몇 개의 숫자만으로 보여준다. 관찰값 50개의 원천자료에서 기술통계를 통해 4개의 요약된 수치가 얻어졌다면, 같은 요약을 활용하는 한 관찰값이 500개든, 5천 개든, 심지어 대한민국 전국민인 5천만 개든 일체 상관없이 똑같이 4개의 요약된 수치만 나온다. 이것이 바로 기술통계가 갖는 무서운 효율성이다.
2.1. 중심화 경향
Central tendency많은 자료들을 늘어놓아 보면 빈도상의 패턴 내지 경향이 존재하는 경우가 있다. 관찰된 자료에서 집중되는 경향이 발견되는 것을 중심화 경향이라고 하고, 중심화 경향을 나타내는 수치는 따로 대푯값(representative value)이라고 부른다. 그리고 대푯값에는 평균(산술/기하/조화), 중앙값(median), 최빈값(mode) 등이 있다. 여기서 평균은 영어로 'mean'이지 'average'가 아님을 유의하자. 엑셀 함수 목록에서는 average로 쓰기는 하지만... 기하평균과 조화평균 역시 중심화 경향이긴 하지만 존재감은 역시 공기 수준이다. 평균은 관찰값 위에 바(bar)를 긋거나 소문자 m으로 표시한다.
이 중에서 평균, 그 중에서도 산술평균(arithmetic mean)의 경우 양적 자료에서만 사용 가능하며, 그 수학적 응용의 가능성이 매우 크기 때문에 통계학적으로 극도로 자주 활용되고 있다. 산술평균은 간단히 말해서 전체 관찰값들의 총합을 관찰값의 수로 나눈 것과 같다.
산술평균이 갖고 있는 중요한 특징 중 하나는 그것이 이상점이나 극단값에 심하게 영향을 받는다는 점이다. 자료가 잘 나가다가 확 튀면 산술평균도 자료를 따라서 확 튄다. 그래서 편포(skewed distribution)의 경우 산술평균은 보통 긴 꼬리를 향해 끌려가는 모습을 보인다. 좌측편포의 경우 산술평균은 왼쪽으로 끌려가며, 우측편포의 경우 산술평균은 오른쪽으로 끌려간다. 이는 각종 사회 데이터를 이해하는 데에 있어서도 중요한데, 왜냐하면 예컨대 양극화로 인해 다수가 흙수저이고 소수가 금수저일 때 평균을 내 보면 중산층에 해당하는 스테인리스(?) 수저 정도에서 나오기 때문이다. 결국 흙수저 인생이 얼마나 많은지의 문제는 가려지게 되며, 이런 경우는 평균에 더해 최빈값이나 중앙값을 함께 구해서 판단하는 것이 좋다. 산술평균이 만능은 아니라는 말.
일반적으로 평균이라 하면 산술평균만을 의미하지만, 산술평균 중에서도 약간 특이한 케이스가 있다. 한 가지 사례를 들자면 가중(산술)평균(weighted mean)이 있다. 이것은 각각의 관찰값들에 서로 다른 가중치를 곱연산해 주고, 이렇게 가중치가 반영된 전체 관찰값들의 총합을 전체 가중치의 총합으로 나눈 것과 같다. 가중평균의 관점에서 볼 때 산술평균은 n개의 자료에서 각각의 가중치가 모두 1/n으로 곱해져 있는 상태의 가중평균이라고 볼 수도 있다. 모든 관찰값들에 동등한 의미를 부여하고자 한다면 산술평균만으로도 충분하지만, 그렇지 않은 상황에서는 가중평균을 써야 한다.
산술평균 외에도 두 가지 평균이 더 존재한다. 먼저 기하평균(geometric mean)은 모든 관측값들이 양수라는 전제가 필요하며, n개의 모든 관측값들을 전부 곱한 값에다 n제곱근을 취함으로써 얻어진다. 당연히 n제곱근의 계산이 들어가므로 웬만해서는 이 계산을 손으로 하라고 시키지는 않는다(…). 그래도 인구변동률이나 물가상승률, 수익률 등등, 비율 자료이면서 시간적 지속이 반영되어 있을 때에는 기하평균이 사용되며, 평균 중에서 이상점의 영향을 가장 덜 받는다는 장점도 있다. 다음으로 조화평균(harmonic mean)은 각각의 관찰값들을 전부 역수로 바꿔준 다음, 전체 자료 수를 그 역수 관찰값들의 합으로 나눈 것과 같다. 표현을 달리하면, 관찰값의 역수를 산술평균한 결과에다 다시 역수를 취했다고도 할 수 있다. 이쪽은 시간당 성능 변화나 속도 변화 등, 비율 자료가 아니지만 시간적 지속이 반영되어 있을 때에 사용된다.
한편 중앙값은 양적 자료에서만 사용 가능하며, 수치 자료가 크기 순서대로 정렬되어 있을 때 가장 가운데에 위치하는 관찰값과 같다. 여기서 중앙값은 계산이 쓸데없이 복잡한 축에 든다. 이산적 자료에서 중앙값을 찾으려면 다음의 절차를 거쳐야 한다. 1) 전체 관찰값들을 크기 순서대로 정렬한다. 2) 관찰값의 수에 1을 더한 뒤 2로 나눈다.[2] 3) 얻어진 수에 해당하는 번호의 관찰값을 읽는다. 4) 전체 관찰값이 짝수 개여서 번호가 x.5 형태로 나온다면, x번 값과 x+1번 값의 산술평균을 구한다. 그리고 연속적 자료에서는 이것보다 더 복잡하다. 대학교 사회통계 강의에서든 사회조사분석사 자격증 필기시험이든, 연속적 자료를 놓고 중앙값을 찾으라는 문제는 교육적인 의미가 크지 않기 때문에 논외로 친다.
중앙값은 편포 여부에 영향을 받지 않는다. 즉 꼬리가 길어지고 비대칭이 되더라도 그 분포의 중앙값 자체는 변하지 않는다. 이런 성질을 가리켜 강고하다(robust)고 표현한다. 만일 완전한 좌우대칭일 경우, 평균과 최빈값은 중앙값과 정확히 일치하며, 이는 정규분포의 특징 중 하나이기도 하다. 그래서 중앙값을 기준으로 정리하면, 좌측편포의 경우 평균은 중앙값의 좌측으로, 최빈값은 중앙값의 우측으로 끌려간다. 우측편포의 경우는 그 반대라서, 평균은 중앙값의 우측으로, 최빈값은 중앙값의 좌측으로 끌려간다. 아무튼 이처럼 편포로부터 자유롭기 때문에 이상점이 많은 자료를 다룰 때에는 중앙값도 함께 구해서 판단해야 한다. 또한 하술될 사분위 요약을 할 때에도 중앙값이 필요하다. 그러나 계산이 까다롭고 대규모의 자료에 대응하기 힘들다는 것은 단점이다.
마지막으로 최빈값은 양적 자료와 질적 자료 모두에서 사용 가능하며, 그 관찰 빈도수가 가장 높은 관찰값을 말한다. 가장 직관적이고 단순하다면 단순한 개념인데, 질적 자료에서 사용할 수 있는 유일한 중심화 경향이다. 대표적으로 혈액형처럼 대략 4~5개 정도의 범주가 존재하는 자료에서는 최빈값이 가장 의미 있는 대푯값이 된다. 정의가 정의인 만큼 최빈값은 하나가 아니라 여러 개가 될 수 있으나, 모든 빈도가 동일할 경우에는 좀 애매하다. 대개는 모두 최빈값이라고 간주하기보다는 최빈값이 없다는 쪽으로 분석하는 듯. 이런 질적 자료에서 평균은 통계적으로 아무런 의미를 갖지 못한다.
최빈값은 편포에서 평균과 반대로 움직인다. 좌측편포의 경우 최빈값은 우측으로 밀려나며, 우측편포의 경우 최빈값은 좌측으로 밀려난다. 즉 최빈값은 꼬리에 대해 반대 방향으로 밀려나는 경향을 보인다. 결과적으로 좌측편포의 경우 세 가지 중심화 경향은 좌측에서부터 읽을 때 평균 - 중앙값 - 최빈값 순서로 놓이게 되며, 우측편포의 경우 세 가지 중심화 경향은 좌측에서부터 최빈값 - 중앙값 - 평균 순서로 놓인다. 평균은 이상점이 있는 꼬리로 끌려가고, 중앙값은 그 이름대로 항상 중앙이며, 최빈값은 평균의 반대 방향으로 밀려난다고 보면 될 듯. 또는 최빈값의 의미를 먼저 고려하여 최빈값은 편포의 꼭대기 부분에 놓이고, 중앙값은 그 이름대로 항상 중앙이며, 평균은 최빈값의 반대 방향으로 밀려난다고도 생각할 수도 있겠다.
이상의 내용을 정리하면 다음과 같다.
(산술)평균 | 중앙값 | 최빈값 | |
자료의 유형 | 양적 자료 | 양적 자료 | 양적 자료 & 질적 자료 |
대칭형 분포에서 위치 | 평균, 중앙값, 최빈값이 서로 일치한다. | ||
좌측편포에서 위치 | 중앙값의 우측(꼬리 방향) | 변동 없음 | 중앙값의 좌측 |
우측편포에서 위치 | 중앙값의 좌측(꼬리 방향) | 변동 없음 | 중앙값의 우측 |
2.2. 자료의 산포
Dispersion위에서 중심화 경향은 대량의 자료가 '대략 어디쯤에서 모이는가' 의 특성이나 속성은 잘 보여주지만, 막상 그 자료가 그 대푯값에 얼마나 밀집되어 있는지, 아니면 얼마나 사방팔방으로 퍼져 있는지를 보여주지는 못한다. 자료를 활용해야 할 사람이 자료의 퍼져 있는 정도에 더 많은 관심을 보인다면, 산포 경향을 보여주는 다른 요약을 시도할 필요가 있다. 자료가 온 사방으로 튄다면 중심화 요약이 갖는 의미도 그만큼 약해지기 때문이다. 이하에 소개될 요약 수치들은 위에서 소개했던 요약 수치들과는 그 성질이 전혀 다르다는 점에 주목하자.
가장 기본적이고 쉽게 구해지는 산포 요약은 바로 범위(range)이다. 범위는 주어진 관찰값들에 존재하는 최댓값에서 최솟값을 빼기만 하면 바로 얻어진다. 짐작하겠지만 범위는 이상점이 나타나면 곧바로 힘을 잃는 요약에 속한다(…). 자료가 여기서부터 저기까지 이만큼의 거리 속에 존재함을 보여주는 것이 범위인데, 이상점은 그 거리에 아무 의미 없는 추가 거리를 덧붙여 버리기 때문이다. 물론 최댓값과 최솟값 자체는 쓸모가 있다. 특히 하술될 시각화 작업에서 막대그래프를 그릴 때 최댓값과 최솟값을 알아야 보기 좋은 시각화가 가능하다. 하지만 구태여 최댓값에서 최솟값을 뺀 범위를 구한다 해도 그건 쓸모가 없다. 차라리 최댓값과 최솟값을 대놓고 각각 보여주는 편이 훨씬 더 나은 경우가 많다.
다음으로 평균편차(MD; mean deviation)가 있다. 자료가 중심화 요약에 오밀조밀 모일수록 그 요약이 갖는 힘이 강해진다는 점에 착안하여, 각각의 관찰값들이 평균으로부터 얼마나 멀리 튀어나가 있는지를 전부 계산해서 평균하자고 생각해 보자. 그런데 이는 곧 한계에 봉착한다. 관찰값에서 평균을 감산할 경우(xi-μ) 다량의 음수 값들과 양수 값들이 얻어지게 되는데, 이를 산술평균하기 위해 모두 합쳐 놓으면 0이 되어 버리기 때문이다. 이는 산술평균과 각 관찰값들 사이의 편차의 합이 0이라는 산술평균의 성질에서 기인한다. 이를 우회하기 위한 가장 기초적인 조치가 바로 모든 편차에 절댓값을 취해(|xi-μ|) 산술평균하는 것이다. 바로 이것이 MD이다.
편차는 각각의 관찰값들이 산술평균으로부터 떨어져 있는 거리인 만큼, 그것이 음수냐 양수냐 여부는 의미가 없다. 그것은 단지 산술평균과 관찰값 사이에 어느 쪽이 더 큰가 여부만을 보여줄 뿐이다. 절댓값으로 쓸데없는 (-) 부호를 죄다 떨구어 놓고서 산술평균하면 편차의 크기를 효과적으로 요약할 수 있게 된다. 이런 점에서는 MD가 분명 설득력 있는 방법일 텐데, 현실적으로는 거의 쓰이지 않는 요약이라는 게 문제다. 가장 일반적으로는 "향후 통계적 활용이 불가능" 하다는 설명이 따라붙는데, 조금 더 구체적으로 말하자면 절댓값이 끼어들어갔기 때문에 미분을 활용한 계산을 하기에 힘들어진다는 어려움이 생긴다. 이를 더 캐묻게 되면 수학의 영역으로 넘어가므로(…) 여기서는 절댓값이 아니라 다른 방법으로 (-) 부호를 떨구는 방법이 필요하다는 점만 유념하면 된다.
물론 절댓값만 방법인 것은 아니다. 모든 음수 및 양수 편차 값들을 전부 제곱해 버리면((xi-μ)2) 마찬가지로 (-) 부호를 떨굴 수 있는 것이다. 모든 편차 값들을 제곱하여 합산한 값, 즉 편차제곱합(SS; sum of squares)을 가지고 산술평균하면,[3] 비로소 산포에 대해 쓸 만한 요약이 완성되는 것이다. 그리고 사회과학자들은 실제로 그렇게 해 왔고, (-) 부호와의 전쟁에서 승리(?)했다. 이것이 바로 분산(var; variance)이다. 절댓값이 아니라 제곱을 활용하자는 발상은 사소한 아이디어처럼 보이지만 분산 분석(ANOVA; analysis of variance)과 같은 후속 통계 분석으로까지 발전되어 활용되고 있다.
분산은 산술평균으로 대표되는 중심화 경향을 보완할 수 있는 강력한 요약이다. 산술평균이 같다고 하더라도 분산이 다르면 이는 명백히 다른 통계적 정보를 제공하게 된다. 연속적 자료의 경우, 분산이 다르고 산술평균이 같은 두 정규분포는 한쪽은 늘씬한 키다리 분포, 한쪽은 땅딸막하고 뚱뚱한 분포를 보이게 된다. 보통 분산이 커질수록 분포의 키는 낮아지고 그만큼 극단값이 나타날 확률은 증가하게 된다. 정규분포의 꼭대기를 손가락으로 꾸욱 눌렀을 때 좌우 주변부가 들려올라가는 상황을 상상해 보자. 분산이 커질수록 산술평균이 자료에서 갖는 의미는 그만큼 감소하여, 산술평균 수치만 가지고는 그 자료를 제대로 파악했다고 말할 수 없게 된다. 이것이 바로 분산의 중요성이다.
그러나 분산에는 맹점이 있다. 당장 보더라도 제곱 계산의 결과로 인해 숫자들이 확 커지는 것을 볼 수 있다. 이는 원천자료의 관찰값 자체가 큰 숫자일 때 특히 가독성을 낮출 수 있다. 그러나 비단 가독성 문제뿐만 아니라, 자료를 제곱한다는 것은 곧 그 자료의 단위까지도 제곱한다는 것과 같아서, 산술평균과 분산을 함께 놓고 숫자를 비교할 수가 없게 된다. 결과적으로 사회과학자들은 분산 자체의 아이디어는 인정하면서도 분산의 한계를 보완할 수 있는 보조적 수단을 찾았다. 제곱으로 자료가 부풀려졌으니, 그 부풀려진 것을 원상복구시킬 요약이 필요한 것이다. 그래서 나온 것이 분산에 도로 제곱근을 취해 숫자를 줄여놓은 값, 표준 편차(st.dev; standard deviation)이다. 분산과 표준편차는 모든 관찰값에 동일한 값을 더하거나 빼도 변하지 않으며, 곱하거나 나눌 때에는 분산과 표준편차에 똑같은 값을 양수로 연산한 결과가 나온다(σx 일 때 σax+b=|a|σx).
학문분야마다 조금씩은 다르겠지만 평균과 표준편차는 학계에서 어떤 자료를 요약해 보고할 때 가장 기본이 되는 두 개의 수치라고 할 수 있다. 예컨대 리커트 7점 척도에서 평균이 4.54, 표준편차가 0.90으로 계산된 자료가 있다면, 논문에 이를 보고할 때 테이블 한쪽 상단에 M(SD)라고 적어 놓고 그 아래에다 4.54(.90) 같은 방식으로 기록하는 것이다. 그렇게 한다면 동료 사회과학자들이 이를 읽고서 "아하, 7점 만점에 평균이 4.54점 정도로 나왔으니 중간보다는 조금 높은 응답이 나왔고, 표준편차가 0.90이니 과반수의 응답자들은 4.54점에서 그 편차 이상으로 벗어나진 않았구나" 따위의 판단을 할 수 있게 되는 것이다. 달랑 숫자 두 개만 내세웠을 뿐인데, 그것만으로도 수백 수천 명의 사람들의 생각이 한눈에 정리된 것이다.
그런데 이 표준편차조차 한계가 있음을 지적하는 사회과학자들도 있었다. 이들에 따르면 표준편차는 측정단위의 영향을 받기 때문에 단위가 서로 다른 여러 자료들 사이의 산포를 서로 비교하는 것이 불가능하다는 문제를 안고 있다. 단위가 다르다는 것은 비유하자면 각 자료마다 배정되어 있는 줄자 여러 개가 저마다 눈금의 간격이 제멋대로라는 것과도 같아서, 어떤 단위를 사용하든 간에 똑같은 계산을 통해서 도달할 수 있는 하나의 표준점으로 통일시킬 필요가 있다. 바로 이것으로부터, 표준정규분포 쪽에서도 마찬가지로 다루는 표준화(standardization)의 논리를 이해할 수 있다.
가장 간단한 표준화의 방법은 바로 변동계수(CV; coefficient of variation)이다. CV는 표준편차를 그 자료의 산술평균으로 나누는 것인데, 어떤 자료든 다 자기만의 산술평균과 표준편차가 있게 마련이므로 계산을 통해서 하나의 표준점으로 삼을 수 있는 것이다. 더 쉽게 말하면, 여러 표준편차들을 비교할 때 "A자료의 표준편차는 B자료의 표준편차보다 크다" 따위의 주장을 무턱대고 내미는 게 아니라(…) "A자료의 표준편차는 자기 산술평균의 크기와 견주어 봤을 때 이 정도이고, B자료의 표준편차는 자기 산술평균에 견주어 보면 저 정도로 나오니, 표준편차의 상대적 크기에 대해서라면 A자료의 것이 B자료의 것보다 크다" 로 주장하는 게 바로 CV다. 각 자료의 평균과 표준편차를 구하는 것은 어려운 일이 아니니, 복잡한 계산을 하지 않아도 웬만하면 주어진 요약 수치만 가지고도 금방 얻어낼 수 있어 활용하기에 편하다.
마지막으로 살펴볼 조금 특수한 요약으로는 사분위간 범위(IQR; interquartile range)라는 것이 있다. 이를 이해하려면 먼저 사분위수(quartile)라는 특이한 대푯값을 먼저 이해해야 하는데, 이것은 중앙값을 기준으로 삼아서 자료를 4등분했을 때 나타나는 3개의 잘려진 지점을 말한다. 여기서 중앙값은 곧 제2사분위수 또는 Q2라고 지칭되고, 그 양쪽의 각각의 자료 도막에서 한번씩 더 중앙값으로 자르면 제1사분위수(하사분위수; Q1)와 제3사분위수(상사분위수; Q3)가 나온다. 여기서 IQR은 Q1에서 Q3에 이르는 범위를 말하며, 전체 자료의 가운데 부분 50%에 해당하는 범위가 된다. 위에서 소개했던 평범한 범위 요약과는 달리, IQR의 쓰임새는 비교할 수 없을 만큼 막강하며, 이후 소개할 시각화에서도 상자도표(boxplot)를 그릴 때 중요한 기준점이 된다.
2.3. 왜도와 첨도
지금까지 소개한 요약 수치들은 자료의 특성 및 속성에 대해 중요한 정보들을 제공한다. 중심화 경향은 자료들이 대체로 어디쯤에 몰려 있는지를 보여주고, 분산을 비롯한 여러 산포 요약들은 자료들이 얼마나 중구난방으로 흩어져 있는지를 보여준다. 그런데 이런 요약들 중 어느 것도 설명해내지 못하는 자료의 특성이 있으니, 바로 그 자료가 갖는 비대칭성이다. 어떤 자료는 좌우대칭의 예쁜 분포를 보여주는데, 다른 자료는 대칭적이지 않은 모습으로 기울어져서 나타날 수 있는 것이다. 이 비대칭성이 깨진 상황이 중요하다면, 이를 요약해 보여줄 다른 수치가 있어야 한다.왜도(skewness)는 주어진 자료가 얼마나 비대칭성을 보이는지 요약해 보여주는 모수이다. 왜도는 가능한 모든 정수 값을 가질 수 있으며, 왜도가 0일 때 분포는 거울처럼 좌우대칭의 모양을 띠게 된다. 여기서 대부분의 교과서들은 정규분포의 왜도가 0임을 중점적으로 예시화하긴 하나, 사실 쌍봉분포나 균등분포 같은 다른 종류의 분포들에서도 좌우대칭이기만 하면 왜도 값은 0이 된다. 비대칭은 왼쪽으로 혹은 오른쪽으로 나타날 수 있으며, 여기서 왜도 값이 음수일 때에는 오른쪽에 관찰값들이 쏠리면서 좌측편포를 보이고 긴 왼쪽 꼬리가 만들어지며, 왜도 값이 양수일 때에는 왼쪽에 관찰값들이 쏠리면서 우측편포를 보이고 긴 오른쪽 꼬리가 만들어진다.
왜도 값이 음수냐 양수냐에 따라서 자료가 어느 쪽으로 기울어지는지 여부는 각종 시험에 단골사골로 출제되는데, 그 이유는 배우는 학생 입장에서 처음에는 이것이 굉장히 헷갈리기 때문에 줄세우기도 좋기 때문이다(…). 편의를 위해 왜도를 γ1이라고 하자. γ1=0 이 좌우대칭임은 기억하기 어렵지 않다. 그런데 γ1>0 이라면? 반대로 γ1<0 이라면? 쉽게 외우는 방법이 있다. γ1>0 의 경우, 부등호가 왼쪽으로 입을 벌렸다면 왼쪽이 많다고 이해하여 좌측편포라고 생각할 수 있다. 반대로 γ1<0 의 경우에도, 부등호가 오른쪽으로 입을 벌렸다면 오른쪽이 많다고 이해하여 우측편포라고 생각하면 된다.
여기서 왜도 값이 0인지, 양수인지, 음수인지는 어떻게 알 수 있을까? 통계학자 칼 피어슨(K.Pearson)이 제시한 매우매우 간단한 방법이 있다. 우선 그 자료의 산술평균 값과 최빈값을 알아야 한다. 최빈값이 없거나 쓰기 불편할 때는 중앙값을 알아도 된다. 이후 평균에서 최빈값(또는 중앙값)을 뺀 값이 양수인지, 음수인지, 또는 0인지 알면 된다. 딱 여기까지만 해도 자료의 모양에 대한 짐작이 가능하다. 대학원까지 가서 초등학교 저학년 뺄셈을 하는 수준이다![4] 단순히 부호만 궁금한 게 아니라 정확한 값을 필요로 한다면, 최빈값을 쓸 때는 그 감산한 값을 표준 편차로 다시 나누어 주고, 중앙값을 쓸 때는 감산한 값에 3을 곱한 다음에[5] 표준편차로 나누면 된다. 이것을 피어슨의 왜도 계수(Pearson's skewness coefficient)라고 부른다. 그러나 현실적으로 사회통계의 관점에서 정확한 왜도 값보다는 왜도 값의 부호가 더 의미가 있는 경우가 많고,
위의 논리를 더 간단하고 직관적인 방식으로 요약하면 다음과 같다.
- 평균에서 최빈값을 뺐더니 양수가 나온다는 얘기는, 둘을 비교해 봤더니 평균이 최빈값보다 더 큰 값이라는 의미다. 다시 말해, 그 분포의 최고봉이 평균보다 더 작은 쪽, 즉 평균의 왼쪽에 위치한다는 것이며, 그 분포 자체가 좌측편포라는 얘기가 된다.
- 평균에서 최빈값을 뺐더니 0이 됐다는 얘기는, 둘을 비교해 봤더니 평균과 최빈값이 서로 같은 값이라는 의미다. 이것은 분포의 최고봉이 곧 평균이기도 하다는 것으로, 좌우대칭의 정규분포일 경우에 해당한다. 정규분포가 아닌 대칭형일 경우 최빈값을 쓰기 곤란하므로 중앙값으로 바꾸어 생각하면 된다.
- 평균에서 최빈값을 뺐더니 음수가 나온다는 얘기는, 둘을 비교해 봤더니 평균이 최빈값보다 더 작은 값이라는 의미다. 다시 말해, 그 분포의 최고봉이 평균보다 더 큰 쪽, 즉 평균의 오른쪽에 위치한다는 것이며, 그 분포 자체가 우측편포라는 얘기가 된다.
대칭성 | 꼬리 방향 | 산술평균과 최빈값의 관계 | |
γ1=0 | 좌우대칭 | 좌우측 | 산술평균=최빈값 (단, 정규분포일 때) |
γ1>0 | 좌측편포 | 우측 | 산술평균>최빈값 |
γ1<0 | 우측편포 | 좌측 | 산술평균<최빈값 |
왜도 이외에 좀 특수한 목적의 요약을 위해 동원되는 모수로는 첨도(kurtosis)가 있다. 왜도와 함께 늘 쌍으로 소개되지만 유독 왜도보다는 설명의 비중이 낮은 편인데, 첨도 자체가 아직도 통계학적으로 딱 떨어지는 정의가 안 나와서인 것도 있다(…). 가르치는 사람이나 배우는 사람이나 첨도에 대해서는 할 말이 많지 않고, 정확히 어떤 쓰임새를 위해 요약해야 하는지도 확실치 않은지라 아예 무시하고 넘어가는 커리큘럼도 종종 있다. 특히나 첨도는 굉장히 오해를 사기 십상인 방식으로 소개되는 경우가 잦다.
첨도에 대한 흔한 오해는 그것이 "분포의 뾰족한 정도" 를 다룬다고 이해하는 것이다. 그런데 첨도는 그런 게 아니다. 첨도는 자료 속의 이상점이 얼마나 '이상한지' 를 요약하는 모수다. 물론 이상점이 '심하게 이상할수록' 결과적으로 자료의 분포 역시 끝부분이 뾰족해지는 경향을 보인다. 하지만 그걸 가지고 분포의 뾰족한 정도에 포커스를 맞추면 안 된다. 첨도의 포커스는 자료의 이상점, 즉 분포의 꼬리 쪽에 맞춰져 있다.[6] 분포가 뾰족한지 아닌지는 (논리적으로 그 뾰족함이 사실 이상점의 극단성을 암시한다는 추론을 하지 않는다면) 사실 사회과학적으로 시사하는 바가 거의 없다. 사정이 이렇다 보니 첨도=뾰족함 따위의 방식으로 교육이 이루어지고 나면 첨도를 왜 배우는지, 언제 써야 하는지도 이해하지 못하고 넘어간다. 남는 건 분산 비슷한 무언가라는 생각뿐이다. 결과적으로, 이상점이 유달리 극단적인 자료는 첨도 값을 제시하여 효과적으로 요약할 수 있음에도, 첨도를 사용하지 않은 채 단순히 산술평균을 회피하는 차원에서 그치고 만다.
첨도의 경우에도 암묵적인 기준점은 정규분포인데, 정규분포의 첨도 값은 3이라고 알려져 있다. 그런데 정규분포의 쓰임새가 워낙 많다 보니 3이라는 숫자가 눈꼴사나웠던(…) 통계학자들이 적잖이 있었고, 아예 첨도 값에서 3을 뺀 값을 새로운 첨도의 기준으로 삼자는 얘기도 나왔다. 이렇게 하면 정규분포를 가지고 놀 때 첨도를 쓰기 편하기 때문이다. 그래서 만들어진 새로운 첨도의 정의를 초과 첨도(excess kurtosis)라고도 부른다. 그러나 3을 빼든 빼지 않든 간에, 역시 구체적인 첨도 값까지 사람이 손으로 계산할 필요는 없다. 첨도는 네제곱 계산이 들어가는 더러운 공식으로 정의되는데, 이런 걸 사람 손으로 하느니 컴퓨터에게 시키는 게 훨씬 낫기 때문.
첨도 또한 가능한 모든 정수 값을 가질 수 있다. 첨도가 3보다 클 때, 즉 초과 첨도가 양수일 때, 이 수치가 크면 클수록 유달리 튀는 관찰값, 즉 이상점들이 특히나 이상한 위치에 많이 놓여 있음을 알 수 있다. 이상점들이 외따로 노는 경향이 극단적인 분포의 모양은, 자연히 중심화 위치에서는 평범한 관찰값들이 오밀조밀 모여서 뾰족한 탑을 이루지만, 이상점들을 반영하기 위해서 하나 이상의 꼬리가 길게 나타나고,[7] 분포의 중간 지점은 움푹 패이게 된다. 이를 고첨분포(leptokurtic distribution)라고 한다. 반대로 첨도가 3보다 작을 때, 즉 초과 첨도가 음수일 때, 이 수치가 작으면 작을수록 이상점들은 거의 이상하지 않은 위치에 놓이게 된다. 이제 관찰값들의 분포는 정규분포가 갖는 것보다도 더 완만한 꼭대기와 짧아진 꼬리로 나타난다. 이를 저첨분포(platykurtic distribution)라고 한다. 마지막으로 첨도가 3일 때, 즉 초과 첨도가 0일 때는 중첨분포(mesokurtic distribution)가 된다.
다시 정리하자면, 첨도 값이 커질 때 꼭대기가 뾰족해지는 이유는 이상점이 이상하기 때문에 다른 관찰값들이 그만큼 뾰족한 곳으로 몰려들어서 생긴 일이다. 좀 어설픈 비유지만, 인싸들 사이에서 아싸가 이상하면 이상할수록 그 인싸들의 인싸력 역시 하나같이 엄청나다고 볼 수 있다. 인싸 무리들 중에 동료들보다 조금이라도 더 아싸를 이해하는 사람이 존재한다면, 그 문제의 아싸는 더 이상 '이상한' 존재가 아니기 때문이다. 마찬가지로, 첨도 값이 작아질 때 꼭대기가 완만해지는 것 역시, 이상점이 이상하지 않기 위해서는 다른 관찰값들이 이상점과 충분히 가깝기 때문이라고 할 수 있다. 다시 비유하자면, 아싸들이 인싸들 사이에서도 별 탈 없이 잘 어울릴 수 있다면, 그것은 그 인싸들도 제각기 아싸 문화를 이해하거나 어느 정도는 힙스터 기질이 조금씩 있기 때문에 아싸도 무리없이 섞여들 수 있기 때문이다.
꼭대기 | 중간 부분 | 꼬리 길이 | 이상점의 극단성 | |
κ=3 κ-3=0 | 중간 | 중간 | 중간 | 중간 |
κ>3 κ-3>0 | 뾰족함 | 얇음 | 긴 꼬리 | 높음 |
κ<3 κ-3<0 | 완만함 | 두터움 | 짧은 꼬리 | 낮음 |
3. 자료의 정리 및 시각화
위에서 살펴본 것처럼, 요약은 대량의 자료가 갖고 있는 하나의 특성이나 속성을 그에 대응되는 하나의 숫자로 나타내 보여준다. 그런데 숫자 하나로는 이해하기 힘든 경우가 있다. 그 자료를 활용할 사람이 만일 관찰값이 관측되는 빈도가 어떤 식으로 분포되어 있는지 관심이 있다면, 위에서 살펴보았던 요약은 그다지 도움이 되지 못한다. 빈도의 분포를 한눈에 파악하고자 한다면, 숫자 몇 개로 퉁칠 것이 아니라 아예 표를 만들어서 관찰값들의 관측 결과를 보여줄 필요가 있다. 그러나 경우에 따라서는 표로 만든다고 하더라도 여전히 눈이 빙빙 돈다거나, 직관적인 비교가 힘들 때가 있다. 이 때문에 시각적으로 쌈빡하게 정리해서 보여줄 필요성이 생겼고, 그래서 고안된 시각화 방법들이 바로 이하와 같은 다양한 몸부림(…)들이다. 어느 하나 할 것 없이 전부 다 중요하지만, 각각의 쓰임새는 그것이 다루는 자료의 특징에 따라서 전부 다르다.자료를 정리하기 전에 먼저 유념하고 넘어가야 할 것이, 자료의 정리는 그 자료가 어떤 성질을 띠느냐에 따라 달라진다는 것이다. 먼저 양적 자료(quantitative data)의 경우 사칙연산이 의미가 있는 수준에서 측정된 자료를 말한다. 예컨대 출생연도에 대한 자료는 덧셈과 뺄셈이 의미가 있으며(등간 수준 측정), 월별 자동차 생산량에 대한 자료는 덧셈과 뺄셈에 추가로 곱셈과 나눗셈까지 의미가 있다(비율 수준 측정). 반면, 질적 자료(qualitative data)의 경우 사칙연산이 무의미함에도 단순히 숫자를 대응시킨 수준에서 측정된 자료를 말한다. 예컨대 혈액형에 대한 자료는 서로 연산을 하는 것이 의미가 없고(명목 수준 측정), 응답자 직위에 대한 자료는 서로 우열을 가리는 것만이 의미가 있을 뿐이다(서열 수준 측정). 자세한 내용은 측정 문서를 참고.
양적 자료와 질적 자료의 차이를 먼저 유념해야 하는 이유는, 앞으로 다루게 될 정리법들이 둘 중 어느 종류의 자료를 정리하는 방법인지 이해하지 않으면 상당한 혼란을 초래하기 때문이다. 실제로 인터넷에는 막대그래프와 히스토그램의 차이점에 대해서 단순히 '막대들이 붙어 있는가 떨어져 있는가' 정도만을 거론하고 그치는 사태도 종종 벌어진다. 도수분포표를 만들 때에도 양적 자료를 질적 자료처럼 취급하면 표가 매우 길고 못생겨지는데(…) 그 이유를 찾지 못하고 혼자 헤매고 있는 초보적인 실수를 하기가 쉽다. 도수분포표의 모습은 질적 자료일 때와 양적 자료일 때 서로 다르게 나타나는데 의외로 이 부분이 명확하게 설명되지 못하는 경우가 많다.
한컴오피스 한글 및 MS 워드에서 이하의 시각화 서비스를 지원하고 있으며, 각종 도표 만들기는 ITQ 및 컴퓨터활용능력 자격증 시험의 단골 주제이기도 하다. 소프트웨어의 꾸미기 관련 기능들을 복합적으로 테스트하기에 제격이기 때문. 반면에 통계적 방법이나 사회조사분석사 자격증 실기 시험에서는 크게 강조되지 않는 부분이다. 그럼에도 불구하고 자료의 시각화는 논문 등지에서 활용될 때 결코 무시할 수 없다. 학계 현장에서 리뷰어의 이해를 돕기도 하고 괜한 논란을 초래하기도 하며 심지어는 동료평가가 몇 달씩 지연되게도 만드는 것이 바로 그림도표(figures)이기 때문.
뜻밖일 수 있지만 "백의의 천사" 로 알려진 플로렌스 나이팅게일이 통계자료를 시각화했다는 업적으로 통계학사(史)에서 등장하기도 한다. 크림 전쟁에서 영국군 사망 원인에 대한 통계자료를 도표로 만든 것이 유명하다.
3.1. 도수분포표
도수분포표(frequency distribution table)는 방대한 자료들이 관찰되는 빈도의 분포를 표 형태로 정리하는 가장 기본적인 방법이다. 상기했던 것처럼 도수분포표는 질적 자료에도 쓰일 수 있고, 양적 자료에도 쓰일 수 있다. 물론 가장 흔히 생각할 수 있는 질적 자료에 대한 정리 사례는 응답자의 성별을 정리하는 것이 있다. SPSS에서도 성별 자료를 정리할 때 남성 몇 명, 여성 몇 명으로 자그마한 표를 만들어 주면 굉장히 편리하다. 이는 성별에 배정된 값인 범주(category)가 대개 2개[8]에 불과하기 때문이다. 그런데 질적 자료임에도 불구하고 범주가 굉장히 많아지는 경우도 얼마든지 가능하다. 예컨대 '서울시 자치구별 범죄발생건수', '관내 결혼이주여성 출신국적', '캠퍼스 내 유학생 출신국적' 같은 경우에는 질적 자료이기는 하지만 범주 수는 상당히 많아진다.범주 | 도수 (단위: 명) | 상대도수 (단위: %) | 누적도수 (단위: 명) |
중국 베트남 인도네시아 일본 미국 대만 튀르키예 러시아 에티오피아 | 166 17 12 8 5 4 3 1 1 | 76 8 6 4 2 2 1 0 0 | 166 183 195 203 208 212 215 216 217 |
위의 도수분포표는 도수의 크기에 따라 내림차순 정렬이 되어 있는데, 실제로 질적 자료에서는 각 범주들 사이에 별다른 서열 순서나 의미가 없다면 도수 기준 내림차순 정렬을 하는 것이 좋다. 그리고 위 자료의 경우 도수가 5 이하로 나타나는 찌끄레기(?) 관찰값들이 많이 나타나서 표를 길게 만들고 있으며, 필요할 경우에는 "기타" 범주를 만들어서 거기에다 전부 합산해 몰아넣는 것도 가능하다. 어디까지 기타로 인정할지는 그 자료를 활용하는 사람 마음이라, 특정 숫자를 기준으로 할 수도 있고 위에서부터 어디까지 살펴볼지를 기준으로 할 수도 있다. 위 자료에서도 10 이하를 기타로 취급하자고 결정한다면 인도네시아 미만잡(…)이 되지만, 국적별 5위까지 관심을 두겠다고 한다면 그때는 미국 미만잡이 되는 것. 이런 문제는 의외로 실무에서 굉장히 중요한 이슈가 되기도 한다.[9]
경우에 따라 도수가 0인 범주가 등장하기도 하며, 이걸 제외할지 포함할지도 역시 그 자료를 활용하는 사람 마음이다. 예를 들어 관내 각 행정동별 범죄 발생 건수를 취합했는데, 어떤 행정동에서는 단 한 건의 범죄도 발생하지 않았다고 가정해 보자. 이 경우에는 도수가 0이라고 해서 그 행정동을 도수분포표에서 빼면 안 된다. 도수가 0이라는 사실 자체가 의미를 갖기 때문이다. 이번에는 다시 결혼이주여성 이야기로 되돌아가 보자. 위의 자료에서 뜬금없이 이란, 방글라데시, 파키스탄 등을 마구 집어넣어서 텅 빈 범주들을 잔뜩 늘리는 것이 괜찮다고 할 수 있을까? 대개는 아니다. 아무 의미 없는 범주이기 때문이다. 그런데 만약, 매년 발간하는 통계연보에서 이 세 국적의 여성들이 1~3명씩 통계에 잡혔었는데 올해는 하필 전부 이사를 가서 0명이 된 거라면? 이 경우에는 넣어야 한다. 그 범주가 0명이라는 사실에 시간적인 의미가 부여됐기 때문이다. 이처럼 범주를 정하는 것은 기계적으로 해서는 안 되며 그 의미를 고려할 필요가 있다.
그런데 도수분포표는 양적 자료를 위와 같이 만들려고 할 경우엔 굉장히 못생긴 모습으로 나타난다. 예컨대, 어느 보건소에서 환자들의 몸무게를 측정한 자료를 도수분포표로 만들려고 한다고 가정해 보자. 개별 관찰값을 전부 범주로 만든다면, 범주의 수는 환자의 수에 거의 동일하게 많아질 것이며, 간혹가다 아주 우연히 똑같은 몸무게를 지닌 환자들이 있다고 해도 몸무게의 측정 단위가 소숫점 아래로 내려갈수록 서로 다른 범주에 분류될 것이다. 그리고 모든 범주에서 도수는 항상 1로 출력될 것이다. 양적 자료는 그런 식으로 만들면 안 된다. 바로 그렇기 때문에 양적 자료를 다루는 도수분포표는 범주를 고스란히 쓰는 것이 아니라 일정한 구간마다 간격을 나누어서 그 범위 내에 들어가는 관찰값들의 빈도를 정리하게 된다. 바로 이것이 계급(class)이다.
80 78 72 70 85 78 62 80 59 74 72 72 78 80 84 86 85 74 77 52 92 62 71 73 90 61 71 79 75 83 71 68 80 79 79 54 67 74 95 59 78 85 91 53 55 56 64 76 77 94 |
학생 50명의 시험 점수를 위와 같이 얻었다고 했을 때, 80점 받은 학생 몇 명, 78점 받은 학생 몇 명... 같은 방식으로 도수분포표를 만들었다가는 교무실이 발칵 뒤집힐 것이다(…). 그러나 계급을 활용할 경우에는 n점 단위로 묶어서 유사한 점수대의 학생들을 같은 계급으로 칠 수 있게 된다. 계급을 크게 묶으면 묶을수록 도수분포표도 더욱 간명하고 깔끔해지지만, 그만큼 원천자료가 갖는 정보량이 크게 상실된다. 점수를 20점 단위로 묶어버리게 되면 81점 받은 학생을 100점 받은 학생과 똑같이 취급한다는 말이 되는데, 이러면 그렇게 싸잡혀 취급된 우등생들도 가만히 있지 않을 것이다(…).
일단 5점 단위로 점수를 묶어서 도수분포표를 만들면 대략 다음과 같이 나온다.
계급 | 계급값 | 도수 (단위: 명) | 상대도수 (단위: %) | 누적도수 (단위: 명) |
50~54 55~59 60~64 65~69 70~74 75~79 80~84 85~89 90~94 95~99 | 52 57 62 67 72 77 82 87 92 97 | 3 4 4 2 11 11 6 4 4 1 | 6 8 8 4 22 22 12 8 8 2 | 3 7 11 13 24 35 41 45 49 50 |
평균: 74.2 표준편차: 10.83 중앙값: 75.5 왜도: -0.28 |
도수분포표에서 계급의 크기를 어떻게 정해야 할지는 사실 엄격한 원칙이 없다. 매사 주관적인 것을 싫어하는 어떤 학자들은 심지어 로그값을 활용하는 스터지스의 원칙(Sturges' rule)을 내세우기도 하며, 그나마 이것도 다른 수학적 기준들에 비교하자면 공식이 상당히 단순한 축에 속한다(…). 좀 더 적당히 주관적이면서도 적당히 객관적인 몇 가지 방법이 있다.
- 전체 자료의 수에 루트를 취해서 소숫점 이하는 버리는 방법이 있다. 예컨대 위의 자료는 n=50이므로 루트를 씌우면 7.xxx 정도가 나오니, 7개의 계급을 만드는 게 가장 보기 좋다는 것이다. 하지만 이는 종종 계급의 시작과 끝을 더럽게 만들 수 있다는 문제가 생긴다. 특히나 대부분의 사람들은 5의 배수 또는 10의 배수로 계급이 나뉜 도수분포표를 선호한다.
- 범위를 구한 후 자신이 원하는 계급의 간격으로 나누는 방법이 있다. 예컨대 위의 자료의 범위는 43인데, 만일 계급의 간격이 5가 되기를 원한다면 약 8~9개 정도의 계급을 정하는 것이다. 이 역시 계급의 각 시작과 끝에서 숫자가 더러워진다는 문제도 있고, 범위 자체가 이상점의 영향을 크게 받으므로 사전에 이상점을 탐지해서 절삭(trim)하든지 따로 관리해야 한다. 예컨대 위 자료에 16점을 받은 학업부진아(…)가 끼어 있다면, 그 친구를 위해서 텅 빈 계급을 잔뜩 만드느니 차라리 "50점 미만" 계급을 만들어서 관리하든지 아니면 8단위(10~49) 계급으로 취급[10]하는 편이 바람직하다.
- 가장 많이 쓰이는 방법은 자료의 최댓값과 최솟값을 구한 후 이를 포괄할 수 있는 가장 가까운 5의 배수 혹은 10의 배수를 활용하는 것이다. 위의 도수분포표가 바로 그런 식으로 만들어진 것. 위 자료에서 최댓값은 95, 최솟값은 52이므로 50점부터 포괄하기 시작해서 100점까지 포괄하도록 잡아주는 것이 좋다.
각 계급의 시작과 끝의 숫자가 어쩔 수 없이 더러워지는 경우가 있는데, 이 경우에 읽는 이의 판단을 돕는 것이 바로 계급값(class value)이다. 계급값은 그 계급이 시작하는 지점의 숫자와 끝나는 지점의 숫자 사이의 중앙값(=산술평균)으로 정의되며, 위의 표에서도 50~54 계급의 계급값으로는 52가 배정되어 있음을 볼 수 있다. 해당 계급에 들어있는 3명의 학생들은 대략 52점 정도 받았다고 생각해도 무방하다는 것이다. 실제로 위 자료에서 3명의 학생들의 점수를 평균하면 53점으로 계급값과 1점의 차이밖에는 나지 않는다. 계급값은 계급의 간격이 좁을수록 정확하지만, 현실적으로 학계나 공식 보고서 등에서 자주 볼 수 있는 정리는 아니다. 한편 누적도수(cumulative frequency) 역시 포함되지 않는 경우가 많지만, 만일 위 자료를 가지고 '몇 명의 학생들을 나머지 공부를 시킬 것인가' 판단을 하겠다면 그때는 누적도수가 중요해진다.
계급의 시작과 끝을 정할 때에도 몇 가지 방법이 있다.
- (숫자)~(숫자): 위 도수분포표에서 계급을 명시한 방식. 가장 흔하고 깔끔하다. 그런데 간혹가다 50~55, 56~60, 61~65, ...처럼 어디부터 태클을 걸어야 할지 모를 어설픈 표를 만드는 사람들도 나타나곤 한다. 이는 아래의 두 방법과 혼동을 일으켰기 때문.
- (숫자) 이상~(숫자) 미만: 시작하는 숫자를 포함하고, 끝나는 숫자를 제외하는 방식. 이것도 어지간히 많이 쓰이는 표기법이다. 위 도수분포표의 사례를 이렇게 바꾼다면 50 이상~55 미만, 55 이상~60 미만, ...이 된다.
- (숫자) 초과~(숫자) 이하: 시작하는 숫자를 제외하고, 끝나는 숫자를 포함하는 방식. 가장 드문 표기법이며 굳이 사용한다 해도 괜한 혼란만 초래할 가능성이 높다. 위 사례를 이렇게 바꾼다면 50 초과~55 이하, 55 초과~60 이하, ...로 하되, 계급별 포함 범위가 바뀌었으므로 전체적인 도수의 수치를 새로 만들어야 한다. 실제로 위 자료에서는 95초과~100 이하의 계급에 들어갈 도수가 존재하지 않는다.
3.2. 히스토그램
관찰값들의 관측빈도를 표 형태로 정리한 것이 도수분포표라면, 도수분포표를 바탕으로 하는 새로운 도표를 그려서 시각적으로 그 빈도를 비교할 수 있게 하는 방법도 있다. 앞에서 살펴본 바와 같이, 결혼이주여성의 국적과 같은 질적 자료가 있고, 학생들의 시험 점수와 같은 양적 자료가 있다. 질적 자료의 경우 각각의 범주에서 관찰값들이 관측될 때마다 도수를 하나씩 쌓아올려 가는 도표도 만들 수 있고, 여기서 생각을 발전시켜서 세로축을 도수로 정의하여 서로 다른 길이의 막대들을 각 범주에 대응시켜 빈도를 비교하는 도표도 생각할 수 있다. 여기서 문제는 양적 자료인데, 자료의 본질은 연속적임에도 불구하고 기술통계 과정에서 임의로 계급을 분할한 것이기 때문에 막대기를 함부로 갖다붙일 수는 없게 된다.양적 자료의 빈도를 도표화하는 히스토그램(histogram)은 이 문제를 해결하기 위해 접근법을 달리한다. 막대그래프가 관찰값들의 관측빈도를 막대의 길이로 정의하는 반면, 히스토그램은 관찰값들의 관측빈도를 막대의 면적으로 정의한다. 막대를 이루는 사각형의 가로 길이는 계급의 간격이 되고, 세로 길이는 계급의 밀도(density)가 된다. 그리고 히스토그램의 모든 막대의 면적의 합은 1임이 성립한다. 단순히 '연속형 자료임을 암시하려고 막대를 붙여놓은 것' 이 아니다. 심지어 '히스토그램의 특징은 막대가 붙어 있다는 것' 정도만 언급하고 넘어가는, 더 심한 경우도 있다. 히스토그램의 막대들이 붙어있는 이유는, 히스토그램이 빈도의 분포를 면적의 논리로 보여주기 때문이다. 다시 말해, 히스토그램의 막대는 세로의 길이만큼이나 가로의 길이도 중요하다.
위에서 50~55, 56~60, 61~65, ...식의 간격을 어설프다고 표현하기는 했지만, 도수분포표에서 각 계급들의 간격이 서로 다른 경우는 실제로 존재할 수 있고, 때로는 유용하기도 하다. 예컨대 n=100짜리 자료를 얻었는데, 막상 빈도를 보니 70건은 180~220 근처의 값에서 오밀조밀 모여 있고, 20건은 30~40 근처의 값에 살짝 모여 있으며, 나머지 10건은 40~180 사이의 넓은 범위에 띄엄띄엄 존재한다고 가정하자. 이걸로 도수분포표를 만들어야 한다면, 각 계급의 간격들은 당연히 달라져야 한다. 이렇게 만들어진 도수분포표는 잘 만든 기술통계인 것이다. 왜 이 문제가 중요하냐면, 히스토그램을 단순히 '막대들이 붙어 있는 막대그래프' 로만 이해한다면, 지금 소개한 종류의 도수분포표를 히스토그램으로 그리거나 해석하질 못하기 때문이다. 히스토그램을 면적으로 빈도를 정의하는 도표로서 이해한다면, 이와 같은 특이한 히스토그램들도 쉽게 이해할 수 있게 된다.
계급의 간격이 서로 달라지는 특이한 경우, 세로축은 반드시 밀도로서 정의된다. 이때 밀도는 각 계급에 해당하는 상대도수(%)를 그 계급의 단위간격으로 나누어서 얻어지게 된다. 앞의 시험점수 도수분포표에서 학업부진아 5명이 새로 들어왔고, 이들을 포괄하기 위해 새롭게 30~49 계급이 신설되었다고 가정해 보자. 이 도수분포표에서 기존의 모든 계급은 5점을 단위로 삼아 쪼개졌기 때문에, 특별히 20점 단위로 쪼갠 이 두 계급은 4단위에 걸쳐 있는 계급이라고 할 수 있다. 그리고 이 계급의 상대도수는 55명 중 5명인, 약 9%에 해당한다. 이걸 고스란히 막대의 높이로 삼을 게 아니라, 4단위에 걸쳐 있으니만큼 9를 4로 나누어 2.25% 높이가 되도록 막대의 길이를 조정해야 한다. 그리고 나머지 기존 자료들은 평범하게 1단위 기준을 따르므로 상대도수에 고스란히 맞추어서 막대 길이를 잡아주면 된다. 이것이 바로 히스토그램의 사고방식이다.
원칙적으로 히스토그램의 세로축은 반드시 밀도로 정의되어야 하나, 모든 계급의 간격이 같을 경우에는 밀도가 아니라 (질적 자료로 막대그래프 그리듯이) 도수로 정의하는 것이 가능하고, 그렇게 보는 편이 시각적으로도 더 편의성이 높다. 그리고 실제로 상당수의 기술통계는 계급 간의 간격을 통일시키는 것이 가능하기에 세로축을 도수로 깔끔하게 정의한다. 이런 경우에 히스토그램은 정말로 '막대끼리 서로 붙은 막대그래프' 가 되기 때문에 면적의 관점에서 생각할 필요가 없어진다. 그러나 히스토그램의 FM이 '세로축을 밀도로 정의해 면적을 계산함에 있다' 는 점부터 이해하는 것은, 자료의 연속적 성질에 대응하는 방법으로 밀도를 이용한다는 히스토그램이 갖고 있는 사고방식[11]을 유념하게 하므로 굉장히 중요하다. 이게 중요치 않았다면, 애초에 히스토그램이란 물건이 세상에 나올 이유가 없었을 것이다.
다행히 앞에서 살펴보았던 도수분포표는 그렇게까지 특이한 것은 아니기에, 여기서는 히스토그램의 세로축을 밀도가 아니라 도수로 정의할 수 있을 것이다. 따라서 히스토그램을 그리는 작업도 매우 쉽고 간단해진다. 위 자료를 바탕으로 하여 히스토그램을 그리면 다음과 같이 만들어진다.
이제 이렇게 만들어진 히스토그램은 비로소 직관적으로 빈도의 분포를 보여주게 된다. 물론 분포에 통찰을 주는 요약 모수들로서 분산, 표준 편차, 왜도 등등이 있지만, 어디까지나 숫자 하나로 자료의 특성 또는 속성을 드러낼 뿐, 각 관찰값들이 구체적으로 어떻게 분포되어 있는가를 직접 보여주지는 않는다. 도수분포표의 경우 빈도의 분포를 표라는 형태로 정리하기는 하지만, 숫자가 더러워지거나 커질 경우, 혹은 자료의 규모 자체가 너무 클 경우에는 역시 한눈에 들어오는 정리가 되지 못할 수 있다. 히스토그램은 특히 그 도수분포표가 양적 자료에서 도출되었을 때 그 자료의 계급별 관측빈도가 어떻게 분포되어 있는지에 대해서 밀도라는 논리적인 접근방법을 통해 제시할 수 있다.
3.3. 자료의 시각화
차트 Charts | ||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 일반 그래프 | 그림그래프 · 막대그래프 · 선 그래프 |
비율 그래프 | 원 그래프 · 띠 그래프 | |
기타 | 카토그램 · 상자 수염 그림 · 줄기와 잎 그림 | }}}}}}}}} |
자료를 시각적 도표로 보여주는 것은 매우 강력하고 직관적이지만, 마찬가지로 인지적 함정에 빠지기도 쉽다. 인간은 의외로 눈으로 보는 것에 쉽게 속으며, 때때로 언론사에서 의도적으로 그래프를 다듬기도 하고 심지어는 가끔이지만 학계에서 논문의 출판 가능성(publishability)을 높이기 위해 그림도표들을 적당히 손보는 경우도 있다. 그래프 왜곡 문서도 같이 볼 것.
- 그림그래프
사회과학 분야에서는 사실상 쓰이지 않고 통계적 방법에서도 다룰 일이 없지만, 언론사 뉴스기사들에서는 접할 일이 많은 그래프. 가장 원시적인 형태인 점그래프(dot diagram)의 점들을 그 그래프의 대상이 되는 개념의 그림으로 치환한 것이다. 예컨대 한일전 3:2라는 스코어를 KOR ⚽⚽⚽ JPN ⚽⚽ 형태로 표시할 수 있다. 질적 자료의 빈도를 보여주기에 적절하며, 세로축은 공간만 만들어줄 뿐 그 길이가 갖는 의미는 전혀 없다. 여기서 세로축에 의미를 부여한 것이 바로 아래의 막대그래프다.
- 막대그래프
질적 자료의 빈도를 보여줌에 있어 세로축을 도수로 정의한 그래프. 여러 막대들 간의 빈도의 차이를 비교하는 것이 목적이기 때문에, 그래프의 위아래를 적당히 조절하여 차이가 시각적으로 잘 드러나도록 해야 한다. 그래프 밑동을 물결선으로 잘라내는 전통적인 방법이 있고, 세로축의 원점을 0이 아닌 다른 수에서 시작하는 엑셀 방식의 방법이 있다. 일부 극단적으로 큰 이상점이 존재한다면 세로축에 로그값을 취하여 자리수가 올라갈 때마다 등간격이 되도록 할 수도 있다. 막대그래프를 만들기 위해서는 먼저 자료의 최댓값과 최솟값을 확보할 필요가 있다.
학계 논문에 쓰이는 막대그래프에는 거의 반드시라고 해도 좋을 정도로 오차막대(error bar)가 추가되며, 오차의 기준은 95% 신뢰구간을 기준으로 삼기도 하고 평균의 표준오차(SEM; standard error of the mean)를 기준으로 삼기도 한다. SPSS에서는 95% 신뢰구간을 기준으로 삼을 경우 좀 골치가 아픈데, Ver. 20 이전에는 별도의 파이썬 다운로드가 필요하며, Ver. 21의 경우 소프트웨어를 삭제 후 재설치하면서 파이썬을 허용한다고 체크해야 하고, Ver. 22 이후부터는 파이썬이 무조건 함께 설치되므로 파이썬 문제는 없다. 이후, 참가자 내 설계를 따를 경우에는 이 링크의 Appendix에서 WSPLOT.spe 확장 번들 파일을 받아 설치하여 '피험자 내 오차막대표' 대화 창이 열리게 하는 방법이 있다.
- 꺾은선그래프
각각의 구분된 선에 질적 자료의 범주들을 배정하고, 가로축에는 시간적 흐름의 의미를, 세로축은 도수의 의미를 부여한 그래프. 한 범주 내에서 시간적 전후관계를 반영한 변화를 살필 수도 있고, 여러 범주 간에 동일한 시간대의 차이를 살필 수도 있어서 굉장히 쓰임새가 크다. 장기간의 자료가 있다면 전체적인 추세(trend)의 정보를 얻을 수 있으며, 이를 통해서 미래의 추정된 변화까지도 외삽(extrapolate)할 수도 있고, 중간에 누락된 결측값이 있더라도 대응이 비교적 쉽다. 게다가 각각의 꺾은선이 실험의 독립변인일 경우에는 상호작용 효과(interaction)를 분리해 확인하기도 쉽다.
학계에서는 반복측정(repeated measures)과 같은 참가자 내 설계(within-participant design)를 통해 얻어진 자료를 막대그래프로 제시해야 할지, 혹은 꺾은선그래프로 제시해야 할지에 대해서 합의된 바가 없다. 공포영화를 본 후의 심장박동 자료와 전기충격 후의 심장박동 자료처럼 서로 완전히 무관한 측정이라면 막대그래프가 옳다. 하지만 게임과 유사한 가상의 시나리오를 여러 개 놓고 각각에 대한 반응을 비교해야 한다면, 자칫 참가자 간 설계처럼 혼동되는 것을 막기 위해 꺾은선으로 그려야 한다고 말하는 학자들도 있다. 비슷한 맥락으로, 사전측정과 사후측정, 추후측정이 아예 질적으로 다른 자료라고 간주한다면 막대그래프로 제시하는 편이 바람직하고, 실험적 처치를 통해서 사전측정이 사후측정으로 '변화' 하였다는 논리를 밀고 가려는 학자는 꺾은선그래프를 채택하게 될 것이다.
- 원그래프
파이처럼 펼쳐진 원형 공간에 각각의 면적을 범주별로 나눈 그래프. 이때 나누어진 원 조각들의 내각은 그 범주가 갖는 백분위 상대도수(%)를 360분위 상대각도(˚)로 치환한 것이다. 예컨대 어떤 범주의 상대도수가 10%로 나타났다면, 원그래프에서 그 범주는 36˚의 내각을 갖는 원 조각에 배정된다. 원 조각들은 대체로 크기순으로 내림차순 정렬되는 경우가 많고, 자잘한 범주가 많을 때는 각 조각들을 라벨링하기 힘들다는 문제로 인해 '기타' 로 묶어 관리할 필요가 있다. 필요할 경우에는 몇 개의 가장 큰 조각들을 전체 원에서 살짝 끄집어내어 강조할 수도 있다. 간혹 3D 원그래프도 나오긴 하는데 원근법상 시각적 왜곡이 발생하기 때문에 사용에 주의가 필요하고, 해석할 때도 왜곡을 의심해야 한다.
학계에서는 80~90년대만 하더라도 별 생각 없이 활용하는 경우가 많았으나, 오늘날에는 가능한 한 지양되는 추세이다. 원그래프를 비롯한 상대도수 도표들의 치명적인 단점은 흑백 매체에서 쓰기 힘들다는 것이다. 각각의 원 조각마다 겹치지 않고 쉽게 구분되는 색상을 할당해야 그래프의 해석이 가능하기 때문이다. 회색조를 활용하면 되지 않겠나 싶겠지만 모두가 최상의 프린터와 토너를 갖고 있는 것이 아니므로 회색은 쓰기 힘들다. 그래서 나온 대안이라는 것이 패턴을 활용하는 것으로, 과거엔 논문을 쓸 때 ▤ ▥ ▨ ▧ ▦ ▩ ▒ 따위를 원 조각마다 그려넣는 경우가 많았다(…). 물론 컬러 인쇄를 한다면야 원그래프도 안 될 것은 없겠지만, 대개의 학회들은 저널의 간행 인쇄비를 매번 저자들에게 청구하며, 컬러 인쇄를 요청하는 저자에게는 페이지 수만큼의 추가 요금을 받는다(…). 이런 문제 없이 PDF로만 소통하는 온라인 저널이나, 자금력 빵빵한 최상위 메이저 저널들은 컬러 표기가 일반적이기에 원그래프 따위가 아니라 아예 온갖 형형색색의 컬러 사진들을 때려박아 놓곤 한다.
- 줄기와 잎 그림
그림그래프와 마찬가지로 사회과학 분야에서 통계적 방법으로서의 의의는 거의 없고, 그냥 이런 방식도 있다는 정도만 짚어주고 넘어간다. 자료의 숫자가 갖고 있는 자릿수를 검토하여 적당한 곳에서 끊은 후, 더 큰 자릿수를 '줄기' 라 하고 더 작은 자릿수를 '잎' 이라 하여, 공통의 줄기를 갖는 잎 숫자들을 쭉 나열하는 것이다. 이때 자릿수의 어느 지점을 끊어야 하는지는 일반적인 기준이 없으며, 자료 자체의 특징으로부터 이끌어낼 필요가 있다. 줄기와 잎 그림은 시각화라기보다는 조금 특수한 표의 형태에 가깝고, 자료가 많을 때 대응하기가 힘들며, 사실 그다지 직관적이지도 않아서 반드시 그 읽는 법을 예시로 보여줘야 한다는 한계도 있다. 그러나 일반적인 히스토그램에 비해서 계급으로 구간을 나눔으로 인해 발생하는 정보의 손실을 피할 수 있다. 가장 대표적인 사용례는 다름아닌 열차 시간표.
- 상자도표
일반인보다는 학계에서 훨씬 더 많이 쓰이는 도표로, 중앙값을 중심으로 하는 통계적 정보들이 빼곡하게 들어있어 매우 유용하다. 상자도표의 모양새는 직사각형 '상자' 의 허리에 굵은 실선이 그려져 있고, 상자 양쪽으로 길게 뻗어나온 '수염' 이 존재한다는 것이다. 이때 굵은 실선은 중앙값, 상자의 양쪽 끝부분은 각각 상(하)사분위수, 상자의 길이는 위에서 소개했던 IQR, 수염의 각 끝부분은 각각 최댓값과 최솟값을 의미한다. 이처럼 상자도표의 핵심은 그것이 다섯 숫자 요약(five-number summary)[12]을 시각적으로 압축성 있게 제공한다는 데 있다. 상자도표에서 자료의 중앙부 50%는 상자가 놓인 범위 내에 위치한다. 더불어 상자 밖 양쪽으로 1.5×IQR만큼 떨어진 위치의 값을 근접값(adjacent value)이라 하며, 두 근접값 사이의 범위를 안쪽 울타리(inner fence)라고 한다. 또한 근접값 밖에 존재하는 관찰값은 이상점으로 정의하여 애스터리스크 등으로 표현한다.
4. 관련 문서
5. 둘러보기
🏬 사회과학 조사·연구 방법론 둘러보기 | |||
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px" | <colbgcolor=#C1F3FF>📝 서론 | <colbgcolor=#F7FFFF,#191919>사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리 | |
🔍 조사방법론 I | 변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구 | ||
자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩 | |||
📈 조사방법론 II | 표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도 | ||
📊 사회통계 | 통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석) | ||
👔 공인 자격증 | 사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가 | ||
📂 메타 문서 | 연구방법론 관련 정보 | ||
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨 |
[1] 일반인들에게는 이게 은근 나오는 오답인 모양인지, 2000년대 초엽에 인기를 끌었던 《상식의 오류 사전》 시리즈에서도 이 오답을 다루었던 적이 있다. "통계학자들이 보면 그냥 허허 웃고 넘어갈 수준"이라고 디스하면서.[2] 표현을 달리하면, 전체 관찰값이 n개일 때 n=2k-1을 만족하는 k값을 찾는다.[3] 추론통계학에서는 약간 달라진다. 산술평균을 할 때 전체 관찰값 수인 n으로 나누는 것은 모집단의 원천자료에서만 가능하다. 만일 표본을 추출해 놓고 그 산포를 알아보고자 한다면 n이 아니라 n-1로 나누어야 한다. 이는 표본분산을 모분산에 대한 불편추정량(unbiased estimator)으로 활용하려는 조치다. 표본분산 s2을 구할 때 분자인 SS의 기댓값을 수학적으로 정리해나가다 보면 모분산 σ2에 n-1을 곱한 값이 어느 순간 튀어나오므로, 분모에서 이에 맞게 n이 아닌 n-1로 나누어주어야 깔끔하게 σ2만 남는다. 이걸 평소처럼 그냥 n으로 나누면 σ2에 (n-1)/n이 쓸데없이 곱해져 붙어있는 걸 없애지 못한다. 사회통계의 일반적 커리큘럼을 벗어나기는 하나, 자세한 증명과정이 궁금하다면 표본 분포 문서 참고.[4] 심지어 여기서는 단순히 부호만 궁금한 것이므로, 구체적인 뺄셈을 할 필요도 없이 두 수의 크기만 비교해도 된다.[5] 중앙값은 최빈값보다 쉽게 흔들리지 않는 강고함이 있기 때문에 이를 보정하기 위해 분자에 3을 곱해서 임의로 뻥튀기(?)를 시켜 준다.[6] 사회통계 시간에 첨도를 분포 단원에서 소개하는 것이 아니라 기술통계 단원에서 소개하는 이유가 바로 이것이다. 첨도는 분포에 관련된 개념이 아니고, 자료를 요약하는 것에 관련된 개념이다. 물론 첨도가 분포에 대한 통찰도 주지만 그건 분산도 마찬가지다.[7] 단, 꼬리가 길어진다는 얘기는 그래프에서는 실제로 확인하기가 어렵다. 산포가 크다면 꼬리의 길이는 큰 의미가 없을 수 있다. 눈으로 확인할 수 있는 것은 꼭대기가 뾰족해지는 듯한 미묘한 모습뿐이다. 다행히 위키피디아에 초과 첨도 값을 비교한 분포 그림이 있는데, 여기서 검은 실선이 초과 첨도 0인 정규분포이다. 가로축 ±1~2단위 구간을 유심히 살펴보자.[8] 젠더 이분법을 비판하는 추세를 반영할 경우에는 성별 범주라 해도 3~4개, 혹은 그 이상으로 복잡하게 자료가 수집되기도 한다.[9] 예컨대 결혼이주여성 모국어 전화상담 서비스를 준비하는 지자체가 위의 데이터를 얻었다고 가정해 보자. 인도네시아까지 모국어 상담원을 둔다면 일본계 한국인 여성들은 한국어나 영어로 진행되는 전화상담에서 큰 도움을 받기 힘들 것이다. 그런데 미국까지 모국어 상담원을 둔다면 그때는 일본어를 할 수 있는 상담원들을 지자체가 추가로 고용해야 하고, 당연히 매년 억대의 인건비가 추가로 들어갈 것이다. 그 돈을 투입해야 할 정도로 저 '8명' 이 그렇게 의미 있는 숫자라고 봐야 할까? 여기에 정책학적인 정답은 없다. 굳이 실무적인 정답을 찾는다면, 지자체의 장이 어떤 성향인지 눈치껏 살피라는 것 정도(…).[10] 이 기법에 대한 자세한 설명은 아래 히스토그램 소단락의 설명을 참고.[11] 더 나아가서 이는 차후 확률 분포에서 확률밀도함수를 계산하는 논리와도 연결되어 있다. 사회통계 커리큘럼에서, 앞의 기술통계 단원에서 이 사고방식을 놓치면 뒤의 분포 단원에서 연속확률분포를 접했을 때 상당히 당황하게 된다.[12] 최솟값, 상사분위수, 중앙값, 하사분위수, 최댓값.