통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
nonparametric statistics통계적 추론의 한 분야.
'비모수(非母數, Nonparametric)'라는 단어는 폴란드계 미국인 수학자인 제이컵 울퍼비츠(Jacob Wolfwitz, 1910년 3월 19일 ~ 1981년 7월 16일)가 가 처음으로 사용했다. 그 후 1945년 미국의 화학자 프랭크 윌콕슨(Frank Wilcoxon, 1892년 9월 2일 ~ 1965년 11월 18일)이 살균제, 살충제 개발과정 데이터 분석을 하려고 순위를 사용한 비모수 통계학 방법을 소개했다[1].
학부 수준에서 '비모수통계학'이나 '비모수 통계분석'이라는 이름으로 배우게 되는 맥락에서의 '비모수'는 (1) 데이터가 모수로 표현 가능한 확률 분포로부터 나오지 않았거나, (2) 통계적 추론을 모수로 표현 가능한 확률분포에 의존하지 않는다는 의미이다.
통상적으로 사용되는 많은 통계적 방법의 경우 데이터가 정규분포를 따른다는 가정을 한다. 실제로 데이터가 정규분포를 따른다고 보기 힘든 경우에 이를 무시하고 통상적인 방법을 사용하여 분석하면 데이터에 대해 잘못된 해석을 하게 될 가능성이 커진다. 이 문제를 해결하기 위해, 데이터가 특정 분포에만 의존하지 않고, 통계적 추론 역시 모수 기반의 확률분포에 의존하지 않는 방식이 연구되게 된 것이다. 이런 면에서 전통적인 비모수통계학을 분포무관 (distribution free) 방법이라 부르기도 한다. 예를 들어, 최대값이 극단적으로 큰 값이라 해도 비모수 통계학에서 순위만을 평가한다면 그 큰 값은 순위에는 영향을 미치지 못 한다. 따라서 극단값의 영향이 작다.
많은 경우, 비모수 통계학에서는 통계적 추론을 위해 자료의 순위(rank)를 사용하며, 평균보다도 중앙값(median)이 더 많이 쓰인다. 정확한 수치로 측정하기는 불가능하나 순위나 부호로는 데이터 수집이 가능한 경우 비모수통계학을 사용할 수 있다. 따라서 사회과학 (심리학, 교육학 등)에서 정성적 자료를 분석할 때 자주 쓰인다.
'비모수'라는 말이 사용되는 또 다른 맥락은 변수들 사이의 관계가 제한된 수의 모수로 표현 가능하다는 가정을 할 수 없게 될 경우이다. 예를 들어, 두 변수 사이의 상관관계를 알아내고자 회귀 분석을 실시한다고 하자. 이 때 두 변수 사이의 관계가 선형이라거나, 지수함수라거나 등 가정을 하게 되는데, 이 경우 (선형을 예로 들면) y절편과 기울기만을 알아내면 관계를 추정할 수 있다. 이 때 y절편, 기울기 등을 모수라 하며 이 경우 모수만을 추정하면 된다. 그러나 두 변수 사이의 관계를 특정하지 않고 예를 들어 '어떤 연속함수'라고만 정하게 된다면 모수 추정이 불가능해진다. 이 때 두 변수의 관계를 추정하기 위해 사용되는 방법 역시 '비모수'적인 방법이라 불린다. 최근의 비모수통계학에서는 몇 개의 미지의 모수를 갖는 통계 모형을 세우는 대신 분포함수, 또는 분포함수로부터 파생되는 여러 함수를 모수로 간주하고 이들 함수를 자료 생성의 규명 대상으로 한다. 이는 모수의 차원을 무한차원으로 설정하는 것이다. 이렇게 모형이 매우 유연해지면 자료생성의 규칙이 복잡하더라도 수용할 수 있게 된다. 이는 근대에는 불가능했으나 컴퓨터 계산 능력이 발전하면서 이런 접근도 가능하게 되었다.
2. 차원의 저주
Curse of dimensionality현대 비모수적 추론에서는 '차원의 저주'를 극복하는 것이 큰 문제다. 모형이 유연해지다 보니 모수의 차원이 자료의 크기보다 커지면 함수 추정을 위해 통계적 관점에서 유용한 방법이 존재하지 않는다. 따라서 추정 대상인 함수의 차원을 유한으로 축소시키는 방법들을 사용한다. 대표적으로 국소평활법, 기저함수방법론이 있다. 그러나 이 두 방법으로 함수공간의 근사오차를 줄이는 방법은 자료의 차원이 증가하면 효과적이지 않다는 단점이 있다.
- 국소평활법 (local smoothing): 미지의 함수가 충분히 미분가능하다는 사실을 전제로 각 점의 근방에서 유한차원의 함수로 근사시킴으로써 차원을 축소한다.
- 기저함수방법론 (basis function approach): 유한 개의 기저함수만 이용하여 무한차원의 함수공간을 근사한다.