통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
確率論 / Probability theory, Stochastic process, Random process확률을 연구하는 학문.
20세기 들어 급격히 발달한 학문이여서 본격적인 역사가 길다고 할 수는 없는 과목이다. 그럴 것이, 유럽 근대는 데카르트의 손바닥 안에서 놀던 시절인데, 데카르트는 연역논리주의자였다. 연역논리로 인한 확실한 것만 취급하였고, "거의 확실한 것은 거의 확실히 거짓이다"라는 명언을 남기며 완전히 확실한 것만을 취급할 것을 요구했다. 확률적인 접근 자체를 불허했던 것이다.
하지만 아이러니하게도 데카르트의 국가인 프랑스에서 가장 많이 연구되었다. 블레즈 파스칼과 피에르 드 페르마가 드 메레 문제를 해결하기 위해서 이론을 정립시키고, 이를 드 무아브르, 야코프 베르누이, 라그랑주 같은 기라성 같은 학자들이 연구하게 되고, 그 외 네덜란드의 하위헌스의 '도박꾼의 파산'이라는 정리, 영국의 베이즈[1] 등까지, 사실상 유사 이래 가장 똑똑한 타짜들의 대박을 향한 도전으로서 오늘날과 같은 체계를 잡지 못한채 중구난방으로 건드려지다, 연속확률을 연구하던 라플라스에 의해 처음으로 해석학을 활용한 확률론이 정립된다.
2. 공부
2.1. 측도론
Measure theory길이나 넓이 따위에 관한 이론이다. 19세기까지 수학자들의 주된 관심사들 중 하나는 재미있는 모양의 도형이 주어지면 그것의 넓이를 어떤 방법으로 구할 것이냐였는데, 측도론은 여기서 한차원을 끌어올려, 평면상의 모든 도형의(그러니까, ℝ2 의 임의의 부분집합) 넓이를 구하는것이 가능한가라는 질문에서 시작한다. 측도론은 르벡과 보렐 등의 프랑스 수학자들로부터 시작되었는데, 프랑스 수학자들은 독일식의 공리적 접근 자체를 좋아하지 않았기에 ZF 집합론 같은것도 무시하고 있었지만, 결국 오늘날엔 통합되어 ZFC 집합론 위에서 측도론을 배우게 된다.
확률론에서는 측도론과 적분론적 논의가 많이 진행되므로, 일단 실해석에서 이 두가지를 공부한 후 배우는 것이 일반적이다. 물론, 확률론에서도 배우긴 하나, 어디까지나 확률론의 관심은 측도론이 아니라 확률론이며, 확률론 자체에서도 배워야 할게 많은 관계로, 초반부에 간단히 훑고 나서 진도를 빠르게 빼는 경우가 많기 때문에 그때 즉시 접해서 쫓아가기는 힘들다. 미분기하학이 다변수 미적분학과 선형대수학을 공부한 후에 듣는 과목임에도 첫 학기 첫 강의 첫 1시간 정도는 미적분학과 선형대수학을 훑어보는 시간을 가지는데 이와 비슷하다고 생각하면 된다.
통계학을 더 깊이 봐야겠다 싶어서 겁도 없이 확률의 응용, 기초통계나 수리통계 과목을 듣자마자 여세를 몰아 확률론을 듣게 된다면 공부를 시작함과 동시에 난감해질 것이다. 확률론은 수학과의 해석학에 가까운 학문이지, 통계와 직접적으로 궤를 같이 하며 진행되는 과목이 아니기 때문이다.[2] 수학과나 통계학과에서 첫 학기 또는 첫 해를 마친 늅늅이가 '확률과 통계' 내지는 '통계학개론' 같은 과목만 듣고 성적 잘 나왔다고 우쭐하여 선배들에게 물어보지도 않은채 확률론 수강신청을 했다가 교수나 조교가 따로 연락하여 이 과목의 실상을 알려준다면, 우선 엎드려 절하고 최소 3년 후를 기약하자. 확률론은 기본적으로 실해석학의 측도론을 다룰 수 있는 대학원 레벨 혹은 학부 끄트머리 수준 과목이며, 경우에 따라선 측도론을 확률론 책을 사용하여 공부하는 경우도 있다.[3] 안드레이 콜모고로프[4]라는 수학자가 디자인한 정리를 배우는 과목이라고 보시면 된다. 통계학이라는 학문이 꽤 근대에 와서 정립된 학문이지만, 그 중에서도 확률론은 역사가 더 짧다. 하긴 측도론 역시 정립된건 20세기 초였으며, 당시에는 박사과정에서 그쪽으로 분야를 정해서 가야 접해보는게 가능했다.
2.2. 배우는 내용
확률론 과목에서는 실해석학적인 확률분포와 확률 변수의 해석, 확률적 수렴, 큰 수의 법칙(Law of Large Numbers)과 중심극한정리(Central Limit Theorem)의 실해석학적 증명, characteristic function(확률분포함수의 푸리에 변환), 마르코프 체인(Markov Chain), 대기행렬이론(Queueing Theory)등을 다루게 된다. 하다보면 확률공간에 대한 집합놀음으로 많이 귀결되며, 이는 실해석학에서 limsup / liminf의 개념이 잘 잡혀있다면 처음을 익숙하게 시작할 수 있을 것이다.(물론 극초반으로 한정) 또한 확률을 finite measure, 확률변수가 measurable function인 걸 알게 되면 완전 적분론과 다를게 없어진다.바로 Independence(독립성)가 나오기 전까지는... 확률론과 해석학을 구분짓는 가장 중요한 요소가 바로 이 Independence이다. 확률과 해석학을 가르는 기준은 Independence로도 볼 수 있겠지만, 그보다 정확하게 말하자면, path의 유무이다. 특히 stochastic과 관련된 부분에서는 path를 굉장히 중요하게 다룬다. 확률론을 공부하면 공부할 수록 Independence를 가지지 않는 부분들이 나온다. 여기서 제시된 stochastic process는 확률변수에 시간축이 첨가된 것으로, 확률변수가 시간에 따라 값을 다르게 가지는 형태로 이해할 수 있다. (단순한 예로, 확률변수의 수열 같은 것을 생각해볼 수 있겠다.) 단순히 확률변수만을 관심사항으로 삼는 개론 범위에서보다는 한발짝 더 나아간 것이므로 일반적으로 확률론 외의 다른 과목에서 이 범주를 집중적으로 다루게된다.
학부 고학년 또는 대학원 과정을 수강하면서 확률론을 공부하게 된다면, 이 과목이 기본적으로 흔히 연상하는 통계학과는 많이 다르다는 점을 염두에 두고 입문하는 것이 좋다. 그러나 통계 이론을 깊이 공부하고 연구하게 될 경우에는 확률론의 내용은 필수불가결하다. 예를 들어, 디자인한 통계 모형의 추정에 대하여 점근적 성질(asymptotic property)을 살펴봐야 하는 경우 대수의 법칙과 중심극한정리에 근거한 확률적 수렴으로 추정량의 성질을 설명하게 되는데, 확률론을 알지 못하면 내용의 전개가 쉽지 않을 것이다. 그래도 이 정도 레벨은 수리통계나 계량경제학 계열의 박사과정에서나 나옴직하니 학부생이 겁부터 집어먹을 필요는 없다.
3. 여담
- 콜모고로프(Андрей Николаевич Колмогоров)는 20세기 러시아의 大수학자로 확률론을 비롯한 수학의 거의 전분야에 손을 대고 업적을 세웠다. 젊은 시절에는 역사학을 전공했으나 수학 공부를 시작한 뒤 대성했는데, 1930년대부터 확률과정론을 정립하여 대숙청 시절에도 스탈린 훈장을 받으며 승승장구했다. 그의 연구성과가 대조국전쟁기 소련군에서 요긴하게 쓰였기 때문이다. 사회주의노력영웅 훈장도 받는 등 소련 수학계의 레전드와 같은 인물.
- 야코프 베르누이는 오늘날 매우 간단히들 생각하는 베르누이 시행을 무려 40페이지가 넘는 분량으로 설명하였다. 확률 개념을 원래 주어진 것처럼 여기는 현대인들 입장에서는 그렇게까지 해야 했나 싶기도 하지만, 데카르트 전통과 반대되는 완전히 새로운 개념이었다는 역사적 상황을 고려하면 긴 분량을 이해할 수 있다. 이렇듯, 새로운 개념들에 접근하여 그것을 탄생시키는 과정은 그게 아무리 간단해보일지 몰라도 매우 힘들다.
- 이산수학 중 그래프 이론에 확률론이 많이 사용된다. 얼핏 보면 이산구조에 불과한 그래프에 확률을 사용하는게 이상하게 느껴지겠지만, 역시 20세기 천재 수학자 중 한명인 폴 에르되시가 그래프를 확률을 이용하여 정의하고 이것을 통해 증명하는 기법을 선보이면서 새로운 하나의 분야가 열렸다. 특정 증명의 경우, 그래프에 확률을 적용하면 기본적으로 Complexity가 매우 낮아지기때문에 보다 간단한 증명이 가능해진다. Complexity를 낮춘 것이 도움이 된 유명한 사례는 4색정리의 증명이다. 19세기 처음 등장하여 매년마다 오류가 포함된 증명이 발표되었다가 1990년대가 되어서야 컴퓨터의 도움을 받아 증명되었는데, 그래프를 분류하기 위한 룰만 600개 가까이 되고, 이것으로 분류한 그래프만 1500가지가 넘는다.
- 무선통신, 이동통신에서도 확률론이 많이 쓰인다. 예를들어 기지국이 휴대전화에 무선 신호를 쏘아 보낸다면 신호가 온전한 형태로 휴대전화에 도달하지 않고 거의 완전히 박살난 형태로 도달하는 경우가 대부분인데, 수 많은 노이즈, 간섭, 왜곡으로 인해 신호가 랜덤하게 거의 박살나는 막장 환경에서 무선통신이 이루어지기 때문이다. 휴대전화는 들어오는 신호를 stochastic process로 보고 거의 완전히 박살난 신호를 적절히 처리한 후 기지국이 보낸 신호가 무엇이었는지(예를 들어 '1'을 보냈는지 '0'을 보냈는지) 최대한 높은 정답률로 찍어 맞추기 위해 확률이론을 사용하며[5], 통신과 관련된 랜덤한 현상을 수학적으로 모델링해서 해석하기 위해 확률론이 사용된다. 현대 통신 이론의 이론적 기반이 되는 클로드 섀넌의 정보이론부터가 확률론을 듬뿍 사용하고 있다. 통신 신호처리 외에도 통신 트래픽 및 성능 처리(QoS)문제에 확률론을 확장한 이론인 대기행렬이론(Queueing Theory)도 많이 쓰인다. 대기행렬이론은 마르코프 체인 수준에서 M/M/1 등 수학 모델로 확장한다.
- 학교에 따라 다르지만 통계학과 학생의 경우 대개 2~3학년 때 확률론을 접한다. 확률론 과목을 따로 개설하는 학교는 확률론에서, 확률론을 개설하지 않는 학교는 '수리통계학I'이라는 이름으로 처음 확률론을 접하게 된다. 본격적인 통계학의 내용을 다루는 '수리통계학II'를 배우기 전에 기초적인 확률론을 가르치기 위한 목적이며 일반적인 확률론과 비교했을 때 통계학에서 주로 사용되는 카이 제곱 분포, t분포, F분포 등을 유도하는 과정을 자세하게 배우게 된다는 점이 차이점이다. 통계학을 이론적이고 학문적으로 접근하고자 하는 학교의 뜻에 따라, 혹은 대학원 진학을 염두에 두고 있는 사람들은 해석학을 배운 후 엄밀한 확률론을 추가로 배우기도 한다.
- 간혹 대수학 관련 과목에 과몰입(?)한 젊은 수학과생들은 구조주의적으로, 다시말해 추상대수학이나 위상수학, 호몰로지 등 고급 과목에서 필요한 범주론적 사고방식으로 확률론에 도전하는 경우가 있다. 허나 이런 사고방식은 갓 범주론을 익히고 여러 과목들을 공부하는 수준에서는 그리 잘 먹히지 않는다. 벡터공간에 대해 공부하는 선형대수, 위상공간에 대해 공부하는 위상수학 등 입문 단계에서부터 어느 정도 클리셰를 감지하기 쉬운 과목들에 비하면 확률론은 구조에 대한 집착이 강하지 않다. 현대수학의 걸어다니는 아이디어 주머니 테렌스 타오는 2000년대에 "확률론은 확률공간을 연구하는 분야가 아니다"라는 평으로 선을 그은 바 있다. 다만 그런 논의를 한지 십수년이 지나 2010년대부터는 타오를 비롯한 여러 수학자들 사이에서 신선한 방식으로 카테고리를 정의해보자는 아이디어가 오가고 있는 듯 하다. 확률론을 카테고리스럽게? (MathOverflow.net) 비슷한 혼종으로는 대수통계학(Algebraic Statistics)이라는 연구분야가 있다.
4. 관련 인물
5. 관련 문서
[1] 베이즈 정리를 만들었지만, 사실 이 경우는 거의 손만 댄 수준이다.[2] 물론 학교에 따라 '기초확률론' 같은 제목으로 학부 전공기초 또는 교양필수 같은 레벨의 쉬운 강의가 개설되거나 책이 나오기는 한다. 그런 경우 교수의 실러부스나 교재 머리말에서 미리 공지해놓는 것이 보통이며 교과서가 '학부생'을 대상으로 저술되었다고 밝히면 대부분 이런 경우에 해당하며, 사실 한국어로 된 확률론 교과서 대부분이 이런 학부생 대상 교과서들이다. 학부 고학년과 대학원생들을 대상으로 하는 수업에서는 대개 영어 교과서를 쓴다. 영어 교과서 중에도 이런 경우는 꽤 있는데, 예를 들어 Sheldon M. Ross 교수는 자신이 저술한 확률론 교과서를 A First Course in Probability, A Second Course in Probability라는 노골적인(?) 제목으로 독자를 달리 상정하고 출간했다.[3] 예: Billingsley의 책은 제목부터가 Probability and Measure이다. 이외에도 Ash, Capinski 저서 등 난이도와 두께를 막론하고 많은 교과서들이 책 제목에서부터 Measure를 강조한다. 빌링슬리는 책 제목에다 확률 먼저 쓰기라도 했지 다른 책들은 제목에다 Measure부터 먼저 쓰는 예도 비일비재하다.[4] Андре́й Никола́евич Колмого́ров; Andrey Kolmogorov (1903 ~ 1987)[5] 정답일 확률을 최대한 높이는 방향으로 찍는 것이기 때문에 틀릴 확률도 있다. 무선 통신의 경우 틀릴 확률이 높기 때문에 일단 스스로 에러 교정을 시도한 후 CRC 같은 에러 디텍션 기술을 사용해서 찍은 내용이 정답인지 틀렸는지 확인하는데, 만약 틀렸다면 재전송을 요청한다. 이를 HARQ(Hybrid Automatic Repeat reQuest)라고 부른다.