확률 변수

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

확률변수 관련 둘러보기

[ 펼치기 · 접기 ]

이산수학 Discrete Mathematics
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px;"	이론
<colbgcolor=#3CC> 기본 대상	수학기초론(수리논리학 · 집합론) · 수열 · 조합 · 알고리즘 · 확률
다루는 대상과 주요 토픽
수열	등차수열(뛰어 세기) · 등비수열 · 계차수열 · 조화수열 · 귀납적 정의(점화식) · 급수 · 규칙과 대응 · 규칙 찾기 · 피보나치 수열 · 읽고 말하기 수열 · 생성함수
조합	경우의 수(/공식) · 순열(완전 순열 · 염주 순열) · 치환 · 분할(분할수) · 최단거리 · 제1종 스털링 수 · 제2종 스털링 수 · 카탈랑 수 · 벨 수 · 라흐 수 · 포함·배제의 원리 · 더블 카운팅 · 조합론
그래프	수형도(트리) · 인접행렬 · 마방진 · 마법진 · 한붓그리기(해밀턴 회로) · 쾨니히스베르크 다리 건너기 문제
기타	P-NP 문제^미해결 · 4색정리 · 이항정리(파스칼의 삼각형) · 이산 푸리에 변환 · 비둘기 집의 원리 · 상트페테르부르크의 역설 · 투표의 역설 · 에르고딕 가설^미해결 · 콜라츠 추측^미해결 · 시행착오 (예상과 확인) · 불 논리 · 브라에스 역설
관련 문서	논리학 관련 정보 · 수학 관련 정보 · 컴퓨터 관련 정보 · 틀:수학기초론 · 틀:통계학 · 틀:이론 컴퓨터 과학	}}}}}}}}}

해석학·미적분학 Analysis · Calculus
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px"	<colbgcolor=#26455A>실수와 복소수		실수(실직선 · 아르키메데스 성질) · 복소수(복소평면 · 극형식 · 편각) · 근방 · 유계 · 콤팩트성 · 완비성
함수		함수 · 조각적 정의 · 항등함수 · 역함수 · 멱함수 · 다변수함수(동차함수 · 음함수) · 다가 함수 · 함수의 그래프 · 좌표계 · 닮은꼴 함수 · 극값 · 볼록/오목 · 증감표
함수		초등함수(대수함수 · 초월함수 · 로그함수 · 지수함수 · 삼각함수) · 특수함수 · 범함수(변분법 · 오일러 방정식) · 병리적 함수
극한·연속		함수의 극한 · 수열의 극한 · 연속함수 · ε-δ 논법 · 수렴(균등수렴) · 발산 · 부정형 · 점근선 · 무한대 · 무한소 · 특이점 · 0.999…=1
극한·연속		중간값 정리 · 최대·최소 정리 · 부동점 정리 · 스털링 근사 · 선형근사(어림)
수열·급수		수열(규칙과 대응) · 급수(기하급수 · 조화급수 · 멱급수 · 테일러 급수(/목록) · 그란디 급수(라마누잔합) · 망원급수(부분분수분해)) · 그물
		오일러 수열 · 베르누이 수열 · 월리스 곱
		단조 수렴 정리 · 슈톨츠-체사로 정리 · 축소구간정리 · 급수의 수렴 판정 · 리만 재배열 정리 · 바젤 문제 · 파울하버의 공식 · 오일러-매클로린 공식 · 콜라츠 추측^미해결
미분		미분 · 도함수(이계도함수 · 도함수 일람) · 곱미분 · 몫미분 · 연쇄 법칙 · 임계점(변곡점 · 안장점) · 매끄러움
		평균값 정리(롤의 정리) · 테일러 정리 · 역함수 정리 · 다르부 정리 · 로피탈 정리
		립시츠 규칙 · 뉴턴-랩슨 방법 · 유율법 · 경사하강법
적분		적분 · 정적분(/예제) · 스틸체스 적분 · 부정적분(부정적분 일람) · 부분적분(LIATE 법칙 · 도표적분법 · /예제) · 치환적분 · 이상적분(코시 주요값)
		미적분의 기본정리 · 적분의 평균값 정리
		리시 방법 · 2학년의 꿈
다변수·벡터 미적분		편도함수 · 미분형식 · ∇ · 중적분(선적분 · 면적분 · 야코비안) ·야코비 공식
다변수·벡터 미적분		라그랑주 승수법 · 오일러 동차함수 정리 · 선적분의 기본정리 · 스토크스 정리(발산 정리 · 그린 정리)· 변분법
미분방정식		미분방정식(/풀이) · 라플라스 변환
측도론		측도 · 가측함수 · 곱측도 · 르베그 적분 · 절대 연속 측도 · 라돈-니코딤 도함수
측도론		칸토어 집합 · 비탈리 집합
복소해석		코시-리만 방정식 · 로랑 급수(주부) · 유수 · 해석적 연속 · 오일러 공식(오일러 등식 · 드 무아브르 공식) · 리우빌의 정리 · 바이어슈트라스 분해 정리 · 미타그레플레르 정리
함수해석	공간	위상 벡터 공간 · 국소 볼록 공간 · 거리공간 · 프레셰 공간 · 노름공간 · 바나흐 공간 · 내적공간 · 힐베르트 공간 · L^p 공간
	작용소	수반 작용소 · 에르미트 작용소 · 정규 작용소 · 유니터리 작용소 · 컴팩트 작용소
	대수	바나흐 대수 · [math(C^*)]-대수 · 폰 노이만 대수
	정리	한-바나흐 정리 · 스펙트럼 정리 · 베르 범주 정리
	이론	범함수 미적분학 · 디랙 델타 함수(분포이론)
조화해석		푸리에 해석(푸리에 변환 · 아다마르 변환)
관련 분야		해석 기하학 · 미분 기하학 · 해석적 정수론(1의 거듭제곱근 · 가우스 정수 · 아이젠슈타인 정수 · 소수 정리 · 리만 가설^미해결) · 확률론(확률 변수 · 중심극한정리) · 수치해석학 · 카오스 이론 · 분수계 미적분학 · 수리물리학(양-밀스 질량 간극 가설^미해결 · 나비에 스토크스 방정식의 해 존재 및 매끄러움^미해결) · 수리경제학^{(경제수학)} · 공업수학
기타		퍼지 논리 · 합성곱

}}}}}}}}} ||

1. 개요2. 통계학에서의 확률 변수

2.1. 이산확률변수

2.1.1. 확률질량함수

2.2. 연속확률변수

2.2.1. 확률밀도함수

3. 확률론에서의 엄밀한 정의

3.1. 확률 변수의 성질3.2. 확률 변수의 수렴

3.2.1. 확률 수렴 (convergence in probability)3.2.2. 거의 확실한 수렴 (almost sure convergence)3.2.3. 평균 수렴 (convergence in mean)3.2.4. 분포 수렴(convergence in distribution) / 약한 수렴(weak convergence)3.2.5. 관련 성질3.2.6. 용도

4. 관련 문서

1. 개요

確率變數 / random variable, stochastic variable

확률적인 결과에 따라 결과값이 바뀌는 변수를 묘사하는 통계학 및 확률론의 개념. 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것으로 해석할 수 있으며, 공리적 확률론에서는 확률변수를 사건들의 집합인 확률공간 위에서 실수값을 갖는 함수로 정의한다.

일반적으로 대문자 [math(X)], [math(Y)] 등으로 나타내며, 확률변수가 특정한 값의 범위 내에 존재할 확률을 [math(P(X=a))], [math(P(a \le X \le b))], 더욱 일반적으로는 부분집합 ([math(S \subset \R)])에 대해 [math(P(X \in S))] 등으로 쓸 수 있다. 둘 이상의 확률변수가 있다면 [math(P(X \le Y))] 같은 것도 가능.

확률과 통계에서 빠질 수 없는 주요 개념으로, 기초적인 통계학의 경우 실제 계산을 하는 것보다는 확률변수, 확률분포, 기댓값 등의 개념을 이해하는 것이 중요하다.

보통 확률변수 [math(X)]가 가질 수 있는 값의 범위가 이산적인지/연속적인지(셀 수 있는지/없는지)에 따라 이산확률변수(離散確率變數, discrete random variable)와 연속확률변수(連續確率變數, continuous random variable)로 나뉜다. 다만 모든 확률변수가 이 두 가지의 형태인 것은 아니다. 예를 들어 동전을 던져서 앞면이 나오면 0부터 1 사이의 아무 숫자를, 뒷면이 나오면 숫자 2를 불러주는 확률변수는 어느 둘에도 속하지 않는다.

다변수 확률 변수(multivariate random variable)는 변수가 여러 개의 성분을 가지는 확률변수로, 확률공간 위에서 [math(\R)]이 아닌 [math(\R^n)]으로 가는 함수로 나타낼 수 있다. [math(n)]변수 확률변수는 보통 확률변수의 [math(n)]개의 순서쌍 [math({\bf X}=(X_1, X_2, \cdots, X_n))]으로 나타낼 수 있지만, 볼드체에서 느낄 수 있듯이 때로는 단일 개체로서 벡터처럼 묘사되어 선형대수학이나 기하학의 관점에서 생각되기도 한다.

2. 통계학에서의 확률 변수

자세한 내용은 통계적 방법/분포 문서 참고하십시오.

2.1. 이산확률변수

이산확률변수(random variable of the discrete type, discrete random variable)는 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다.

유한개의 값(Finite), 혹은 자연수의 부분집합과 일대일 대응이 가능한(Countable, 혹은 시간이 얼마나 걸리더라도 분명히 셀 수 있는) 값으로 구성되어 있는 확률변수이다. 예를 들어 2013년 11월 한 달 동안 나무위키를 방문한 사람이 n명이고, 이들이 한 달 안에 재방문할 확률이 p라고 했을 때, 2013년 11월에 나무위키를 방문한 사람 중 한 달 안에 재방문할 사람의 수는 이산확률변수이다. '사람의 수'는 0명, 1명, 2명 등과 같이 '셀 수 있다.' 다른 예로서 LOL 랭크 게임 승률이 52%인 사람이 랭크 게임을 다섯 판 했을 때 승리한 게임의 수, 자유투 성공률이 71%인 농구선수가 자유투를 세 번 던졌을 때 실패한 자유투의 수 등도 모두 이산확률변수이다. 랭크 게임 승률, 자유투 성공률을 모르더라도 위의 두 변수는 확률변수이다. 예를 들어 '원빈이 모르는 사람에게 세 번 고백해서 성공하는 횟수' 등과 같이 확률 p가 알려지지 않은 경우에도 위 '횟수'는 이산확률변수이다. 물론 가능한 갯수가 너무 많은 경우는 그냥 연속확률변수처럼 다루는 것이 편리한 수도 있다.

보통 이런 식으로 개수를 나타내는 확률변수가 많지만, 실수값을 지니더라도 가능한 값을 셀 수 있다면(설사 무한한 시간이 걸릴지라도 값 하나하나를 분명히 셀 수 있다면, 즉 Countable 하다면) 그것도 역시 이산확률변수라 한다. 광주리에서 토마토를 아무거나 하나 집었을 때 그 토마토의 무게같은 토마토의 성질도 무게(성질)의 측정의 정확도를 제한한다면(측정값의 유효숫자를 제한한다면) 이산확률변수다.(고려되는 토마토의 개수가 유한하기 때문이다.) 만약 측정의 정확도를 제한하지 않는다면 이산확률변수가 아니라 연속확률변수가 될 수가 있는 데 그 이유는 각 토마토가 가질 수 있는 무게 범위에 속하는 실수의 개수가 무한하기 때문이다.[1]

2.1.1. 확률질량함수

확률질량함수(probability mass function) 문서 참조.

2.2. 연속확률변수

연속확률변수(random variable of the continuous type, continuous random variable)는 적절한 구간 내의 모든 값을 취하는 확률 변수이다.

연속적인 범위의 값을 지니는 확률변수. 예를 들어, '핸드폰으로 나무위키를 보는 사람의 수'는 셀 수 있으므로 이산확률변수이나, '핸드폰으로 나무위키를 보는 사람이 일요일에 나무위키를 본 시간'은 셀 수 없으므로 연속확률변수이다. 1초, 2초와 같이 셀 수 있는 것처럼 보이기도 하나, 실제로는 딱 떨어지지 않는다. 5분이라고 했을 때 300.0000001초 인지 300.0000000001초인지 정확하게는 알 수 없기 때문이다.[2]

이산확률변수와 연속확률변수의 가장 큰 차이점은 확률을 P(X=x)로 표기할 수 있느냐 없느냐이다. 예를 들어 물컵에 물을 따랐을 때 99.999999999ml도 아니고 100.0000000001ml도 아니고 정확히 100ml를 따를 확률은 한없이 0에 가깝기 때문에, 분명 물컵에 물을 따라 정확히 100ml를 따르는 사건이 일어날 수 있는데도 그 확률이 별 의미가 없는 일이 벌어진다.

따라서 연속확률변수는 확률밀도함수 f(x)를 도입하며, f(x)를 a에서 b까지 적분함으로써 확률변수의 값이 a와 b 사이에 있을 확률을 구한다. 앞의 예시를 다시 사용한다면 물컵에 물을 따랐을 때 99.5ml~100.5ml 사이로 따를 확률을 구하는 식이다.

가장 유명하면서도 대표적인 연속확률변수의 확률 분포는 정규분포이다. 해당 문서 참고.

2.2.1. 확률밀도함수

확률밀도함수(probability density function) 문서 참조.

3. 확률론에서의 엄밀한 정의

공리적 확률론에서 확률 변수의 정확한 정의는 다음과 같다. 확률공간 [math((\Omega, \mathcal{F}, P))][3] 위의 확률 변수는 함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 보렐 가측인(Borel measurable) 함수로 정의된다. 보렐 시그마 대수 [math(\mathcal{B}(\mathbb{R}))]는 [math(\mathbb{R})]의 열린 집합 및 닫힌 집합을 모두 포함하는[4] 최소의 시그마 대수로 정의되고, 보렐 가측은 이 보렐 가측 공간 [math((\mathbb{R}, \mathcal{B}(\mathbb{R})))]에 대해 가측인(measurable) 조건을 의미한다. 즉 보렐 가측일 필요충분조건은 임의의 열린 집합의 역상이 [math(\mathcal{F})]에 있는 것이고, 나아가서는 임의의 실수 [math(a)]에 대해 [math(X^{-1}([-\infty,a]) \in \mathcal{F})]가 성립하는지만 확인해도 된다. 이 관점에서 통상적인 확률의 표기 [math(P(X \in S))]는 [math(S)]의 역상 [math(X^{-1}(S))]의 확률, 즉

[math( \displaystyle P(X \in S) = P( \{ \omega : X(\omega) \in S \}))]

로 해석되고, 확률변수 [math(X)]에 대한 확률 분포(probability distribution)는 확률측도 [math(P)]의 pushforward measure로, 즉

[math( \displaystyle \mu_X(S) = P(X \in S))]

로 정의되는 [math((\mathbb{R}, \mathcal{B}(\mathbb{R})))] 위의 확률측도 [\math(\mu_X)]로 정의된다.

물론 측도론이고 뭐고 다 몰라도 상관없다면, '함수 [math(X : \Omega \rightarrow \mathbb{R})] 중 확률 [math(P(a \le X \le b))]을 항상 정할 수 있는 것' 정도로만 생각해도 무방하다. 따지고 보면 상단의 정의란 것도 결국에는 이 상식적인 조건을 측도론의 언어로 옮긴 것으로 볼 수 있다.

이 정의에서 이산확률변수와 연속확률변수는 오로지 누적 분포 함수 [math(F_X(a) = P(X \le a))]의 개형으로만 구분할 수 있는데, 누적분포함수가 계단함수의 합으로 나타나면 이산확률변수로, 미분가능한 함수로 나타나면 연속확률변수로 생각할 수 있다. 0에서 1 사이의 값을 갖는 단조증가함수가 이것만 있는 건 아니므로, 실제 확률변수의 공간은 이산도 연속도 아닌 확률변수로 가득 차 있다. 이는 통계학과는 다르게 이산/연속확률변수의 구분이 비교적 본질적이지 않은 이유로, 나중 가서 스틸체스 적분까지 익히면 누적분포함수 하나로 질량함수나 분포함수가 하는 역할을 모두 수행할 수 있기 때문에 실제 계산에서도 둘을 구분하지 않는 경우가 많다. 물론 그렇다고 이산/연속의 구분이 아예 의미가 없는 건 아닌 게, 실수 위에서의 모든 확률측도는 이산적인 부분과 연속적인 부분으로 나눌 수 있다는 것을 르베그 분해(Lebesgue decomposition)와 라돈-니코딤 정리(Radon-Nikodym theorem) 등을 이용해 증명할 수 있기도 하다. 이산도 연속도 아닌 확률 변수를 혼합 확률 변수(mixed random variable)라 부를 수 있는 것이 이 때문.

복소수 값을 갖는 복소 확률변수나 다변수 확률변수의 경우에도 위의 정의에서 확률변수의 치역만 단순히 [math(\mathbb{C})]나 [math(\mathbb{R}^n)]으로 바꾸어 주고, 보렐 가측 조건을 똑같이 적용하면 된다.

3.1. 확률 변수의 성질

연산

확률변수의 사칙연산 및 상수배는 실함수로서의 점별연산으로, 즉 [math( (X+Y)(\omega) = X(\omega)+Y(\omega))] 처럼 정의한다. 가측함수는 사칙연산에 의해 닫혀 있기 때문에 가능. 비슷하게 보렐 가측 함수 [math(f)]에 대해서 합성함수 [math(f(X) = f \circ X)]도 확률변수가 된다. 측도론을 모른다면 조각적 연속함수까지만 생각해도 된다.

기댓값

확률변수의 기댓값은 실수 위의 르베그 측도에 대해 함수 [math(X)]가 적분가능(integrable)할 때, [math(X)]의 적분으로 정의한다.

확률 변수의 독립

임의의 보렐 가측 집합 [math(U,V)]에 대해, 사건 [math(\{\omega : X(\omega) \in U\})]와 [math(\{\omega : Y(\omega) \in V\})]가 독립사건일 때 확률변수 [math(X,Y)]가 독립이라고 한다. 이는 임의의 실수 [math(a,b)]에 대해 다음을 만족하면 충분하다.

[math(\displaystyle P(X \le a, Y \le b) = P(X \le a) P (Y \le b) )]

일반적인 n개의 확률변수 [math(X_1, \ldots, X_n)]의 독립은 다음 조건으로 정의할 수 있다.

[math(\displaystyle P(X_1 \le a_1, X_2 \le a_2, \ldots, X_n \le a_n) = \prod_{i=1}^{n} P(X_i \le a_i) )]

3.2. 확률 변수의 수렴

여기선 왜 확률 변수의 수렴 종류가 여러 개인지 그리고 이 수렴들의 정의가 무슨 의미를 가지고 있는지 그 직관(intuition)을 설명할 것이다. 어차피 나무위키에 왔다는 거 자체가 직관을 이해하기 위해서 온 거일 테니, 수학적으로 엄밀한 정의나 특성을 알길 원한다면 영어 위키피디아나 전공서적을 참고.

우리가 고등학교 시간에 배웠던 수열의 극한(limit)처럼 확률 변수도 (만약 수렴한다면) 그 극한을 정의할 수 있다. 한번 가장 쉬운 예를 들어 보자.

[math(\displaystyle \lim_{n \to \infty} \left( 1+ \frac 1n \right) = 1)]

그럼 예를 들어, 어떤 독립항등분포 i.i.d.인 확률 변수 [math(X_n)] [5]이 있다면

[math(\displaystyle \lim_{n \to \infty} \left( 1+ \frac 1n X_n \right) = ?)]

는 어디로 가겠는가? 직관적으로 생각해보면 [math(\frac 1n X_n)]이 점점 0에 가까워지므로 위 극한은 1로 간다는 것을 알 수 있다. 하지만 이를 엄밀하게 정의하려면 어떻게 해야하는가? 우리가 아는 수열의 극한 정의를 다시 되짚어보면 어떤 수열 [math(a_n)]이 [math(a)]로 수렴한다는 것의 정의는 다음과 같다.

임의의 양수 [math(\varepsilon)]에 대하여, "[math(n\geq N)] 이면 항상 [math(\left|a_{n}-a\right|<\varepsilon)]"이 성립하게 되는 자연수 [math(N)] 이 존재한다.

하지만 우리가 사용하는 수열 [math(a_n = 1 + \frac 1n X_n)]은 그냥 숫자가 아니라 확률변수라서 위 정의를 그대로 사용할 수 없다. 왜냐하면 [math(\left|a_{n}-a\right|<\varepsilon)] 요게 확률적으로 맞을 수도 있고 틀릴수도 있기 때문이다. 따라서 이 녀석을 확실하게 맞는 조건으로 고쳐 수렴을 정의해야하는데 이것이 바로 확률 변수의 수렴이다.

조건 [math(\left|a_{n}-a\right|<\varepsilon)]을 확실하게 맞는 것으로 바꾸는 방식에 따라 수렴 타입이 나뉘는데, 크게 보면 다음 4가지 종류가 있다.[6]

3.2.1. 확률 수렴 (convergence in probability)

위 예에서 느낌상 수열 [math(a_n)]이 극한 [math(a)]에 가까워 진다면 그 차이가 작을 확률이 굉장히 높을 것이다. 즉,

확률 [math(\mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\})]은 1로 간다.

이 말이다. 이를 수학적으로 엄밀하게 쓴 것이 바로 가장 많이 쓰이는 확률 수렴(convergence in probability)이 된다.

[math(\displaystyle \lim_{n \to \infty} \mathbb{P} \left\{ \left|a_{n}-a\right|<\varepsilon \right\} = 1)]

이를 간단하게

[math(\displaystyle a_n \xrightarrow{\mathbb{P}} a)][7]

라고 표현한다. 이 확률 수렴은 통계에서 가장 자주 쓰이는 수렴 타입이다.

하지만 이 수렴의 경우 현실적인 문제가 발생할 수도 있는데 예를 들어 [math(a_n=a)]일 확률이 [math(1-1/n)]이고 [math(a_n=a+n)]일 확률이 [math(1/n)]이라고 해보자.

[math(\displaystyle a_n = \begin{cases} a &\text{with probability } 1 - \frac{1}{n} \\
a + n &\text{with probability }\frac{1}{n}.

\end{cases})]

즉, [math(a_n)]은 대부분의 경우 [math(a)]와 같지만 작은 확률로 [math(a)]와 어마어마한 차이를 가질 수 있다. 이 경우 [math(a_n)]은 [math(a)]로 확률 수렴하지만 막상 에러 [math(a_n-a)]를 계산해 평균을 구해보면

[math(\displaystyle \mathbb{E}[a_n - a] = \frac{1}{n}n = 1)]

로 0으로 안가고 계속 1인 것을 알 수 있다. 이러면 통계 방법론을 개발할 때 가끔 문제가 될 수 있기 때문에 더 강한 수렴을 정의할 필요가 있다. 방법에 따라서 다음 두 가지 수렴(거의 확실한 수렴과 평균 수렴)을 정의할 수 있다.

3.2.2. 거의 확실한 수렴 (almost sure convergence)

확률 수렴 외에도 굉장히 헷갈리는 또다른 수렴 타입이 존재한다. 바로 거의 확실한 수렴(almost sure convergence)으로, 확률 수렴과 현실적으론 미미하지만(subtle) 수학적으론 중요한 차이가 있다.

확률 수렴을 정의한 느낌과 달리 어떤 (확률론을 엄밀하게 잘 아는) 사람은 다음과 같이 생각할 수도 있을 것이다.

"확률 변수는 어떤 사건 [math(\omega)]가 주어지면 그냥 숫자잖아? 그럼 [math(\left|a_{n}(\omega)-a(\omega)\right|<\varepsilon)] 체크하는데 문제 없고 [math(a_n(\omega) \rightarrow a(\omega))]도 그냥 기존 정의대로 쓰면 되잖아?"

요 생각을 바탕으로 수렴을 정의하면 "거의 확실한 수렴"이다. [8] 이를 말로 풀어 쓰면

거의 모든(almost) 사건 [math(\omega)]에 대해 [math(a_n(\omega) \rightarrow a(\omega))]이다.

이와 같다. 여기서 "거의 모든"은 측도론에서 almost everywhere개념으로 확률론에서는 "100% 확률로(거의 확실하게, 즉, almost sure)"라는 뜻으로 바꿀 수 있는데[9], 이를 토대로 거의 확실한 수렴을 엄밀하게 정의하면 다음과 같다.

확률 [math(\mathbb{P} \left\{\omega: a_n(\omega) \rightarrow a(\omega)\right\})]은 1이다.

이를 간단하게

[math(\displaystyle a_n \xrightarrow{\mathrm{a.s.}} a)]

라고 표현한다. 중요한 점은 거의 확실한 수렴이면 확률 수렴이라는 것이다.

확률 수렴과 거의 확실한 수렴 차이

위 확률 수렴에서 제시한 예는 경우에 따라 거의 확실한 수렴일수도, 아닐수도 있다.
거의 확실한 수렴이려면 거의 대부분의 사건 [math(\omega)]에 대해

[math(\lim_{n\rightarrow \infty} a_n(\omega) = a(\omega))]

로 가야하는데 만약 [math(a_n - a)]가 다음과 같이 빈도는 점차 줄어들지만 계속해서 튀는게 존재하는 경우 얘는 수렴을 안하기 때문에 거의 확실한 수렴이 아니다.

[math(n)]	1	2	3	4	5	6	7	8	9	10
[math(a_n - a)]	1	0	3	0	0	6	0	0	0	10

물론 어떤 한 사건 [math(\omega)]에 대해 위 특성을 가지면 확률 수렴하지 않는데 [math(a_n)]이 독립이거나 독립이 아니더라도 적절한 수학적 트릭을 쓴다면[10] 튀는 애의 확률을 0으로 만들어 확률 수렴하지만 거의 확실한 수렴이 아닌 예를 만들 수 있다.

3.2.3. 평균 수렴 (convergence in mean)

조건 [math(\left|a_{n}-a\right|<\varepsilon)]에 평균을 씌워 문제를 해결할 수도 있다. 이를 평균 수렴 (convergence in mean)이라고 하는데 위 조건에서 문제가 되는 부분 [math(\left|a_{n}-a\right|)]에 평균을 씌우면 그냥 숫자가 된다는 것을 이용하면 다음과 같이 정의할 수 있다.

평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right| \right])]은 0으로 간다.

이를 간단하게

[math(\displaystyle a_n \xrightarrow{L^1} a)]

라고 표현한다.

사실 단순 평균만 취해도 되지만 제곱, 세제곱, [math(r)]제곱에 대해 평균을 취해도 되는데 이를 [math(L^r)]-노름 수렴이라고 한다. 이를 표현하면

평균 [math(\mathbb{E} \left[ \left|a_{n}-a\right|^r \right])]은 0으로 간다.

혹은

[math(\displaystyle a_n \xrightarrow{L^r} a)]

과 같다. 평균 수렴은 확률 수렴보다 훨씬 강하지만 거의 확실한 수렴보다 꼭 강한 것은 아니다.

3.2.4. 분포 수렴(convergence in distribution) / 약한 수렴(weak convergence)

확률 분포만 체크하여 다음과 같이 확률 변수의 수렴을 정의할 수도 있다.

[math(a_n)]의 확률 분포는 [math(a)]의 확률 분포로 간다.

이를 분포 수렴(convergence in distribution or convergence in law)라고 하는데 이는 수학적으론 다음과 같이 엄밀히 쓸 수 있다.

확률 변수 [math(a_n)]와 [math(a)]의 누적 확률 분포를 각각 [math(F_n, F)]라고 한다면 모든 [math(x)]에 대해 [math(\displaystyle F_n(x) \rightarrow F(x))]이다.

이를 간단하게

[math(\displaystyle a_n \xrightarrow{\mathrm{d}} a)] 혹은 [math(\displaystyle a_n \xrightarrow{\mathcal{L}} a)]

라고 표현한다. 이 분포 수렴은 확률 분포 모양만 똑같으면 되기 때문에 확률 수렴이나 거의 확실한 수렴, 평균 수렴보다 훨씬 조건이 약하다.

3.2.5. 관련 성질

여러 확률변수의 수렴 사이에는 다음의 관계가 성립한다.

[math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm p}X)]
[math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm p}X)]
[math(X_n\xrightarrow{\rm p}X)]이면 [math(X_n\xrightarrow{\rm d}X)]

따라서 다음 역시 성립한다.

[math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(X_n\xrightarrow{\rm d}X)]
[math(X_n\xrightarrow{L^p}X)]이면 [math(X_n\xrightarrow{\rm d}X)]

단, 역은 일반적으로 성립하지 않는다. 그러나 다음과 같이 특수한 경우에는 역이 성립한다.

[math(X_n\xrightarrow{\rm d}c)]이면 [math(X_n\xrightarrow{\rm p}c)]

[math(c)]는 상수이다. 일반적으로 분포수렴은 확률수렴을 내포하지 못하지만, 수렴값이 상수라는 조건이 붙으면 분포수렴과 확률수렴은 서로 필요충분조건 관계가 된다는 것이다.

다음은 [math(L^p)] 수렴에 대한 성질이다.

[math(X_n\xrightarrow{L^p}X)]이면 [math(r\leq p)]에 대하여 [math(\displaystyle\lim_{n\to\infty}{\rm E}[X_n^r]\rightarrow{\rm E}[X^r])]

균등연속함수(uniformly continuous function) [math(g:\,\mathbb{R}\rightarrow\mathbb{R})]에 대하여 다음이 성립한다. 이를 연속 사상 정리(連續寫像定理, continuous mapping theorem)라고 한다.

[math(X_n\xrightarrow{\rm a.s.}X)]이면 [math(g(X_n)\xrightarrow{\rm a.s}g(X))]
[math(X_n\xrightarrow{\rm p}X)]이면 [math(g(X_n)\xrightarrow{\rm p}g(X))]
[math(X_n\xrightarrow{\rm d}X)]이면 [math(g(X_n)\xrightarrow{\rm d}g(X))]

상수 [math(c)]에 대하여 [math(X_n\xrightarrow{\rm p}c)]이고 [math(Y_n\xrightarrow{\rm d}Y)]이면 다음이 성립한다. 이를 슬루츠키 정리(Slutsky theorem)라고 한다.

[math(X_n+Y_n\xrightarrow{\rm d}c+Y)]
[math(X_nY_n\xrightarrow{\rm d}cY)]
[math(\dfrac{Y_n}{X_n}\xrightarrow{\rm d}\dfrac{Y}c)](단, [math(c\neq 0)])

[math(X_n-Y_n\xrightarrow{\rm p}0)]이고 [math(X_n\xrightarrow{\rm d}X)]이면 [math(Y_n\xrightarrow{\rm d}X)]이다.

3.2.6. 용도

그렇다면 왜 확률 변수의 수렴까지 우리가 이렇게 힘들게 고려해야하는가? 가장 중요한 이유는 응용할 수 있는 곳이 많고 이 4가지 타입 수렴에 따라 수렴 성질이 크게 달라지기 때문이다. 많이 사용되는 곳은 다음과 같다.

통계에서 새로운 통계 방법론을 만들 때 반드시 필요하다. 통계 변수는 특성상 확률 변수일 수밖에 없고 데이터 샘플이 많아지게 되면 많아지게 될 수록 이 통계방법론이 제대로 working하는지 체크하려면 그 극한을 살펴보아야 한다.
물리에서, 특히 통계역학이나 양자역학에서 분자나 원자의 개수가 많아질 수록 이 시스템이 어떠한 거시적 특성을 가지는지 알아야 할 때 확률 변수의 극한이 필요하다. 왜냐하면 분자나 원자는 양자역학적인 그 고유의 특성상 확률적인 특성을 가질 수밖에 없고 아보가드로 수에 준하는 엄청난 개수의 원자의 집합은 사실상 이러한 확률 변수의 극한으로 볼 수 있기 때문이다.
컴퓨터공학에서 알고리즘의 성능을 논할 때 인풋 데이터의 크기가 커짐에 따라 알고리즘이 돌아가는 데 걸리는 시간(시간 복잡도)이 얼마나 걸리는지 반드시 알아야 한다. 이 때 알고리즘이 결정적(deterministic) 알고리즘이 아니라 확률적(stochastic or probabilistic)인 알고리즘이라면 알고리즘이 돌아가는데 걸리는 시간은 확률 변수일 수밖에 없고, 이 알고리즘의 효율성, 즉 시간 복잡도 or 공간 복잡도는 곧 확률 변수의 극한이 된다(물론 엄밀히 말하면 "수렴"이 아니라 "발산"이겠지만).
사회과학에서 계량경제학 방법론을 많이 사용하는데 이는 곧 통계 방법론이므로 위와 같은 이유로 확률 변수의 극한은 계량경제학 방법론이 제대로 작동하는지 이론적으로 확인하기 위해 반드시 필요하다.
금융공학에서 많이 사용되는 확률 과정과 이토 적분은 사실상 확률 변수의 극한을 통해 정의된다. 그 유명한 블랙 숄즈 역시 이 확률 과정과 이토 적분을 응용하여 특정 수익 구조(payoff structure)를 갖는 상품의 적절한 가격이 얼마여야 시장에 무차익거래(arbitrage opportunity)가 가능하지 않은지 방정식으로 표현한 것이다. 이 방정식의 해가 깔끔하게 열 방정식의 해 형태로 나오는 것은 이 확률 과정이 markovian property를 따르기 때문.

4. 관련 문서

[1] 예를 들면, 집은 토마토의 무게는 175.15 g부터 175.2 g까지의 실수 범위에 속하는 걸로 추측되는 데 그 범위에 속하는 실수의 개수는 무한하기 때문이 이 토마토의 무게는 무한개의 값을 가질 수 있고 각 값을 정확하게 나타낼 수도 없기 때문에 하나하나 가능한 무게값을 세는 것을 시작할 수도 없다. 정리하면, 이 실수범위를 원소로 가지는 집합은 Countable 이 아니기에 (셀 수 없기에) 이 실수범위를 값으로 가지는 토마토의 무게는 이산확률변수가 아니다.[2] 물론 위에서 언급한 이산확률변수에서의 토마토 무게 예와 같이, 시간의 정확도를 제한한다면 (측정의 유효숫자를 제한한다면) 이산확률변수가 된다.[3] 확률론에서 확률공간을 나타낼 때 쓰는 표준적인 표기로, (표본공간, 사건공간, 확률측도)의 세 쌍이다.[4] 실수집합의 경우에는 이 조건을 '개구간을 모두 포함하는' 혹은 '반직선 구간 [math([-\infty, a])]을 모두 포함하는' 등의 다양한 형태의 약한 조건으로 바꾸어 쓸 수 있다. 시그마 대수가 반직선 구간들만 포함해도 모든 열린 집합과 닫힌 집합을 포함해야 하기 때문.[5] 표준정규분포를 따를수도 있고 균등분포를 따를 수도 있지만 일단 그건 나중에 생각하자.[6] 물론 stable cconvergence, functional convergence(convergence in measure), sure convergence 등 다른 종류도 많지만 많이 쓰이는 건 이 4가지이다.[7] [math(\xrightarrow{\mathbb{P}})]에서 [math(\mathbb{P})]는 확률 측도의 표현으로 확률을 [math(P)]로 쓰고 싶다면 [math(\displaystyle a_n \xrightarrow{P} a)]라고 쓰면 된다. 이는 확률 수렴이 확률 측도에 따라 다르기 때문. 확률 변수임을 강조하고 싶다면 대문자로 [math(\displaystyle A_n \xrightarrow{P} A)]라고 쓰면 된다.[8] 물론 이것이 거의 확실한 수렴을 정의했던 사람의 의도인지는 알 수 없다. 참고로 확실한 수렴 (sure convergence)도 있지만 얘는 수학적으로도 크게 중요하진 않다.[9] "모든"(sure)과 "거의 모든"(or 100% 확률)은 엄밀하게 따지면 다르긴 한데 사실 현실에선 큰 차이 없다.[10] 확률 공간 [math(\Omega)]를 [math([0,1])]로 잡고 매번 길이 [math(1/n)]가 되는 부분만 튀게 하는데 이걸 계속 최대한 다르게 교차시키면 된다. 자세한 것은 여기 참고.

확률 변수

1. 개요

2. 통계학에서의 확률 변수

2.1. 이산확률변수

2.1.1. 확률질량함수

2.2. 연속확률변수

2.2.1. 확률밀도함수

3. 확률론에서의 엄밀한 정의

3.1. 확률 변수의 성질

3.2. 확률 변수의 수렴

3.2.1. 확률 수렴 (convergence in probability)

3.2.2. 거의 확실한 수렴 (almost sure convergence)

3.2.3. 평균 수렴 (convergence in mean)

3.2.4. 분포 수렴(convergence in distribution) / 약한 수렴(weak convergence)

3.2.5. 관련 성질

3.2.6. 용도

4. 관련 문서

분류