나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-08-29 23:12:32

인과추론


통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 인과추론이란

인과추론(Causal Inference)은 어떤 사건이나 변수 간의 인과 관계를 이해하고 추정하는 과정이다. 즉, 하나의 변수(원인)가 다른 변수(결과)에 어떤 영향을 미치는지, 그 관계를 명확하게 밝히고자 하는 분석이다.

예를 들어, 특정 치료법이 질병에 어떤 영향을 미치는지, 교육이 소득에 어떤 영향을 미치는지 등의 인과 관계를 분석할 때 사용된다.

2. 흥미로운 질문

"만약 내가 X 대학이 아니라 Y 대학을 갔다면 지금 소득이 얼마일까?" 같은 물음에는 어떻게 답할 수 있을까?
아주 간단하게는 '과거의 나'를 복제해, Y 대학을 보낸 뒤, 지금 소득을 구하면 된다.
(이 때, Y 대학을 보내면서 키를 10cm 커지게 하고 나아가 외모까지 좋게 만들면 대학만의 효과를 구할 수 없다!)
하지만 당연히 이런 실험을 할 수는 없다.

그럼에도 저 질문에 대한 정답을 추정할 수는 있다. 통계의 힘으로.
나와 비슷한데 대학만 다른 사람들의 데이터를 모아서 추정하면 된다.
즉, '나와 비슷하면서 X 대학을 간 사람 천 명의 소득'과 '나와 비슷하면서 Y 대학을 간 사람 천 명의 소득'을 비교하면 끝이다.
물론 나와 완전 똑같은 사람은 없기에, 비슷함의 정도를 보정해야 하고, 표본이 많고 적음에 따라 생기는 추정오차를 고려해야 하고 등등 할 일은 아직 많다.

3. 다른 예시

A/B 테스트는 인과추론을 실험적으로 적용하는 대표적인 방법 중 하나다. 예컨대 웹사이트 버튼 색상 변경이 클릭률에 미치는 영향을 밝히려고 한다고 치자.

다음과 같이 실험 설계를 할 수 있다.

A 그룹 : 기존의 빨간색 버튼을 사용하는 사용자 그룹
B 그룹 : 새로운 파란색 버튼을 사용하는 사용자 그룹

단, 이 때 각 사용자가 어떤 그룹에 배정될지는 랜덤해야 한다. 그래야만 인과추론에서 중요한 개념인 ceteris paribus(다른 조건이 동일하다면)을 충족할 수 있기 때문이다. 경제학 전공자라면 많이 들어본 용어일 것이다

예를 들어 A 그룹은 50살 이상, B 그룹은 50살 미만 사용자로 구성한다면? 버튼 색상 뿐 아니라 나이까지 포함되기 때문에 정확한 버튼 색상의 효과를 추정할 수 없다.

한편 랜덤하게 사용자를 배정하는 방법이 능사는 아닌데, 극단적으로 A 그룹에 2명, B 그룹에 2명 이렇게만 배정하면 우연히도 A 그룹엔 노년층, B 그룹엔 청년층이 배정될 수도 있다. 그래서 각 그룹에는 많은 사용자가 배정되도록 하고, 이를 통해 평균적으로 두 그룹이 동일하도록(즉, ceterise paribus 하도록) 만드는 것이다.

4. 나아가서

A/B 테스트는 인과추론 모형 중 가장 간단하여 짤막히 소개했지만, 좀 더 복잡한 인과관계를 추정하는 모형도 많다.

그래프(이산수학)를 활용한 인과추론 모형은 Judea Pearl의 저서 The Book Of Why가 좋은 입문서로 꼽힌다.

한편 인과추론 모형 전반을 소개하는 책으로는 Causal Inference For Brave and True를 많이들 추천하는데, 해당 책은 웹페이지를 통해 무료로 볼 수 있다.

분류