실험설계

<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px"	<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경	과학적 방법
기반	수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구	논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론	합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
	통계적 방법	혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량	물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 표기법)
실험	실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고 실험 · 인체실험 · 임상시험 · 실험 기구(거대과학)
연구윤리	뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문	소논문 · 리포트 · 학술지 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 동료평가 · 지표 · 저널인용보고서 · 구글 학술검색 · 학술 데이터베이스 · 게재 철회
과학 공동체	논문제출자격시험 · 연구계획서 · 학회 · 세미나 · 학술대회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론			}}}}}}}}}

1. 소개2. 진실험설계

2.1. 통제집단 사전사후 설계2.2. 통제집단 사후 설계2.3. 솔로몬 4집단 설계

3. 전실험설계

3.1. 단일집단 사후 설계3.2. 단일집단 사전사후 설계3.3. 정태집단 비교 설계

4. 준실험설계

4.1. 비동질적 통제집단 설계4.2. 틈입 시계열 설계4.3. 통제 시계열 설계

5. 기타 설계계획

5.1. 요인 설계5.2. 블록 설계

5.2.1. 무선화 블록 설계5.2.2. 라틴 방진 설계5.2.3. 불완전 블록 설계5.2.4. 분할구 설계

6. 실험설계의 내적 타당도 문제7. 둘러보기

Design of Experiments (DoE)

1. 소개

과학적 방법의 일부로, 통제집단과 실험집단을 구성하여 실험을 진행하기 위해 연구자가 계획하고 수행해야 하는 일련의 체계적 절차를 말한다.

대부분은 20세기 초반에 농학, 의학, 통계학, 사회학, 심리학 등이 본격적으로 기초를 닦으면서 함께 도입되었으며, 통계학자 로널드 피셔(R.Fisher)의 《The Design of Experiments》 문헌[1]을 바탕으로 하고 있다.

진실험설계, 준실험설계, 전실험설계는 흔히 조사방법론 교과서들이나 사회조사분석사 시험범위에서 포함되는 내용들이다. 아래에서 전실험설계 같은 내용은 학술적인 가치는 별로 없지만, 실험이라는 개념에 대해 개관하기에는 꽤 좋기 때문에 교육적 의도로 자주 소개되는 편이다.

2. 진실험설계

true experimental design

순수실험설계라고도 불리며, 가장 이상적인 형태의 실험설계이다. 의학 분야에서는 대개의 논문들이 여기에 속하며, 사회과학 분야에서는 여러 현실적인 한계와 학문적 목적의 차이로 인해 진실험설계의 비중이 낮은 편이다.

2.1. 통제집단 사전사후 설계

pretest-posttest control design

가장 고전적인 형태의 실험으로, 다음의 순서를 따른다.

1. 통제집단과 실험집단을 각각 구성하고, 실험대상 또는 참가자를 양쪽 집단에 무선할당법(random assignment)으로 배치한다.
2. 실험집단에 처치를 가하기 전에 종속변인의 사전검사(pretest)를 양쪽 모두 실시하고, 검사 결과 두 집단의 평균 데이터에서 통계적으로 유의한 차이가 없음을 (즉 사실상의 동질적 집단임을) 보인다.
3. 이후 실험집단에만 독립변인에 해당하는 처치(treatment)[2]를 가한다.
4. 처치 후 종속변인의 사후검사(posttest)를 양쪽 모두 실시하고, 검사 결과 두 집단의 평균 데이터에서 통계적으로 유의한 차이가 나타나는지 (즉 처치로 인해 두 집단이 이질화되었는지) 확인한다.

여기서 심리학 등의 일부 분야에서는 처치가 정상적으로 적용되었는지도 확신하지 못한다는 특수한 학문적 요구에 직면해 있다. 그래서 이런 분야들에서는 처치 직후에 그 처치가 의도한 대로 타당하고도 성공적으로 이루어졌음을 계량화 및 수치화해 엄밀히 입증하는 과정이 추가된다. 이런 추가적인 절차를 조작 점검(M-check; manipulation check)이라고 부른다.

EG→	R	O_e1	X	O_e2
CG→	R	O_c1		O_c2

실험자가 바라는 가장 이상적인 결과는, 처치 이전의 차이(difference before treatment)는 통계적으로 유의하지 않게 나타나면서, 처치 이후의 차이(difference after treatment)는 통계적으로 유의하게 나타나되, 그 차이가 연구목적에 부합하는 방향일 때이다. ~~대중매체에서 매드 사이언티스트가 막 출력된 데이터를 읽고서 음흉하게 웃는다면 바로 이 상황이다.~~ 연구분야에 따라서는 처치 이전의 차이가 이질적이라 하더라도 동료 학자들이 크게 문제삼지 않는 경우가 있는데, 이때는 아래와 같이 처치의 효과(treatment effect)를 정확히 명시할 필요가 있다.

이 설계는 그 내적인 논리 상 차이들의 차이(DID; difference in differences)를 도출함으로써 처치의 효과를 계산하는 데 적합하다. 처치의 효과를 알고자 한다면 먼저 차이들(differences)에 대한 정보가 필요하다. 첫째 차이는 실험집단에서 사후검사와 사전검사 사이에 발생한 차이(O_e2－O_e1)이다. 둘째 차이는 통제집단에서 사후검사와 사전검사 사이에 발생한 차이(O_c2－O_c1)이다. 이후, 두 개의 차이 수치 사이에서 나타나는 차이를 확인한다면((O_e2－O_e1)－(O_c2－O_c1)) 그것이 처치의 효과가 된다.

그래프 상에서 처치의 효과는 다른 방식으로 도해될 수도 있다. 위 그래프에서 점선과 회색선은 서로 평행하다고 가정하자. 회색선은 실제 데이터는 아니지만, 실험집단에 처치가 가해지지 않았을 경우를 상정했을 때 원론적으로 기대되는 수치이다. 중요한 것은 위 그래프의 회색선 자체가 이미 통제집단의 변화를 반영하여 기울어져 있다는 것이다. 그래서 처치의 효과도 실험집단의 처치 전후 차이를 다 포함하지 않고, 회색선 오른쪽 끝 아랫부분에 해당하는 일부 상승분이 자동으로 빠져 있다. 통제집단과의 평행선을 그음으로써 (O_e2－O_e1)－(O_c2－O_c1) 값의 크기가 확인된 것이다. 이와 같은 방식을 평행 추세 추정법(parallel trend assumption)이라고도 한다.

본질적으로 여러 평균 간의 차이를 비교하는 논리를 따르기 때문에, 결과 데이터 분석에도 그에 적합한 통계적 분석방법이 필요하다. 대개는 분산 분석(ANOVA; analysis of variance), 특히 반복측정법(repeated measures)을 활용하게 된다. 실험에 필요한 집단이 3개 이상이라면[3] 별도의 사후분석을 통해서 구체적으로 어떤 집단이 어떤 집단과 유의하게 차이가 발생한다는 것인지 명시할 필요가 있다. ANOVA는 그저 여러 집단들 사이 어딘가에서 유의한 차이가 발생하느냐 여부만을 분석하기 때문이다.

통제집단 사전사후 설계가 항상 좋은 것만은 아니다. 정교하고도 엄격한 절차로 인해, 이 실험을 진행하는 실험실의 환경은 외부 세상과 단절되고 만다. 가능한 많은 외생변인들을 '통제' 한다는 것은, 뒤집어 말하면 세상의 다채롭고 복잡한 측면들을 최대한 '소독' 해 버린다는 말이 된다. 결국 특정한 처치의 효과를 알아보는 데에는 성공했지만, 현실에서 그 효과가 과연 어디까지 똑같이 발휘될 수 있을지는 아무도 장담하지 못한다. 이런 문제를 가리켜 생태학적 타당도(ecological validity)가 낮다고 표현하기도 한다.

또 다른 문제로서, 분야에 따라 상호작용 검사효과(interaction testing effect)가 발생하는 종류의 실험에서는 사용할 수 없다. 사후검사 데이터는 사실 사전검사의 실시로 인해 발생하는 왜곡까지도 포함하기 때문이다. 사전검사를 거치는 과정에서 참가자는 실험목적이나 그 주제에 대해서 의식적으로 인식하게 되고, 연구자가 원하는 날것 그대로의 반응은 그만큼 탐지하기가 어렵게 된다. 이 문제는 사람들의 태도나 의견, 인식 등이 어떻게 변화하는지 파악해야 하는 심리학(특히 사회심리학) 분야에서 두드러진다.

2.2. 통제집단 사후 설계

posttest-only control design

EG→	R	X	O_e2
CG→	R		O_c2

위의 통제집단 사전사후 설계에서 사전검사 절차 하나만을 빼 버린 설계다. 다른 모든 것은 괜찮지만 사전검사 하나가 유독 문제가 되거나, 혹은 굳이 그 절차를 밟을 필요가 없을 만큼 표본 동질성이 보장되어 있을 때 활용한다. 보다 일반적으로는 돈 없고 시간 없는 흔한 사회과학 연구실에서(…) 방법론적 경제성을 이유로 폭넓게 채택하고 있다.

사전검사가 유발하는 검사효과의 방지, 그리고 방법론적 경제성이 통제집단 사후 설계가 채택되는 주된 이유이다. 참가자를 무선할당했다는 데서 초기 동질성을 설득하므로, 무선할당이 갖는 중요성이 매우 크다. 그나마도 이미 동질성이 충분하다고 판단된 모집단에서만 무선할당을 하는 경우가 많으며, 그렇지 못할 경우에는 표본의 수를 충분히 키워서라도 가능한 한 실험집단과 통제집단의 동질성을 보장해야 한다. 다른 경우로는 실험 여건 상 도저히 사전검사를 할 수가 없는 환경일 때 채택되는데, 연구자들도 가끔 이런 실험 여건에 직면할 때가 있는데다 실무자들이 현장에서 뛸 때에는 이런 일이 숱하게 벌어진다.[4]

이 설계에서는 두 집단의 처치 후 시점의 차이를 확인할 수 있을 뿐이며, 각각의 집단들의 사후 시점과 사전 시점 사이의 차이는 확인할 수 없다. 즉 위에서 논의했던 DID는 여기서는 남의 얘기가 된다. 이 설계는 사전 시점에 두 집단이 '동일했다' 는 전제를 세우고 시작하는 실험이며, 원래는 동일했을 두 집단이 갑자기 차이를 보이게 된 이유를 처치에서 찾을 뿐, 그 처치가 갖는 효과가 얼마나 큰지까지는 말하지 않는다.

실험에 필요한 집단이 2개일 경우, 표본 크기가 N≥30일 때에는 z-검정을, N＜30의 소표본일 경우에는 t-검정을 사용해 분석하는 것이 권장된다. 실험에 필요한 집단이 3개 이상일 경우에는 역시 ANOVA를 사용하되, 구체적으로 어떤 집단과 어떤 집단이 차이가 있는지를 명시하기 위해, 별도의 사후분석으로 각 집단 간의 평균 비교가 필요하다.

2.3. 솔로몬 4집단 설계

Solomon four group design

통제집단 사전사후 설계	EG₁→	R	O_e11	X	O_e21
통제집단 사전사후 설계	CG₁→	R	O_c11		O_c21
통제집단 사후 설계	EG₂→	R		X	O_e22
통제집단 사후 설계	CG₂→	R			O_c22

위의 통제집단 사전사후 설계와 통제집단 사후 설계를 단순히 합쳐 놓은 설계이다. 그럼에도 논리적으로 위의 두 설계보다 더 강력하고 빈틈이 없어, 가장 이상적인 형태의 진실험설계로 간주되고 있다.

각종 외생변인들의 크기를 처치의 효과에서 일일이 뜯어내 보여줘야 할 때 유용하다. 그 중에서도 특히 주검사효과(O_c22－O_c21)와 상호작용 검사효과(O_e22－O_e21)의 크기를 쉽게 계산하여 떼어낼 수 있다. 특히 기존의 통제집단 사전사후 설계에서는 보여주지 못했던, 실험적 처치와 외생변인이 맞물리며 일으키는 주효과(main effect)와 상호작용 효과(interaction effect)도 뜯어낼 수 있다. 즉 실험집단(EG₁)의 실험적 처치에 의한 변화량은 주효과와 상호작용 효과의 합인데, 여기서의 주효과는 O_e22 값이 두 건의 사전검사 평균값((O_e11+O_c11)÷2)으로부터 얼마나 많이 변화하는지로 정의된다. 일단 주효과를 계산했다면, 이를 다시 실험집단의 변화량(O_e21－O_e11)과 비교함으로써 상호작용 효과를 도출할 수 있다.

그 논리성에도 불구하고 현실적으로는 잘 쓰이지 않는 설계다. 실험의 규모가 워낙에 커지기 때문인데, 이 정도로 대규모의 실험에 참여할 참가자를 구하느니, 차라리 그 참가자들로 두 건의 실험을 하고 말겠다는 사회과학 연구자들이 많다(…). 그럼에도 이 실험설계가 채택되어야 하는 경우가 있다면, 아마도 검사효과 같은 절차 상의 외생변인의 혼입이 '어느 정도 규모로' 나타날지가 학문적으로 중요하게 여겨질 정도로 희귀한 경우뿐일 것이다.

3. 전실험설계

pre-experimental design

전구실험설계, 비실험설계, 원시실험설계 등의 다양한 이름들이 있지만, 뭐가 됐든지 여기 속하는 설계법들은 실험으로 부를 수 없다. 물론 꼭 실험이 아니어도 좋은 연구는 얼마든지 존재할 수 있으며, 요건은 연구자가 '이 연구에서 이 설계를 따를 수밖에 없는 이유' 를 얼마나 설득력 있게 세일즈하느냐에 달렸긴 하지만, 전실험설계를 포함하는 연구가 좋은 연구가 되기는 어려운 게 사실이다. 설계가 엉성해질수록 논리에도 빈틈이 많이 생기고, 결정적으로 그 설계를 통해 얻어진 데이터의 가치도 줄어들기 때문이다.

3.1. 단일집단 사후 설계

one-group posttest-only design

EG→

O₁

단회사례(one-shot case) 혹은 일화(anecdote)라고도 불린다. 이 문서에서 소개되는 실험설계 중에서 가장 단순하기 짝이 없는 (일단은) 설계이다. 집단 하나를 모아다가 처치를 가하고, 이후에 한번 관찰만 하면 끝나는 간단한 절차. 상아탑에서 이런 설계를 하는 경우는 없고(…), 일반인들이 뭔가를 알아보기 위해 이리저리 시도해 보는 것들 중 가장 품 안 드는 방식이다.

어떤 회사에서 새로 나온 광고에 대한 소비자 호감도를 조사한다고 가정해 보자. 이 회사는 응답자들을 닥치는 대로 모아서 30초짜리 광고를 보여주고, 얼마나 마음에 드냐고 질문할 수 있다. 그리고 결과적으로 10점 만점에 평균 6.2점을 받았다고 가정해 보자. 이 숫자로 어떤 판단을 할 수 있을까? 불행히도, 이는 의미 있는 의사결정을 내리기에는 큰 가치가 없는 숫자일 뿐이다. 이게 좋다는 건지 나쁘다는 건지 알 수가 없기 때문이다. 기존 광고는 7.8점짜리일지도 모르고, 기획 단계에서 탈락시켰던 광고 아이디어는 8.1점을 받을지도 모르는 일이다. 뭐라도 판단을 하려면 결국 비교를 할 수밖에 없다. 그리고 이 시점에서 그 회사의 발상은 점차 실험이라 불리는 활동으로 가까워지게 될 것이다.

인터넷에서 흔히 돌곤 하는 몇몇 조롱성 짤들도 어찌보면 단일집단 사후 설계라고 볼 수 있다. 특정 커뮤니티나 SNS 이용자들이 어떤 사건을 겪었을 때(X), 그에 대해서 하나같이 특정한 반응을 보인다고 하더라도(O₁), 그것만으로 설득력 있게 그 커뮤니티를 묘사하는 건 불가능하다. 그 일이 있기 전에 그 커뮤니티가 어떤 분위기였는지를 비교할 수 없고, 다른 커뮤니티 집단이 같은 사건에 어떻게 반응할지 비교할 수도 없기 때문이다.

3.2. 단일집단 사전사후 설계

one-group pretest-posttest design

EG→

O₁

O₂

통제집단을 배치하지 않고서 사전사후 측정만 해 놓은 설계. 흔한 성형외과 광고의 Before & After 비교 사진을 떠올리면 쉽게 감이 올 것이다. 집단 간의 비교가 불가능하긴 해도, 처치 이전과 처치 이후의 변화를 계산할 수 있다는 최소한의 가치는 있다.

이 설계가 기본적으로 의도하는 논리는 사전검사와 사후검사의 결과 차이가 전적으로는 아닐지라도 어느 정도는 실험적 처치 때문이라는 것이다. 하지만 통제집단이 없기 때문에 이는 금세 반론에 직면할 수밖에 없다. 세상에 변하지 않는 것은 없기 때문이다. 어느 정도는 자연적으로 변화하는 범위가 있게 마련이고, 총 변화량에서 그런 자연적 변화량을 제해야만 실험적 처치가 유발한 변화량을 도출할 수 있다. 앞의 진실험설계에서 소개했던 DID 개념이 바로 그것이다.

종종 나오는 "무안단물을 마시고 ○○○병이 나았습니다! 할렐루야!" 같은 사례에 대해 의료계에서 "어차피 나을 때 된 사람이 나았을 뿐" 이라고 치부하는 이유도 이와 마찬가지다. 의료계가 요구하는 것은 통제집단이든 위약집단이든 편성해서 자연적 치유 이상의 치료적 효과를 입증해 보이라는 것이다. 같은 논리로, 일반인들은 어떤 기침약을 먹고서 기침이 뚝 그쳤다면 약빨 잘 받는다며 좋아하겠지만, 그 기침약이 시중에서 팔릴 수 있는 이유는 단순히 그 정도가 아니라 통제집단과 비교할 때에도 약효가 뚜렷하게 나타났기 때문이다.

따라서 단일집단 사전사후 설계 역시 남을 설득하거나 중요한 의사결정을 내리는 데에 있어서 실질적인 가치는 거의 없다. 그런데도 이 설계가 오늘날의 대학교 조사방법론 강의 시간에 소개되고 사회조사분석사 필기시험 범위에 포함되는 까닭이 있다면, 그것이 통제집단과 실험집단을 나누어야 할 이유를 잘 반증하고 있기 때문일 것이다.

3.3. 정태집단 비교 설계

static-group comparison design

EG→	X	O₁
CG→		O₂

통제집단을 배치하여 실험집단과 비교하는 건 좋은데, 이번에는 사전검사를 하지 않은 쪽으로 나사가 빠진 설계. 학계에서는 역시 거의 쓰이지 않으며, 일반인들 선에서 떠올릴 수 있는 예를 들자면 "일본에 한 번이라도 여행을 가 본 사람은 안 가 본 사람보다 일본에 대한 호감도가 높아지지 않을까?" 종류의 질문이 있다.

당연히 두 집단이 동질적이라는 보장도 없으며, 두 집단 사이에 어떤 차이를 발견한다 할지라도 그 원인을 실험적 처치 때문이라고 주장할 수가 없다. 실험집단이 원래부터 그만큼 차이를 보였기 때문이라고 반론하면 끝이기 때문이다. 어쩌면 사전검사를 했을 때, 실험집단과 통제집단 모두 사후검사와 동일한 결과를 도출할지도 모른다. 처치가 문제가 아니라 두 집단이 근본적으로 이질적일 수 있다는 것이다.

위의 일본 여행의 예시를 다시 빌린다면, 일본 여행객들은 여행을 계기로 호감도가 증가한 게 아니라, 원래 호감이 있었으니까 여행을 갔을 뿐이라고 치부할 수도 있다. 이 가능성을 제거하려면 여행 이전에는 확실히 일본에 대한 호감이 없었음을 보여주어야 하며, 이 설계만으로는 아무것도 장담하지 못한다. 그렇기 때문에 이 역시 사전검사의 중요성을 시사한다는 교육적 가치만을 갖는 설계에 지나지 않는다.

4. 준실험설계

quasi-experimental design

실험설계의 여러 조건들[5]을 완전히 충족하지는 못하지만, 그 미충족으로 인해 발생하는 오염변인을 적어도 최소화하거나 측정하여 분리해낼 수 있는 설계 방식. 사회과학의 많은 연구들은 대체로 여기에 해당한다. 실험으로서의 조건 미충족은 연구의 한계로 흔히 취급되긴 하나, 연구분야 자체가 갖는 특성이 되기도 한다.

4.1. 비동질적 통제집단 설계

non-equivalent control group design

EG→	O₁	X	O₂
CG→	O₁		O₂

통제집단 사전사후 설계에서 무선할당 절차(R)만 빠진 설계. 통제집단과 실험집단을 각각 '편성' 하는 것은 가능하나, 개별 참가자들을 양측 집단에 무선할당할 수는 없는 상황, 곧 실험자가 참가자를 '선발' 할 수는 없는 경우에 활용된다. 즉 기존에 존재하는 둘 이상의 자연적 집단을 고스란히 실험에 활용하는 상황이라고 할 수 있다. 따라서 사회과학의 현장연구(field study)와도 잘 맞는다.

처치 전 차이가 통계적으로 거의 없다면 어느 정도 동질성은 설득되나, 그 차이가 집단 간 동질성 이외의 다른 무언가로도 설명될 수 있다는 가능성만큼은 열려 있다. 그래서 비동질적 통제집단 설계에서는 무선할당이 아닌 다른 방법을 활용하여 외생변인의 혼입을 통제하는 절차가 필요하다.

가장 많이 쓰이는 방법은 짝짓기법(matching)으로, 이 실험에 어떤 외생변인이 혼입될 것인지 추론할 수 있는 정보가 요구된다. 외생변인이 추려졌다면, 두 집단에서 그 외생변인에 대해 유사한 분포를 보이도록 참가자의 구성을 일부 솎아내는 등의 조치를 하게 된다. 그 외에도 공분산분석(ANCOVA; analysis of covariance) 또는 회귀 분석(regression)을 통해서 통계적으로 설계 상의 이질성을 보완할 수 있다.

4.2. 틈입 시계열 설계

Interrupted Time-Series (ITS) Design

O₁

O₂

O₃

O₄

O₅

O₆

O₇

O₈

단절적 시계열 설계, 간섭 시계열 설계라고도 한다. 실험적 처치의 종단적(longitudinal) 효과를 평가하기 위한 준실험적 접근법으로, 시계열 설계 부류에서는 가장 대표적인 유형이다. 정책의 효과를 평가할 때 유리한 방법이기에 경제학이나 정책학 분야에서 많은 관심을 갖고 있다.

위의 다른 설계들이 평균의 차이라는 관점에서 접근한다면, 시계열 설계 부류는 추세(trend)의 변화라는 관점에서 접근한다. 굳이 나누자면 처치 이전의 사전검사들을 통제집단으로, 처치 이후의 사후검사들을 실험집단으로 보기도 한다. 또한 다른 설계들이 즉각적인 처치의 효과만을 도출하는 반면, 이런 류의 설계는 장기적인 처치의 효과까지도 파악하는 것이 가능하다.

일반적으로 처치 이전에 3회 이상, 처치 이후의 3회 이상의 장기적인 검사를 포함한다. 물론 그만큼 실험기간이 길어지기 때문에 특히나 아래에 언급할 타당도 문제가 큰 이슈가 될 수 있다. 오랜 시간이 걸린다는 것은 물론 실험적 처치가 얼마나 오랫동안 보장되는지를 알 수 있다는 장점이 있지만 한편으로는 온갖 뜻밖의 외생변인들이 혼입되도록 문을 활짝 열어놓는 것과도 같기 때문이다.

틈입 시계열 설계는 그 설계 상의 특수성만큼이나 데이터를 취급하고 분석하는 것도 까다로워진다. 한 예로 경제학계는 시계열 설계 하나만을 위한 통계적 분석 노하우를 어마어마하게 축적했다. 여기에 패널 분석까지 결합되면 그때부터는 통계학의 최전선에 서게 되며, 실제로 한국사회과학자료원(KOSSDA) 같은 곳에서도 시계열 및 패널 데이터에 대한 좌담회나 워크샵이 자주 열리고 있다.

틈입 시계열 설계에서 개입의 효과를 평가하려면 구간별 회귀분석(segmented regression analysis)을 쓰면 검정력이 높다. 114개월의 기간 동안의 의료정책에 대해 평가한 한 논문은 시계열 분석의 여러 방법을 연구에 이용하였다. 계절성이 있으면 각 월을 나타내는 지시변수를 생성해 처리해주고, 시계열 데이터에서는 자기상관성이나 이분산성으로 인해 iid 가정이 깨지기 쉬우니까 검정을 해야 한다. 자기상관성은 더빈-왓슨(Durbin-Watson) 통계량으로 검정해주고 이분산성은 라그랑주 승수법(LM) 검정과 Q검정으로 검정하면 된다.

그러나 틈입 시계열 설계에서 나타난 변화는, 물론 충분히 장기간에 걸쳐서 엄밀하게 반복측정을 했다면 그것만으로도 설득력이 크긴 하지만, 여전히 자연적인 변화의 양을 분리하는 것이 불가능하다. 예컨대 새로 개발된 취업지원 패키지를 도입한 지방자치단체에서 실업률이 감소했다 하더라도, 이는 때마침 호경기로 접어들고 있어서라고 볼 수도 있다. 아울러 상기했듯이 실험의 타당도를 저해하는 여러 이슈들을 걸러내야 한다는 것도 틈입 시계열 설계의 한계이다.

4.3. 통제 시계열 설계

Controlled Time-Series Design

EG→	O_e1	O_e2	O_e3	O_e4	X	O_e5	O_e6	O_e7	O_e8
CG→	O_c1	O_c2	O_c3	O_c4		O_c5	O_c6	O_c7	O_c8

시계열 설계에서 실험대상을 2개 이상 선정할 경우를 다중 시계열 설계(multiple time-series design)라고 하는데, 통제 시계열 설계는 통제집단과 실험집단 개념을 다중 시계열 설계에 접목시킨 사례이다. 즉 두 집단 중의 한쪽에만 처치를 가하고서 DID를 확인하는 방식을 시계열 설계 속에서 진행하는 것이다. 따라서 틈입 시계열 설계보다는 좀 더 실험성이 강화되었다고 볼 수 있다.

통제 시계열 설계는 상기된 틈입 시계열 설계의 한계점을 보완한다. 즉 자연적 변화량을 분리할 수 있고, 내적 타당도 문제에도 비교적 잘 대처할 수 있다. 여기서 중요한 것은 가능한 한 실험집단과 통제집단의 동질성을 입증할 수 있어야만 통제 시계열 설계의 장점이 더욱 뚜렷하게 드러난다는 것이다. 지방자치단체 공무원들이 벤치마킹을 부담스러워할 때 흔히 하는 말인 "그 동네는 그 동네고, 우리는 우리" 라는 말이 이를 잘 보여준다. 두 집단이 처한 여건이 다르다면 굳이 둘을 비교하는 의미가 없는 것이다.

통제 시계열 설계 역시 통계적 해석의 난이도가 높고 상당한 전문성을 요한다. 분석툴은 다중회귀분석(multiple regression)을 기초로 하는 각종 고급 회귀분석 기법들이 주가 된다. 또한 실험계획을 딱 봐도 알겠지만 연구의 규모와 그에 따르는 비용 및 시간의 압박은 위의 솔로몬 4집단 설계를 훌쩍 뛰어넘는다(…). 하지만 현실적으로 많은 정책들은 말 그대로 '반짝 효과' 를 내는 데 그치기 때문에, 시계열 설계를 활용한 장기적 실험의 중요성은 결코 작지 않다.

5. 기타 설계계획

분야에 따라서는 위보다 더 복잡하고 정교한 설계가 요구되기도 한다. 연구자들이 자기네 지식을 자랑(…)하고 싶어서가 아니라, 그 분야에서는 이렇게까지 하지 않으면 정말로 동료들 설득이 안 되는 연구주제가 종종 튀어나오기 때문이다. 사실상 모든 학문분야들이 자기네 학문의 목적에 따라서 정교하게 맞춰진 설계의 원칙을 갖고 있기에, 각 분야마다 방법론으로 박사학위를 받은 교수급 연구자들이 포진하여 이런 주제를 많이 연구하고 있으며 실험설계에 대한 논문도 많이 내고 있다.

개념 자체는 어렵지 않을지라도, 진짜 문제는 이런 설계를 통해 얻어진 데이터를 해석(interpret)할 논리가 어려워진다는 것이다. 이하 서술된 내용 역시 부정확한 점들이 많으므로, 구체적인 부분은 박사급 이상의 연구원이나 교수님에게 질문해 보자(…).

5.1. 요인 설계

factorial design[6]

n by n 2요인 설계		IV_I
n by n 2요인 설계		Level₁	Level₂	…	Level_n
IV_II	Level₁	Cell₁₁	Cell₁₂	…	Cell_1n
	Level₂	Cell₂₁	Cell₂₂	…	Cell_2n
	…	…	…	…	…
	Level_n	Cell_n1	Cell_n2	…	Cell_nn

교차 설계(crossed design)로서는 가장 유명하다. 독립변인이 2개 이상일 때, 각각의 독립변인이 갖는 모든 이산적 수준(level)들을 교차(cross)시켜서 상호 대응 관계로 만드는 설계. 독립변인이 여러 종류가 있을 때 쓸 수 있는 설계 중의 대표적인 설계라 할 수 있다. 두 독립변인이 서로 논리적 관련성을 가질 경우에는 내포 설계(nested design)[7]를 계획할 수도 있다. 흔히 2 by 2 또는 3 by 3 같은 요인 설계가 유명하기는 해도, 2 by 3처럼 직사각형 모양의 대응 관계도 얼마든지 만들 수 있다. 또한 위 사례처럼 2요인 설계를 채택하는 연구자들이 많긴 하지만, 독립변인을 3개 선정했다면 그때부터는 3요인 설계를 채택해야 한다.

기존의 다른 실험설계들은 주로 하나의 독립변인이 하나 또는 다수의 종속변인에게 끼치는 영향을 탐색하고자 했고, 이 과정에서 다른 외생변인들은 전부 통제함으로써 그 변인 하나의 효과를 엄격하게 뜯어내는 데 초점을 맞추었다. 하지만 현실적으로 딱 하나의 변인만이 중요하게 간주되는 현상은 그렇게 많지 않다. 요인 설계는 동시에 둘 이상의 독립변인이 하나 또는 다수의 종속변인에게 끼치는 영향이 궁금할 때 채택된다. 대신 그만큼 실험의 규모도 커지게 마련인데, 왜냐하면 각각의 셀이 전부 개별적인 실험집단으로 취급되기 때문이다(…). 특히 3요인 설계의 실험 규모는 2요인 설계의 2배에 달한다.

요인설계의 의의는 둘 이상의 독립변인이 제각기 갖는 효과인 주효과(main effect)뿐만 아니라 그들이 서로 결합하면서 새롭게 일으키는 상호작용 효과(interaction effect)를 함께 탐지하기에 적합한 설계라는 데 있다. 실제로 교수들을 비롯한 많은 연구자들은 실험자가 독립변인을 두 종류 선정했다는 사실을 통해서 '실험자가 상호작용 효과를 발견하고 싶어서일 것' 이라고 추측하는 경향이 있다. 즉 단순히 "둘 다 중요해 보여서" 선정한 게 아니라, "어느 하나가 다른 하나의 영향을 비틀 것 같아서" 선정했을 거라고 본다는 것이다.

상단의 설계 계획표에서 바깥쪽 부분을 다 잘라내고 2 by 2 요인 설계로 축약해 보자. 이 경우 주효과와 상호작용 효과는 굳이 통계적 분석을 거치지 않더라도 각각 다음과 같이 계산된다.

IV_I의 주효과: {(Cell₂₁－Cell₁₁)＋(Cell₂₂－Cell₁₂)}÷2
IV_II의 주효과: {(Cell₁₂－Cell₁₁)＋(Cell₂₂－Cell₂₁)}÷2
IV_I와 IV_II 간의 상호작용 효과: {(Cell₂₂－Cell₂₁)－(Cell₁₂－Cell₁₁)}÷2

주효과는 상대방 독립변인의 각 수준에 대응하여 나타나는 차이들을 평균한 것이라면, 상호작용 효과는 그 차이들에 서로 얼마나 차이가 나타나는지를 본다고 할 수 있다. 주효과와 상호작용 효과가 동시에 클 수도 있지만, 상호작용 효과가 커지면 커질수록 주효과가 작아질 수도 있다. 이런 경우를 은폐 효과(masking effect)라고도 한다. 이 때문에 여러 논문들은 상호작용 효과가 충분히 크다면 주효과의 보고를 생략하는 경우도 있다.

통계적 분석은 카이자승 분석이나 분산 분석을 활용하게 되지만, 요인 분석(factor analysis)은 활용하지 않는다. 이름이 비슷하기만 할 뿐, 분석의 목적과 용도가 전혀 다르다. 요인 분석은 어떤 하나의 추상적 개념 이면에 존재하리라 여겨지는 여러 의미단위들을 주관적으로 정리해서 보여주기 위한 분석도구다. 마찬가지로 요인 설계를 국내에 번역할 때 '요인분석적 설계' 따위로 번역할 경우에는 막대한 혼란이 초래될 수 있다.

대개의 통계적 분석이 그렇듯이, 요인 설계에서도 각각의 독립변인이 갖는 수준들을 어떻게 선택할 것인가가 중요한 문제가 된다.[8] 먼저 고정효과 모형(fixed effect model)은 모형의 모수가 무선적이지 않은 경우로 정의되며, 흔히는 실험자가 각 수준들을 직접 선택했다고 묘사된다. 여기서는 독립변인과 외생변인의 상관을 인정한다. 실험자가 선택하지 않은 제3의 수준에까지 분석 결과를 추론할 수는 없다는 건 단점. 지금까지 소개한 요인 설계 설명은 고정효과 모형을 상정했다고 보면 된다. 다음으로 임의효과 모형(random effect model)은 모형의 모수가 무선적인 경우로 정의되며, 흔히는 실험자가 각 수준들을 임의로 추출했다고 묘사된다. 여기서는 독립변인과 외생변인의 상관을 인정하지 않는다. 이때는 설계에 포함되지 않은 모든 수준으로까지 추론이 가능하다. 마지막으로 혼합효과 모형(mixed effect model)은 일부 독립변인은 고정효과, 일부는 임의효과를 갖는 경우이다.

5.2. 블록 설계

block design

블록화(blocking)는 통계학자 피셔의 기여로 인해 농학 분야에서 크게 발전한 외생변인 통제 방법이다. 실험을 위해 준비된 3개 이상의 비교집단들이 있을 때, 어떤 집단들 사이에 어떤 유사한 속성을 공유하고 있음이 밝혀진다면 그들을 하나의 블록으로 합쳐 놓아야 그 속성이 실험 결과를 오염시키는 사태를 피할 수 있다는 논리다.

5.2.1. 무선화 블록 설계

randomized block design

짧게 줄인 한자어로는 난괴법(亂塊法)이라고도 불린다. 외생변인을 통제하기 위해서 무선할당(random assignment) 다음으로 많이 쓰이는 것이 바로 블록화이고, 무선화 블록 설계는 두 가지 논리를 혼합한 것이다. 예컨대, 어떤 연구를 함에 있어 참가자의 키가 상당한 혼입을 유발할 것으로 우려된다고 가정해 보자. 그런데 참가자들을 잘 살펴보니, 160cm 대의 참가자들, 170cm 대의 참가자들, 180cm 대의 참가자들로 그럭저럭 나누어진다고 해 보자. 이 경우 '루저' 블록, '평민' 블록, '위너' 블록으로(…) 새롭게 3수준을 갖춘 변인을 생성할 수 있다. 이를 부득이 제2의 독립 변인처럼 다루면서, 각각의 블록들에다 당초 진행하려던 참가자 무선할당을 하는 것이다. 이 경우 기존의 이산적 독립변인 1개와 새롭게 덧붙은 블록을 교차시켜서 이원 공분산분석을 하면 데이터 분석이 가능하다.

블록으로 만들어지는 수준의 수와 기존 독립변인이 갖는 수준(혹은 실험집단들)의 수가 꼭 같다는 보장은 없다. 만일 블록 수준의 수가 독립변인의 수준 수보다 더 많을 경우, 어쩔 수 없이 하나의 블록 내에서 동일한 처치/조작/자극을 2회 이상 적용해야 하는 상황이 생긴다. 이는 통계적으로 재현성(replication)이 드러나는 지점이며, 이런 상황을 일반화된 무선화 블록 설계(GRBD; generalized randomized block design)라고 한다. 반면 4개 블록이 만들어졌는데 마침 실험집단도 4개인 등, 블록 수준의 수와 독립변인의 수준 수가 맞아떨어지는 경우도 있을 수 있다. 이때는 다른 것은 같지만 재현은 나타나지 않는다. 이런 상황을 무선화 완전 블록 설계(RCBD; randomized complete block design)라고 한다.

무선화 블록 설계가 일반적인 무선할당 설계보다 더 좋은 점은, 특수한 경우에는 더 납득하기 쉽고 합리적인 방식이라는 데 있다. 농학 분야의 예를 들어 보자. 밭 전(田)자 모양으로 4등분된 밭이 있고, 연구자들은 이제 밭에다 2가지의 비료를 적용해서 작물 산출량을 비교해 보려고 한다. 무선할당 설계에 따르자면, 4등분된 조각 중 무작위로 두 군데를 뽑아서 비료 A를 뿌리고, 나머지 두 군데에 비료 B를 뿌려야 할 것이다. 그런데 뜻밖에도 이 밭에는 문제가 있었다. '일조량' 이라는 제3의 변인이 혼입되고 있어서, 왼쪽 두 조각에는 볕이 잘 드는 반면 오른쪽 두 조각에는 볕이 안 들었던 것이다. 이런 상황에서는 오히려 무선할당 방식으로 비료 뿌릴 밭을 정하는 게 문제가 된다. 밭의 양쪽을 '양지' 와 '음지' 로 블록화하여, 왼쪽 위와 오른쪽 아래 조각에 비료 A를, 왼쪽 아래와 오른쪽 위 조각에 비료 B를 뿌리는 편이 훨씬 설득력이 있다.

엄격하게 말하자면 무선화 블록 설계는 기존 독립변인이 모수효과를 갖고 블록이 임의효과를 갖는 설계이다. 통계적으로 분석할 때 데이터의 구조모형을 찾는다든지 추정을 한다든지 하려면 모수효과와 임의효과가 다름을 이해하고 분석해야 한다.

5.2.2. 라틴 방진 설계

Latin square design

라틴 정방형 설계 혹은 라틴방격법이라고도 하며, 불완전 요인 설계(incomplete factorial design)로 분류되기도 한다. 주로 농학 분야에서 많이 쓰이며, 분산 분석을 활용하여 데이터를 분석한다. 독립변인 이외에 블록화된 변인이 2개 존재하고, 이들이 각기 3개 이상의 수준을 가질 때 효과적이다. 수준 간 곱연산으로 인하여 셀이 너무 많아지는 바람에 기존의 참가자 간 설계(between-participants design)를 따르는 요인 설계로는 답이 안 나오는 상황에서 출동하는 비장의 카드라고 할 수 있다.

본래는 레온하르트 오일러가 제시한 정사각형 행렬인 라틴 방진(Latin square)에서 유래한 설계이다.[9] 각 셀마다 알파벳들이 배정되는데, 이 알파벳은 독립변인의 각 수준에 대응한다. 만일 블록화된 변인이 3개일 경우에는 다시 그리스 문자를 추가한 그레코-라틴 방진 설계(Graeco-Latin square design)라는 변형 설계를 사용하며, 행렬 속의 모든 알파벳과 그리스 문자는 반드시 한 번씩은 함께 결합되는 셀이 존재한다.

알파벳을 참가자에 대응시킬 수도 있다. 5 by 5 라틴 방진 설계를 생각해 보자. 여기서는 블록화된 변인이 2가지이고, 둘 다 5개의 수준을 갖는다. (변인 간 상호작용 효과는 없다고 가정한다.) 그리고 어떠한 이유로 인해[10] 동일 참가자에게 반복측정을 피해야 하는 상황이라고 가정하자. 여기서 조심스런 연구자라면, 실험의 규모가 워낙 크다 보니 일부 참가자들이 자칫 어떤 수준에는 할당되지 못하고 누락되는 문제가 생길지도 모른다고 우려할 것이다. 이때 두 독립변인이 각각 행과 열에서 5개의 수준을 나타내는 5 by 5 정사각행렬을 떠올릴 수 있다. 그리고 실험 참가자들을 각각 A ~ E의 알파벳으로 이름붙이고, 5 by 5 행렬 속에 A에서 E까지의 알파벳들을 행 및 열 내에서 겹치지 않게 늘어놓은 뒤,[11] 늘어놓은 대로 참가자들을 투입하면 된다.

다른 종류의 참가자 내 설계(within-participant design)와 마찬가지로, 라틴 방진 설계는 소수의 참가자들만 확보하더라도 실험이 가능하다는 강력한 장점을 갖는다. 라틴 방진 설계는 n by n 크기의 설계에서 이론상 n명만 있어도 정상적인 실험이 가능하다.[12] 그런데 일반적으로 참가자 내 설계들이 반복측정으로 인한 타당도의 저해를 겪는 반면, 라틴 방진 설계는 반복측정을 함에도 불구하고 이로 인한 이월(carry-over)이 최소화된다는 방법론적 의의가 있다.

5.2.3. 불완전 블록 설계

incomplete block design

여기서 실질적으로 가장 유명한 것은 바로 균형화 불완전 블록 설계(BIBD; balanced incomplete block design)일 것이다. 관심이 되는 독립변인도 1개요, 블록화되어 덧붙은 변인도 1개이지만, 단순한 이원배치로는 각각의 변인이 갖는 수준들이 역시 너무 많을 때 대응할 만한 설계이다.

위의 GRBD나 RCBD와는 달리, BIBD에서는 여기저기 비어 있는 셀이 흩어져 있음을 볼 수 있다. 즉, 블록마다 일부 수준에 할당되지 못하고 누락되는 경우가 생긴다. 하지만 그 누락시킬 셀이 엉터리로 배정되어서는 안 된다. 이쪽 블록에서 1개 누락되었다면 저쪽 블록에서도 똑같이 1개 누락되어야 하고, 둘 이상의 블록이 독립변인에 있어 동일한 수준을 누락시켜서는 안 된다. 마찬가지로, 독립변인에서 둘 이상의 수준이 동일한 블록을 누락시켜서도 안 된다. 직관적으로 본다면 결국 비어 있는 셀을 '보기 좋게' 적절히 퍼뜨리는 셈이다.

불완전 블록 설계는 현실적으로 실험의 규모를 다소 축소해야 하는 압박이 있을 때 결과 데이터의 가치를 크게 훼손하지 않는다는 점에서 효과적이다. 참가자 인건비를 절감할 수도 있고, 실험의 효율성을 높여서 촉박한 연구 일정을 맞추기에도 좋다.

5.2.4. 분할구 설계

split-plot design

일부 독립변인을 주구(whole plot)로 지정하고, 다른 독립변인을 분할구(split-plot)로 지정하는 설계. 농학이나 공학 분야에서 자주 사용되는, 블록 설계와 유사한 실험설계이다. 여러 현실적 및 방법론적 한계로 인하여 제약된 무선화(restricted randomization)의 문제를 겪을 때의 대안으로서 제시되었다.

이유야 여럿이 있지만, 가장 대표적으로 분할구 설계가 필요해지는 상황은 일부 독립변인은 다양한 수준을 조성하여 실험적 처치를 하는 것이 쉽지만(easy-to-change), 다른 독립변인은 그렇게 당장 수준을 다양화하고 서로 다른 처치를 하는 것이 어려울 때이다(hard-to-change). 예컨대 토질 변인에 관심이 있는 요인 설계 또는 블록 설계의 경우, 실험자가 실험을 한답시고 밭의 토질을 그렇게 마음대로 바꾸기가 어렵다(…). 그런 변인들은 변화시킨다 해도 아주 오랜 시간이 소요될 것이고, 실험의 타당도는 감소할 것이다.

이때 분할구 설계는 더 변화하기 어려운 독립변인을 주구로 먼저 지정하고, 필요에 따라 무선할당법 또는 무선화 블록 설계를 적용하여 각 수준들을 배치한다. 그 다음으로 더 변화하기 쉬운 독립변인을 분할구로 지정하고, 각각의 주구를 쪼개어 그 내부에 분할구의 여러 수준들을 무선할당법 또는 무선화 블록 설계로 배치한다. 블록화라는 관점에서 보면 주구의 성격이 블록과 꽤나 유사해 보이긴 하지만, 엄밀히 말하자면 서로 아주 같다고는 볼 수 없다.

각각의 수준에 따라서 돌아가면서 실험적 처치를 받을 때, 우선적으로 주구 간의 실험순서를 결정하고, 그 다음에 주구 내의 분할구 간에서 실험순서가 다시 결정된다. 그래서 각각의 분할구에는 저마다의 처치의 조합(treatment combination)이 존재한다. 이때 실험 단위(experimental unit)에 있어서 한 독립변인의 단위는 다른 독립변인의 단위보다 더 높으며, 실험 단위 사이에 내포 관계가 성립한다.

비슷한 다른 설계로 분할집구 설계(strip-plot design)라는 것도 있는데, 이 역시 제약된 무선화 상황에서 사용되기는 하지만 이번에는 내포가 아니라 교차의 논리로 접근한다. 요인 설계가 그렇듯이, 분할집구 설계는 두 독립변인을 교차시켰기 때문에 상호작용 효과를 판별하는 데 매우 뛰어나다. 또한 현장에서 실험자가 각 집단들을 관리하는 데에도 통상의 분할구 설계보다 더 직관적인 계획이기에 효율성이 높다.

6. 실험설계의 내적 타당도 문제

신뢰도와 타당도 문서에서 설명하듯이, 내적 타당도(internal validity)는 실험을 통해서 얻어진 결과 데이터가 정말로 그 실험이 의도한 의미를 담고 있는지에 대한 개념이다. 내적 타당도가 높다면 연구자는 그 결과 데이터를 신뢰하고 자신 있게 공표할 수 있지만, 내적 타당도가 낮은 실험 데이터는 자칫 연구자를 오도(mislead)할 수 있으며 심하게는 연구 자체를 망칠 수도 있다. 외적 타당도가 일반화에 관련된 문제이기 때문에 실험설계가 어떠한지와는 다소 무관한 반면, 내적 타당도는 실험을 설계하는 과정 하나하나에 의해 매번 약화될 위협을 받는다. 그래서 좋은 실험설계는 일반적으로 내적 타당도가 높고, 내적 타당도를 낮출 수 있는 위협의 규모를 수치화하여 분리해 낼 수도 있다.

연구자의 입장에서 아래에 설명할 각종 위협요인들은 대체로 혼입변인(confounding variable)으로 취급된다. 일반적인 혼입변인들은 가능한 한 통제(control)하는 것이 이상적이지만, 아래의 위협요인들을 통제하려고 드는 것은 현실적으로 불가능할 때가 많다. 따라서 연구자들로서는 아래의 위협요인들이 일으킨 왜곡의 규모를 연구주제와 관련된 효과의 크기로부터 분리하는 것이 목표가 된다. 특히 사회과학에서는 그 연구 특수성으로 인하여 개별 위협요인들이 갖는 의미가 굉장히 커지며, 기초연구보다는 응용연구일 때 특히 중요해진다.

역사(history): 사전검사와 사후검사 사이에 실험 외적으로 어떤 뜻밖의 사건이 발생했는데, 그 사건이 결과적으로는 실험에 영향을 주게 되는 상황을 말한다. 예를 들어 운전자 안전의식 캠페인이 교통사고 건수에 끼치는 영향을 실험하려고 할 때, 뜻밖에도 실험 도중에 음주운전 집중단속 기간이 이루어져서 교통사고가 줄어들게 될 수도 있다.
성숙(maturation): 실험에 소요되는 시간에 의해 사후검사 결과가 영향을 받는 경우로서, 시간의 경과가 실험에 편성된 집단의 변화를 유발할 때 문제가 된다. 성숙이 문제가 되는 경우는, 한창 자라고 있는 어린이 및 청소년들을 대상으로 신체적 및 정신적 변화를 측정하거나, 노화로 인해 기력이 쇠퇴하는 노인들을 대상으로 신체적 및 정신적 변화를 측정할 때이다. 이런 참가자들을 연구하는 학문에서는 성숙 요인에 대한 대비가 필요하다. 아울러, 장기간의 실험으로 인한 참가자들의 피로감 역시 여기에 속할 수 있다.
검사효과(testing effect): 이전에 실시하는 검사에 참여하는 경험이 이후에 실시하는 검사 결과를 왜곡시키는 현상으로, 두 번 이상의 검사를 진행하는 실험설계에서 나타날 수 있다. 상기했듯이 통제집단 사전사후 설계의 주된 단점이기도 하며, 반복측정법 및 참가자 내 설계에서도 검사효과에 대한 대비가 필요하다. 이때 주검사효과[13]와 상호작용 검사효과[14]는 솔로몬 4집단 설계 등으로 각각 파악이 가능하다. 인식 조사나 태도변화 실험을 자주 하는 (사회)심리학 및 사회학 분야에서 중요하다. 이 개념은 개입성(obtrusiveness)이라는 다른 연구방법론 용어와도 좋은 대비가 될 수 있다.

이월 효과(carry-over effect): 이전 검사 경험으로 인해 발생한 어떤 효과가 이후 검사 경험 시점까지 잔존함으로써 이후 검사 데이터를 왜곡시키는 경우를 말한다. 이월된 효과가 완전히 사라질 수 있도록 두 검사 사이에 충분한 시간적 간격을 둘 필요가 있다.
학습 효과(learning effect): 일반인들이 흔히 말하는 그 '학습효과' 의 의미와도 상통한다. 검사 경험에 대해서 학습이 이루어짐으로써 전보다 더 수월하고 빠르게 반응할 수 있게 되는 경우를 말한다. 학습된 것이 망각될 때 학습 효과는 사라지게 된다. 각종 시험이나 능력평가, 지능검사 등을 다루는 교육학이나 임상 분야에서 관심을 갖고 있다.
순서 효과(order effect): 서로 다른 종류의 여러 검사들을 참가자 내에서 순환적으로 경험시킬 경우, 검사가 제시되는 순서에 따라서 이후 시점의 검사 결과가 왜곡되는 경우를 말한다. 사람은 앞서 경험에 비추어서 이후의 경험을 의미화하기에 이런 일이 발생한다. 참가자마다 전부 서로 다른 순서로 검사를 받도록 무선화하는 역균형화(counter-balancing) 기법이 이에 대한 대안으로 제시되어 있다.

측정도구(instrumentation): 사전검사와 사후검사에서 서로 다른 형태로 측정이 이루어짐으로써 발생하게 되는 혼입을 말한다. 물론 척도나 측정 수준에서의 변화는 정말 불가피한 경우가 아니면 권장되지 않지만, 의외로 담당 연구자가 변경되거나 하는 인사상의 이유로 타당도가 저해되기도 한다. 사람마다 말투나 표정, 태도, 인상은 다 다르기 때문이다. 그래서 프로젝트 담당자가 실험 도중에 퇴사했다거나, 예전에 진행하던 연구원이 학위를 받고 졸업해 나갔다거나 하는 상황에서는 이로 인한 실험 타당도의 저해를 미리 가늠해 볼 필요가 있다.
통계적 회귀(statistical regression): 사전검사와 사후검사 사이에서 나타난 차이는, 사실 실험적 처치에 의한 것이 아니라 단순히 둘 중 하나가 극단적 데이터이기 때문일 수도 있다. 사전검사에서 원래라면 있을 법하지 않은 데이터가 우연히 얻어졌다 할지라도, 사후검사에서는 결국 더 일반적인 데이터로 회귀할 수밖에 없고, 그때 발생하는 차이는 통계적으로 의미가 없다는 것이다. 예컨대 중간고사를 유독 제대로 망친 학생이 이후 특별 교육 프로그램을 이수하고 기말고사에서 좋은 성적을 냈다면, 그 학생은 원래 자기 점수대로 되돌아왔을 뿐이며 교육 프로그램의 효과와는 무관하다고도 볼 수 있다. 이처럼 통계적 회귀의 가능성은 교육학 분야에서 중요하게 다루어진다.
소멸(mortality): 사전검사 이후 사후검사 이전의 시기 동안 참가자들이 중도포기 또는 탈락하는 상황을 의미한다. 물론 문자 그대로 정말로 연로한 참가자들이 돌아가셔서 탈락되는 경우도 있겠으나, 그보다는 실험이 길어서, 실험 방식이 생각보다 복잡해서, 생업이 바빠서, 단순변심으로, 갑자기 연락이 두절되어서(…)[15] 같은 다양한 원인들이 있다. 소멸이 문제가 되는 것은, 이렇게 탈락되는 참가자들은 탈락하지 않은 참가자들과는 성취의욕이 낮다거나 하는 측면에서 중요하게 달라지게 되고, 결과적으로 실험집단이 통제집단과 이질화될 가능성이 있기 때문이다.
선택 편향(selection bias): 제 아무리 연구자가 무선할당을 하고 집단 간 동질화를 시도한다 해도, 만일 모든 참가자들이 동일한 특수성을 공유하고 있다면 여전히 선택 편향 문제는 존재할 수 있다. 예컨대 이타성을 연구하는 심리학 실험에 자발적으로 참여한 참가자들은 이미 전반적으로 이타성이 높기 때문에 참여를 결정한 것일 수 있다. 또 다른 예로, 도박중독 방지 프로그램에 자발적으로 참여한 사람들은 이미 어느 정도 경각심이 높기 때문에 유독 더 탁월한 중독 예방 효과를 보일 수 있다.

7. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px"		<colbgcolor=#C1F3FF>📝 서론	<colbgcolor=#F7FFFF,#191919>사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론(이론적 조망) · 연구윤리
🔍 조사방법론 I	변인 · 정의 · 상관관계와 인과관계 · 실험(실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
🔍 조사방법론 I	자료 · 자료수집(면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II	표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계	통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법(분산분석 · 회귀분석)

👔 공인 자격증	사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서	연구방법론 관련 정보
^{상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨}

}}}}}}}}} ||

[1] 참고로 이 문헌에는 통계적 검정의 논리를 설명하기 위한 유명한 예시인 "차 마시는 여성"(Lady tasting tea)의 이야기도 함께 실려 있다. 만일 어떤 여성이 자기 자신은 밀크티의 맛을 보면 홍차와 우유 중 어느 쪽을 먼저 넣었는지를 정확하게 알아맞힐 수 있다고 주장한다면, 그 여성의 주장이 사실인지를 검정하기 위한 귀무가설과 대립가설은 어떻게 세워져야 하느냐는 이야기로, 실제로 많은 사회통계 강의 중에도 소개되는 단순명료한 예시다.[2] 사회과학 몇몇 분야들에서는 조작(manipulation)이라고도 한다.[3] 신약과 종래의 약을 비교하거나, 무처치 집단과는 별개로 편성하는 위약집단의 활용, 다수의 신약 후보들의 효과를 비교하거나 등등의 목적으로 실험집단을 여럿 편성할 수 있다.[4] 예컨대 어떤 시설에서 3월~11월 동안 실시되는 재활 프로그램의 치료효과를 파악할 준비를 한다고 가정하자. 그런데 직원들의 업무 과중으로 인해 실험 준비가 차일피일 늦어졌고, 마침내 실험의 첫 삽을 떴을 때는 이미 5월이 되어 있었다(…). 이 경우 사전검사는 물 건너 간 거다. 의외로 현장에서는 이런 일들이 굉장히 많으며 이 실험이 연구용역일 경우에는 (입찰이라든지 과업협의라든지 하다 보면) 특히 그렇다.[5] 무작위 표집, 실험집단과 통제집단을 설정, 독립변수, 종속변수 측정 등.[6] 유독 이 설계에서는 독립변인을 요인(factor)이라고 부른다. 이는 종속변인에 영향을 끼칠 것이라고 믿어지는 독립변인을 의미한다. 그러나 본 문서에서는 혼란을 방지하기 위해 '독립변인' 용어를 일관되게 사용하기로 하겠다.[7] 분야에 따라서는 배속 설계라고도 한다. 한 변인이 다른 변인의 하위 관계에 놓이는 경우를 말한다.[8] 통계적 방법을 어느 정도 이상 깊게 파고든다면 의외로 자주 접하게 될 이슈다. 이것은 그 중요성에도 불구하고 대개의 사회통계 강의 커리큘럼에는 잘 포함되지 않거나, 엄밀하게 전달되지 못하고 있는 게 현실이다. 그런 면에서는 자유도 개념과도 비슷한 처지.[9] 36명의 군인이 있고 이들이 서로 다른 6개의 계급과 6개의 부대에 속해 있다고 할 때, 6 by 6 정사각형의 행렬 속에 이들을 집어넣을 경우, 과연 각 행과 각 열이 모두 서로 다른 계급과 부대로 채워질 수 있는가의 문제를 다루면서 시작되었다. 여기서 각 셀마다 라틴 문자(알파벳)를 하나씩 집어넣었던 관행 때문에 이름이 이렇게 붙었다.[10] 상단에 설명된 검사효과, 즉 측정을 시도하는 것 자체가 결과 데이터에 오염을 불러일으키는 경우 등이 있다.[11] 5 by 5 행렬의 경우 56가지의 서로 다른 배정이 가능하며, 6 by 6 행렬에서는 무려 9,408가지가 가능하다.[12] 물론 이 정도의 소표본에서는 참가자 특성이 새로운 혼입변인으로 작용하게 된다.[13] 첫 검사 경험에서는 낯설었던 것이 이후 검사 경험에서는 점차 친숙해지는 효과.[14] 첫 검사 경험에서는 뚜렷한 반응이 없었으나 이후 검사 경험에서는 점차 반응이 민감하고 명확해지는 효과.[15] 특히 교육학 분야에서 학교밖 청소년이나 학업부진아를 연구하는 사람들은 이런 문제를 많이 겪곤 한다. 이 분야에서는 참가자가 연구 참여 도중에 갑자기 자퇴한다거나 가출한다거나(…) 하는 사태를 반드시 예상할 필요가 있다.