나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2022-11-03 08:15:41

조작 점검

1. 설명2. 종류와 활용3. 대안 : 탐색적 검사4. 관련 문서


Manipulation Checks (M-Checks)

[1][2]

1. 설명

사회심리학 등의 실험법을 활용하는 몇몇 사회과학 분야에서 도입한 실험 연구 방법으로, 독립 변인이 의도한 대로 잘 작동하여 참가자들이 각 조건에 정확히 할당되었는지 확인함으로써 그 연구의 타당도(validity)를 입증하는 방법론적 장치이다. 여기서 조작(manipulation)은 독립 변인에 실험적인 처치(treatment)를 가한다는 의미의 사회과학 용어이다. 최초의 개념적 고안은 1953년으로, 저 유명한 인지부조화 개념을 만들어 낸 사회심리학자 레온 페스팅어(L.Festinger)가 바로 그 주인공이다.

조작 점검은 과학적 방법을 연성과학적인 환경에서 최대한 설득력 있게 활용하려는 시도이다. 따라서 똑같이 실험연구를 한다고 해서 모든 학문 분야들에서 조작 점검이 필요한 것은 아니다. 조작 점검은 "인간의 마음 속에서 벌어지는 일들을 연구한다" 고 공언하면서도 그것을 객관적이고 실증적인 방식으로 접근하고자 하는 심리학계에게는 당연히 필수적이다. 하지만 어떤 분야들에서는 아예 이런 개념 자체가 존재한다는 사실을 모르는 경우도 있고, 어떤 분야에서는 연구목적에 따라 필요할 수도 있고 아닐 수도 있다. 어떤 경우에든 이 역시 방법론적 이슈이므로, 학문적 대원칙이라기보다는 그저 학계 동료들을 좀 더 잘 설득하기 위한 상황적인 방편일 따름이다.

조작 점검의 필요성에 대해 간략히 예를 들어 보자. 먼저 의학이나 약학의 경우, 조작 점검 자체가 사실 불필요한 경우가 많다. 예컨대 기침약 A와 플라시보 B를 두고 임상실험을 한다고 할 때, 연구자가 독립 변인에 관해서 신경쓸 일은 그저 천식을 앓고 있는 참가자들을 무작위로 둘로 나누고, 한쪽에게는 A를 주고 다른 한쪽에게는 B를 주면 된다. 투약 및 데이터 코딩 과정에서 헷갈리지만 않는다면 이것만으로도 참가자를 각 조건에 할당하는 일은 끝난다. 즉, 조건 할당이 계획대로 잘 이루어졌는지 검토할 중요성 자체가 크지 않다. 적어도 이 정도 설계에서라면, 기침 반응의 측정만 제대로 해서 비교하면 되는 것이다.

하지만 인간의 심리에 대해 연구할 때상황이 더 미묘해진다. 예컨대 공포 영화를 통해 유발된 공포감이 커플 간의 친밀도를 높이는지 실험적으로 입증해 본다고 하자. 이 경우 사전에 친밀도를 미리 측정해 둔 참가자 커플들을 둘로 나누어, 한쪽은 공포 영화를 보게 하고, 다른 쪽은 자연 다큐멘터리나 저녁 뉴스를 같은 시간 동안 보게 할 수 있다. 그리고 시청 후의 서로에 대한 태도나 감정을 질문지법 또는 생리적 반응으로 다시 측정하게 될 것이다. 여기까지는 모범적인 실험적 방법론인데, 연구 결과, 아무런 차이가 나타나지 않았다고 해 보자. 이 결과를 어떻게 받아들여야 할까?

일차적으로 떠오르는 것은 가장 간단한 형태의 가설 기각, 즉 "공포 영화는 커플 간의 친밀도를 높이는 데 있어서 자연 다큐멘터리나 저녁 뉴스에 비해 통계적으로 현저한 차이가 없다" 쪽으로 결론을 도출해야 할 것 같다. 하지만 신중한 연구자라면 누구나 지적하듯이, "애초에 공포 영화를 본 사람들이 공포감을 느꼈다는 보장이 있어?" 라는 반박이 나올 수 있다. 참가자들은 어쩌면 영화를 보는 동안 겁먹기는커녕 킥킥거리고 비웃었을지도 모르며(…) 이 때문에 양쪽 수치에서 의미 있는 차이가 없는 귀무효과(null effect)가 발생했다는 것이다. 그렇다면 이를 근거로 가설을 기각하는 것이 도리어 거짓부정(false negative)이 되어 버리고 만다. 이 데이터로는 여전히 아무것도 확신하지 못하는 것이다.

조작 점검은 바로 이런 난맥상 속에서 등장했다. 만일, 영화 클라이맥스 시점에서 참가자들의 심박 수를 연구자가 이미 측정해 놓았었고, 공포 영화 조건에서는 (vs. 자연 다큐멘터리 조건보다) 통계적으로 현저하게 더 높은 심박 수가 측정되었다면 어떨까? 연구자는 이를 근거로 삼아서 "이것 봐라, 실제로 참가자들이 내 의도대로 공포를 느낀 게 맞았다, 그러니까 이 참가자들은 공포감에도 불구하고 친밀도가 증가하지 않은 거다" 라고 당당히 큰소리칠 수 있다. 귀무효과가 드디어 학문적인 해석 상의 의미를 갖게 되는 순간이다.

감이 좋거나 학문적 논리에 익숙하다면 위에서 실시한 조작 점검이 구성 타당도(construct validity)를 확보하고자 하는 목적이었음을 눈치챘을 것이다. 즉, 조작 점검은 연구자가 의도했던 특정 개념적 덩어리를 (여기서는 '공포감' 을) 독립 변인의 실험적 조작이 (여기서는 '공포 영화 감상' 이) 얼마나 정확하게 가리키고 있는지에 대한 타당도를 보장한다. 이것은 "말랑말랑한" 현상을 주제로 엄격한 실험을 하고자 하는 모든 연구자들이 반드시 지켜야 할 덕목이다. 학계에서는 이런 덕목을 '이론에 비추어 실질적'(theoretically substantive)이라고 표현한다.

물론 조작 점검은 어디까지나 연구방법론적인 제안인 만큼 어마어마한 공격과 비판을 받았으며 이에 대한 디펜스도 굉장히 많이 이루어졌다. 이러한 공방 중에서 가장 흔히 제기되는 비판은 그 조작 점검의 측정 자체가 연구 절차를 오염시킨다는 것이다. 이를 검사효과(testing effect)라고 부른다. 앞의 공포 영화의 예시로 다시 돌아가 보자. 자기 가슴에 심박 측정 패드를 부착하고 공포 영화를 본다면, 과연 참가자들은 평소처럼 편안히 영화를 감상할 수 있을까? 어떤 참가자들은 감이 아주 좋아서, 이 연구가 무엇을 알아보려는 것인지 심박 측정 패드만 보고도 바로 눈치챌지도 모른다. 이들은 감상 후의 설문지에서도 자기 연인을 괜히 더 사랑스럽다고 응답할지도 모른다.

이에 대한 디펜스는 의외로 간단한데, 그 중 하나는 측정 시점을 달리하면 된다는 것이다. 종속 변인을 측정한 이후에 참가자의 조작이 제대로 이루어진 것인지 측정해도 늦지는 않다는 것. 이는 질문지법으로 조작 점검을 할 때 특히 중요하다. 이처럼 여러 척도들을 서로 다른 순서로 배치했을 때 응답이 달라지는 상황을 순서효과(order effect)라고 부른다. 다른 종류의 디펜스는 조작 점검에 익숙해지도록 하거나 충분한 시간적 이격을 둔다는 논리다. 위의 공포 영화 예시로 돌아가 보자. 연구자는 미리 패드를 부착해 놓고, 참가자들이 그것에 충분히 익숙해질 때까지 다양한 일상적 활동들을 하게 했다가, 마침내 편안하게 지낼 때쯤 되면 그때 영화를 상영할 수 있다.

또 다른 비판은, 종속 변인의 귀무효과를 설득력 있게 해석하기 위해 조작 점검을 실시했는데, 이번에는 조작 점검에서의 귀무효과를 설득력 있게 해석할 길이 없다는 것이다(…). 조작 점검이 실패한 상황을 상상해 보자. 공포 영화를 봤건 자연 다큐멘터리를 봤건, 심박수는 어느 쪽에서도 정상치 이상으로 높아지지 않은 것이다. 이걸 어떻게 받아들여야 할까? 당연히 종속 변인 데이터는 1g 의 의미도 갖지 못한다(…). 대부분의 경우, 연구자는 이 데이터를 싹 다 버려야 한다. 하지만 그렇다고 해서 자신 있게 "이 조작은 쓰레기야!" 라고 말하기에도 어려움이 남는다. 정말로 조작 자체가 실패한 건지, 아니면 조작은 성공했는데 조작 점검을 할 측정 척도가 부적합해서인지 확인하기 어렵기 때문이다. 예컨대 참가자들은 심장이 마구 뛰려 할 때마다 옆에 있는 애인에게 의지하면서 호흡을 가다듬었을지도 모르는 일이다. 분명히 공포감을 '경험' 했지만, 생리학적 데이터에서는 탐지되지 못한 것이다.

이것만큼은 아직까지는 확고한 디펜스가 나오지 못하고 있다(…). 방법론 관련 논문들을 찾아보면 이 가능성에 대해 진지하게 문제제기가 된 것이 의외로 2010년대 후반부터여서, 매우 최신의 논쟁이기 때문. 이런 '적합한 측정' 문제는 기존의 종속 변인의 귀무효과 해석에서도 오래 전부터 꾸준히 제기되던 이슈였고, 조작 점검은 그 해석의 문제를 해결하려고 등장했지만 문제를 해결하기보다는 도리어 키워 놓았다. 여전히 똑같은 논리적 함정에서 벗어나지 못했기 때문이다. 그렇기 때문에 그 무렵부터 점차적으로 "조작 점검에 대해서 관행적으로 생각할 게 아니라 좀 더 엄밀하게 들여다보자" 의 비판적이고 자성적인 목소리가 힘을 얻고 있는 중이다.

2. 종류와 활용

조작 점검을 종류로 구분할 경우, 편의를 위하여 실험설계를 위한 조작 점검의 차원에서 구분할 수 있고, 통계분석을 위한 조작 점검의 차원에서 구분할 수 있다.

먼저 실험설계 과정에서 타당도를 높이기 위하여 조작 점검을 배치할 수 있다. 이런 형태로 쓰이는 조작 점검은, 문헌에 따르면 네 종류로 구분이 가능하다.

다음으로, 통계분석을 돕기 위하여 조작 점검을 배치할 수 있다. 이런 형태로 쓰이는 조작 점검은 두 종류로 설명할 수 있다.

3. 대안 : 탐색적 검사

Pilot Testing

위의 공포 영화 예시로 다시 돌아가 보자. 사실, 연구자는 본 연구를 진행할 때 참가자들에게 굳이 심박 측정 패드를 부착할 필요가 없었다. 연구자에게 시간과 예산이 충분하다면(…), 미리 탐색적 검사를 실시하여 그것을 대신 논문에 보고할 수 있는 것이다. 즉, 이 연구자는 따로 표본 한 세트를 무선표집하여 그들이 공포 영화 혹은 자연 다큐멘터리를 보는 동안에 심박 측정 패드를 부착하고, 여기서 통계적으로 현저한 차이가 나타나게 되면 비로소 새로 표본을 모아서 본 연구를 실시하는 것이다. 탐색적 검사에서 이미 "이 공포 영화는 심박 수를 증가시킨다, 따라서 성공적으로 공포감을 준다!" 는 확신을 얻었기 때문에, 동일한 영화 클립을 활용하는 이상 구태여 또 심박을 측정할 이유가 없게 되는 것.

탐색적 검사의 장점은, 그것이 조작 점검의 기존의 문제들을 상당 부분 회피할 수 있다는 것이다. 특히, 조작 점검의 문제 중 하나인 요구특성과 검사효과의 가능성으로부터 자유롭다. 표본 자체가 서로 달라져서, 탐색적 검사에서 종속 변인으로 쓰였던 측정이 본 연구에서 조작 점검의 근거가 되고, 본 연구의 종속 변인으로 쓰이는 측정은 탐색적 검사에서는 아예 생략된다. 요구특성과 검사효과는 종속 변인의 측정을 오염시킨다는 지적을 받는데, 이 문제에서 벗어날 수 있는 하나의 방법인 것이다.

Ejelöv & Luke(2020)의 문헌에 따르면, 사회심리학계에서 탐색적 검사는 메이저한 방식이 아니며, 단지 13.5% 정도의 적은 문헌만이 탐색적 검사 결과를 보고하고 있다고 한다. 그 외에는 조작 점검 결과를 보고하는 문헌들이라고. 현실적으로 많은 연구들이 연구비가 부족한 환경에서 수행되기 때문에, 표본을 원하는 대로 왕창 모아서 마음껏 연구할 수 있어야 하는 탐색적 검사는 엄두가 나지 않기 때문인 것으로 보인다. 그나마 탐색적 검사 결과를 보고한 문헌들에서도 표본 크기의 중위수가 72.5명에 그칠 만큼 소표본이라고 하는데, 이것도 같은 이유일 것이다.

4. 관련 문서


[1] 본 문서는 r.1 버전 기준으로 Ejelöv & Luke(2020)의 문헌을 바탕으로 하였다. 이 저자들은 이 링크에서 조작 점검의 학술적 가이드라인을 제안하기도 했다. 서지정보는 다음 각주의 인용을 볼 것.[2] Ejelöv, E., & Luke, T. J. (2020). “Rarely safe to assume”: Evaluating the use and interpretation of manipulation checks in experimental social psychology. Journal of experimental social psychology, 87, 103937.

분류