나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2022-10-27 00:35:34

질적 분석 소프트웨어


CAQDAS (Computer-Asisted Qualitative Data Analysis Software)

1. 소개2. 필요성과 장단점3. 목록4. 활용
4.1. 시각화 사례
5. 관련 문서

1. 소개

정확히 말하자면 "컴퓨터로 지원되는 질적 데이터 분석용 소프트웨어". 말 그대로, 컴퓨터를 활용하여 질적 데이터를 분석하고자 하는 특수한 목적으로 제작된 S/W들을 의미한다. 양적 연구에서의 SPSS나 SAS, Mplus 등에 대응하는 것들이다. 대략 1980년대 후반부터 주목 받기 시작했다.

CAQDAS는 사회과학의 다양한 영역들에서 적용되고 있으나, 그 중에서도 질적 연구의 수요가 큰 분야들에서 특히 효과적이다. 예컨대 간호학, 교육학, 사회복지학, 커뮤니케이션학, 문화인류학, 정책학, 여성학 등등의 여러 응용학문들에서 사용되고 있으며, 전통적으로 양적 연구가 강세라고 할 수 있는 심리학, 경영학, 행정학 등에서도 연구주제에 따라서 보완적으로 접목이 시도되고 있다. 연구방법상으로는 면접법, 개방형 질문지법, 또는 크롤링(crawling)을 통해 얻어진 데이터를 분석하는 용도로 쓰인다.

일부 CAQDAS들은 양적 연구와 질적 연구를 모두 포괄하는 혼합연구를 지원하기도 하며, 스케일이 좀 커지면 빅 데이터 프로세싱 용도로 사용되는 솔루션...까지는 아니어도 네트워크 이론을 기반으로 하는 비정형 텍스트 분석, 시맨틱 분석까지 수행할 수 있다. 그래도 본연의 임무는 코딩(coding), 쿼리(query), 시각화(visualization), 네트워킹(networking), 탐색(exploring), 군집화(clustering) 등등을 거론해 볼 수 있다. 이를 통해 수행 가능한 질적 분석은 내용 분석(content analysis), 텍스트 분석(text analysis), 군집 분석(cluster analysis) 등이 있다.

물론 좋은 소프트웨어를 쓴다고 해서 좋은 논문이 나오리라는 보장은 없다. 워드프로세서로 쓴 글이 원고지에 쓴 글보다 항상 낫다고 볼 수 없듯이,[1] 어차피 질적 연구에서는 연구자의 통찰과 문제의식이 연구의 질을 가장 크게 좌우하며 그 외의 것들은 편의를 위한 보조적인 수단이기 때문이다. 그럼에도 불구하고 질적 연구 자체가 워낙에 노가다가 지독하기 때문에(…)[2] 아직도 연구자들은 컴퓨터를 통해서 조금이라도 더 편하게 작업할 수 없을까 하는 아쉬움을 떨치지 못하고 있는 중이다.

2. 필요성과 장단점

위에서도 언급했지만 질적 연구의 체계화와 효율화를 위해 CAQDAS가 고안되었던 만큼, 질적 연구는 연구자를 매우매우 고통스럽게 만든다(…). 양적 연구의 경우 일괄적으로 수치화된 자료를 수집하고, 설령 수작업으로 엑셀에 코딩을 한다 해도 그만하면 많이 양호한 셈이다. 질적 연구의 경우 코딩 과정에서 저 악명 높은 수작업, 즉 "오려붙이기"(cut-and-paste)를 영혼이 빠져나간 채 머리를 비우고 하다 보면 논문 역시 알맹이 없는 빈껍데기가 되기 십상이라, 이 때문에 자료수집 이후 이를 바탕으로 이론을 세우고 통찰을 이끌어내기까지의 과정이 매우 길고 험난함에도 불구하고 그 동안 내내 정신줄을 똑바로 잡고 있어야 한다는 문제가 있다. 하지만 컴퓨터의 도움을 받는다면 단순 노가다성 작업은 컴퓨터가 대신 해 줄 수 있을 거라는 가능성이 있었고, 남은 것은 분석 결과를 토대로 연구자가 통찰을 이끌어내기만 하면 되는 것이었다. 심지어 한 논문의 각주에 따르면[3] 질적 연구의 자료분석 시간은 자료수집 시간보다 6배의 시간이 걸린다고 한다.

질적 연구에도 분석의 과정, 즉 질적 분석(qualitative analysis)은 필요하다. 여기서는 통계적인 기준점을 비교하는 것이 아니라, 주어진 자료를 분류하고 결합하며 의미를 찾아가는 과정이 포함된다. 양적 분석이 가설을 "검정"(test)한다면, 질적 분석은 가설을 "개발"(develop)한다. 연구자는 여기서 자료에 의미를 부여하고, 시사성을 갖게 하고, 연구자의 목소리를 덧씌워서, 마침내 그 논문이 세상을 향해 자신이 외치는 울림이 되게 한다. 이렇게 말하면 이게 뭔 뜬구름 잡는 소린가 싶을 텐데, 실제로도 그렇다(…). 양적 연구에 익숙한 많은 연구자들이 질적 연구 특강이나 세미나를 접하고 엄청난 혼돈에 빠지는데, 연구자 본인의 평소 성찰과 내공만 가지고서 대량의 텍스트와 관찰 자료로부터 의미 있는 무언가를 뽑아내야 하기 때문이다.[4] CAQDAS의 도입은 연구자의 이러한 개입을 해치지 않으면서도, 연구자가 불필요하게 시간과 정력을 낭비할 만한 문제들을 줄여줄 것으로 기대되었다.

또한 질적 연구가 실증주의의 한계를 인식하고 고안된 것인 만큼 수치화, 정량화, 계량화된 분석을 거부하며, 질적 연구의 타당성은 오롯이 연구자의 식견과 경험, 전문성, 숙련도, 통찰력, 생애사적 지혜에 크게 의존하게 된다는 특징이 있는데, 그러다 보니 필연적으로 그런 주관적인 부분을 제거해야만 학계의 동료들을 설득할 수 있다는 새로운 문제가 발생했다.[5] 그렇기에 어떤 질적 연구자들은 "컴퓨터의 도움을 받아서 자료를 체계적으로 정리한다면, 이를 근거로 좀 더 잘 설득할 수 있지 않을까?" 하는 헛된(?) 희망을 품게 되었다. 즉 연구 내적으로 잠재적인 오류가 발견된다 하더라도, 이것이 다시 체계적으로 감사(audit)되고 교정될 수 있다는 것이다. 비록 강경한 일부 질적 연구자들은 그것조차 하나의 객관주의와 실증주의에 대한 굴복이라고 주장하기는 하지만,[6] 다른 쪽의 강경한 사람들은 "지금껏 자기 연구실만의 노하우, 통찰, 문제의식이라는 미명 하에 비체계적이고 주먹구구식의 질적 연구들이 이루어져 왔지만, 이제 더 이상 그런 아마추어 같은 질적 연구는 해서는 안 된다" 고까지 주장하기도 한다. 어느 쪽이 대세가 되든, 오늘날 점점 많은 연구자들이 컴퓨터를 활용한 질적 분석에 마음을 열고 있는 것만큼은 사실이다.

그래서 막상 질적 연구에 컴퓨터를 도입해 보니, 일단 체계성이 드러나는 것은 확실해 보였다. 질적 데이터 전체를 한눈에 파악하고, 중요성 순으로 시각화하면 쓸데없는 데서 시간을 낭비할 필요가 없어졌다. 노드(node)의 코딩 역시 연구자의 주관성이 개입되는 지점임이 명확해지면서도 한편으로는 이를 계층적으로 관리할 수 있게 되었다. 덕분에 연구자들로서는 이 코딩 결과를 바탕으로 시사점을 도출했을 때 "주관성을 담보하면서도 체계적으로 연구를 수행하였다" 고 자신 있게 디펜스할 수 있게 된 셈. 소소한(?) 부분이지만 뛰어난 시각화 기능은 동료 학자들과 저널 구독자들, 정책 입안자들, 연구비 지원자들, 그리고 일반 대중들을 만족(…)시킬 수 있을 만큼 논문을 그럴싸하게 만들 수 있다.

하지만 뜻밖에도, 작업을 얼마나 효율화했는가의 측면에서 보자면 결과는 그다지 신통치 않다는 게 중론. 녹취록 속에서 허우적대는 꼴을 피하기 위해서 컴퓨터를 도입했는데, 이번에는 컴퓨터 앞에서 오랜 시간 동안 손목이 저리도록 마우스 클릭을 해야 하고, 일일이 노드 설정을 하면서 그걸 다 수차례 반복하여 읽어야 할 필요가 있었다. 그 많은 작업량을 줄인다기보다는 오히려 작업의 양상이 아날로그(?)에서 디지털로 변했다는 차이가 있을 뿐인 듯 보이는 것. 보통 질적 자료가 비정형적이고 방대할 때 컴퓨터의 도움을 구하라는 조언이 많이 돌지만, 컴퓨터도 그런 상황에서는 난감하기는 마찬가지다(…). 결국 사람이 일일이 손을 써서 기계를 도와주고 교정해 주고 이끌어줘야 하는 상황. 이럴 때 연구자가 아예 손을 놓아 버리면 연구자의 문제의식이 코딩을 이끄는 게 아니라 코딩이 연구자를 이끌어가는 꼴이 되어 버린다.

특히 이런 문제는 한국어로 된 데이터를 분석할 때 더욱 심각해져서, 국내에서는 많은 연구자들이 "한국어의 어근을 잡아내지 못한다" 는 점을 들어서 고충을 호소한다. 영어 사용자들의 경우 띄어쓰기를 기준으로 단어를 추출해서 품사에 맞게 분류 및 배열하고 의미를 뽑아내는 것이 수월하지만, 한국어에서는 대안이 마땅치 않은 것이 사실이다. 하다못해 일부 연구자들은 모든 데이터에서 어근과 조사를 일일이 띄어 주는 노가다를 하거나(…), 일부는 한국어 자료를 통째로 영역해 놓고 영어로 분석하는 수고를 감내하기도 한다.[7] 하나의 가능성은 형태소 분석까지 컴퓨터에게 맡기는 것인데, 아직까지는 이 기술이 완전하지 못하여[8] 대략 60% 언저리의 정확성을 보인다고 알려져 있다. 어쨌거나 한국어 자료는 가뜩이나 시간 많이 잡아먹는 CAQDAS의 사용에 "자료 전처리" 라는 추가적인 짐을 지우는 셈이었고, 이로 인해 아직까지는 그렇게 많이 대중화되지는 못하고 있는 형편이다.

3. 목록

영문 위키피디아에서 시중에 나와 있는 S/W들에 대한 목록과 함께 상세한 비교 설명을 하고 있으므로, 자세한 것은 그쪽을 참고하는 것을 추천한다. 이하의 상당수는 아직 국내에서도 통용이 활성화되지 않아서 먼저 방법론 전문 학회지에다 논문을 써서 소개해야만 하는 것들도 있다(…).

4. 활용

4.1. 시각화 사례

이하의 시각화에 사용된 자료는, r.1 작성을 위해 2018년 5월 19일부터 동해 8월 28일까지 트위터에서 "나무위키" 키워드로 수작업으로 크롤링하여 얻은 1,000건의 트윗 데이터를 활용한 것이다. 분석의 질이 낮은 편임을 유의할 것.
{{{#!folding [ 펼치기 ]
파일:나무위키 WordFrequency-MinLength-4.jpg
NVivo12를 활용하여, 상기 데이터에서 나타나는 4글자 이상의 단어들을 빈도순으로 정렬한 것. WordLength≥4.
}}}
{{{#!folding [ 펼치기 ]
파일:나무위키 WordCloud.jpg
NVivo12를 활용하여, 상기 데이터를 워드 클라우드 방식으로 시각화한 것. 자세히 보면 "모르겠다" 에 관련된 유의어가 굉장히 많이 보이는데, 이런 부분들을 최소화할수록 질적 분석의 질이 올라간다. WordLength≥4.
파일:나무위키 WordCloud-NM.jpg
NetMiner를 활용하여, 상기 데이터를 워드 클라우드 방식으로 시각화한 것. 국산 분석 소프트웨어이기 때문에 한국어를 이해하고, 자체적으로 단어의 품사를 분류하여 정리한다. 글씨의 색상은 우클릭할 때마다 자동으로 바꿔주고, 전체적인 모양새는 사용자가 원하는 모양을 지정할 수 있다.
}}}
{{{#!folding [ 펼치기 ]
파일:나무위키 WordTree-출처.jpg
NVivo12를 활용하여, 상기 데이터에서 "출처" 단어를 워드 트리 방식으로 검색한 것. NVivo는 물결표는 전부 생략하고, 영어 대문자는 소문자로 일괄적으로 바꿔주는 것으로 보인다.
}}}
{{{#!folding [ 펼치기 ]
파일:나무위키 TextNetworkMap-Spring2D.jpg
NetMiner를 활용하여, 상기 데이터에 존재하는 단어들을 텍스트 분석한 뒤, 이를 텍스트 네트워크 맵 방식으로 시각화한 것. 좌측에 보면 "일베" 가 각각 '일' 과 '베' 의 두 개의 명사로 나뉘어 있는데, 이런 사태를 막기 위해서는 먼저 사전 세팅(Dictionary Setting)에서 고유명사들을 등록해 주어야 할 것으로 보인다. WindowSize=2, LinkFrequency=3, TF-IDF Weight≥0.1.
}}}

5. 관련 문서



[1] Gibbs, G.R. (2005). Qualitative Data Analysis: Exploring with NVivo. New York: Open University Press.[2] 특히 담론 분석(discourse analysis) 같은 경우 아무리 단순한 소논문을 쓰는 경우에도 최소 천수백 건 이상의 데이터와 씨름해야 한다.[3] 최희경 (2008). 질적 자료 분석 소프트웨어(NVivo2)의 유용성과 한계: 전통적 분석방법과 NVivo2 분석방법의 비교. 정책분석평가학회보, 18(1), 123-151.[4] 당장 하단의 시각화 자료를 보더라도, 눈돌아가는(?) 모양새에 탄성이 나오기는 하지만 그걸 가지고 어떤 의미 있는 메시지를 뽑아낸다는 건 정말 쉽지 않음을 느낄 수 있다. 당장 이 사이트인 나무위키를 소재로 시각화 작업을 했지만, (평소에 나무위키에 대해 정말 진지하게 고찰하지 않았던 이상) "신기하긴 한데 뭐 어쩌라고?" 의 반응이 나오는 것도 무리가 아니다.[5] 질적 연구의 타당성에 대해서는 나장함(2006)의 《질적 연구의 다양한 타당성에 대한 비교 분석 연구》 문헌을 볼 것.[6] 물론 이들이 타당도에 대한 관심 자체가 없는 것은 아니다. 이들도 나름대로 반성(reflectivity), 참여자 검토(member checks), 중층기술(thick desciption), 전형화, 추적조사 등의 방법들을 제안해 왔다. 이들이 주장하는 것은 질적 연구자들이 그들만의 고유한 타당성 확보방법을 찾으려는 노력을 해야 한다는 것. 강경한 입장에 대한 자세한 내용은 우도 켈레(U.Kelle) 등의 논자들의 문헌을 참고하라.[7] 한 사람당 1시간씩 20명을 면접한 녹취록을 가지고 이런 짓을 한다고 생각해 보자. 이런 경우는 그나마 CAQDAS로 분석하기에 순조로운 축이다.[8] 이와 관련하여, 분석 S/W는 예컨대 "~할 수도 있을 것인데" 와 "~할 수 있을 거 같아요" 의 맥락상의 차이를 정확히 잡아내면서도 두 경우에서 모든 띄어쓰기들의 쓰임과 쓰이지 않음이 갖는 의미를 이해해야 하고, 비정형적 데이터의 경우에는 여기에 오타나 인터넷 은어, 약어 등까지 겹쳐지면서 문제가 실로 커지게 된다.[9] 박한우, Leydesdorff, L. (2004). 한국어의 내용분석을 위한 KrKwic 프로그램의 이해와 적용: Daum.net에서 제공된 지역혁신에 관한 뉴스를 대상으로. Journal of the Korean Data Analysis Society, 6(5), 1377-1387.[10] 이창환, 심정미, 윤애선 (2005). 언어적 특성을 이용한 '심리학적 한국어 글분석 프로그램 (KLIWC)' 개발 과정에 대한 고찰. 인지과학, 16(2), 93-121.[11] 박치성, & 정지원. (2013). 텍스트 네트워크 분석. 한국행정학회 학술발표논문집, 828-849.[12] 이명선 (1999). 컴퓨터를 이용한 질적 자료 분석. 기본간호학회지, 6(3), 570-582.[13] Park, C. (2017). Computer Software vs Pen and Paper Analysis of Qualitative Data: What can NVivo 11 offer for qualitative researchers? 새한영어영문학회 학술발표회 논문집, 175-187.[14] 즉 NVivo를 가지고 작업하는 것보다 다수의 연구자 간의 분석을 비교하거나 혹은 단일 연구자가 반복적으로 분석하는 쪽이 더 일관된 결과가 나온다는 것.