이슈브리프

자료수집도구로서의 조사(survey)는 현대사회에서 흔히 사용되고 있다. 조사를 통해 획득된 자료는 분석의 대상인 모집단(population)에 대한 정보를 제공할 뿐 아니라 통계적 분석을 통해 의사결정에 중요한 역할을 하는 의미 있는 정보로 전환되어진다. 이러한 조사는 조사대상의 범위, 조사대상의 추출 방법, 조사 대상, 그리고 조사 도구 등의 기준에 따라 여러 가지 형태의 조사로 분류될 수 있다. 조사대상 범위에 따라서는 모집단 전체가 조사되는 전수조사(census)와 일부만 조사되는 표본조사 (sample survey)로 분류할 수 있다. 조사대상의 추출 방법에 따라서는 모집단의 일부인 표본이 확률적 메커니즘에 따라 추출된 확률 표본 조사(probability random sample survey)와 그렇지 않은 비확률 표본 조사로 구분할 수 있다. 조사의 목적 혹은 내용에 따라서는 정부에 의하여 주로 수행되는 공공조사, 일반인들의 의견 및 생각을 알아보기 위한 여론조사(public opinion survey) 그리고 상품 구매 후보 대상자를 조사하는 마케팅 조사 등이 있다. 조사 도구를 기준으로는 우편조사, 전화조사, 면접조사, 모바일조사 등으로 조사를 구분할 수 있다. 또한 조사대상자의 반복 조사 여부에 따라서는 패널조사(panel survey)와 일회성조사 그리고 연동표본조사 (rotation sample survey) 등으로 조사를 구분할 수 있다.

어떠한 형태의 구분이 조사를 분류하기 위하여 사용되던지 모든 조사의 결과는 필연적으로 오차를 포함하고 있다. 조사에서 발생하는 전체 조사오차(total survey error)는 크게 모집단 전체가 아닌 일부를 관측함으로 발생하는 표본오차(sampling error)와 그 외의 비표본오차(nonsampling error)로 나눠진다. 확률표본이 추출될 경우, 통계적으로 편의(bias)와 분산(variance)을 통해 오류의 측정이 가능한 표본오차와는 달리, 그 확률구조를 정확하게 알 수 없는 비표본오차는 조사과정에서 그 발생 원인을 최소화시키는 것이 바람직하다. 비표본오차의 종류로는 표본이 추출되는 표집틀(sampling frame)과 추출의 대상이 되는 모집단과의 차이로 발생하는 표집틀 오차와 추출된 개체로부터 응답을 얻지 못하는 무응답오차(nonresponse error) 그리고 실제 관측해야 하는 참값을 측정하지 못하는 관측오차(measurement error)가 있다. 즉, 비표본오차는 실제 추출의 대상이 되는 관심 모집단(target population)과 조사가 된 대상자들의 집합에 의하여 대표되는 표집 된 모집단(sampled population)의 차이에 의하여 발생하게 되며 이 오차들의 확률구조는 표본오차와는 달리 알 수 없고 따라서 비표본오차의 측정을 위해서는 오차 구조에 대한 가정이 필요하게 된다. 대부분의 비확률 표본오차를 다루기 위한 통계적 기법들은 이러한 비표본오차의 구 조에 대하여 단순 가정을 한 후 유도되었다. 따라서 연구를 위해 설정된 가정들이 만족되지 않는 경우, 연구결과는 그 타당성의 근거를 상실하게 된다. 즉, 비표본오차로 인한 조사결과의 신뢰도 손실을 막기 위해서는 일반적으로 조사과정 상에서의 이를 최소화 시키는 것이 최선의 방안임이 받아들여지고 있다.

한국의 여론조사가 가지고 있는 특성을 살펴보면 먼저 조사기법 상 일반적으로 전화조사가 흔히 사용되는 것을 발견할 수 있다. 이 경우 전화조사는 자료수집도구로 서 전화가 사용되는 것과 더불어서 전화를 거는 과정을 통해 표본이 추출되는 것을 복합적으로 의미한다. 즉, 전화번호의 선택과정을 표본추출과정으로 그리고 통화를 통해 설문에 대한 응답을 받는 과정을 관측(measurement)과정으로 이해할 수 있다. 이러한 전화조사의 특성으로 인하여 여론조사는 그 조사결과의 대표성에 대한 많은 논란이 있어 왔다. 특별히 전화번호명부가 전화번호 추출을 위해 사용된 경우, 전화 번호명부의 모집단 커버리지가 50% 혹은 그 이하인 것을 감안하면 전화번호명부를 이용한 전화조사결과에 대한 신뢰도는 매우 떨어지게 된다. 또한 조사가 이루어지는 시간대에 집이 비어 있는 not-at-home의 문제, 조사 거절 및 무응답으로 인한 낮은 최초 접촉율 및 응답률 역시 전화조사의 문제점으로 대두된다. 전화번호명부 가 가지고 있는 모집단 커버리지의 문제점을 개선하기 위해서는 RDD(random digit dialing)방법이 사용되고 있으며 이를 통하여 생성된 표본은 최소한 유선전화를 가지고 있는 가구 및 가구원 모집단을 대표할 수 있게 된다. 또한 RDD기법은 전화번호의 생성과정에서 각 추출단위에 동일한 확률을 부여하게 되는 동일확률표본추출 (equal probability sampling design)을 가능하게 하며 따라서 표본 오차에 근거한 통계적 추론을 위한 이론적 근거를 제공한다. 그러나 핸드폰의 보급으로 인한 유선 전화를 보유하지 않은 가구의 증가로 인한 커버리지 문제, 무응답 및 조사거절로 인한 비표본오차의 발생은 RDD기법을 적용한다 하더라도 여전히 해결할 수 없는 문제로 남아있다.

여론조사가 가지고 있는 또 다른 특징은 조사를 위한 기간이 상대적으로 짧다는 것이다. 여론조사를 위해 전화조사가 사용되는 이유 중 하나는 바로 빠른 결과의 산출을 위해서이다. 이러한 조사 시간의 제약은 RDD 기법의 적용을 통해서도 해결할 수 없는 무응답, Not-at-home, 조사거절 등을 해결하기 위한 여러가지 재통화(call back)기법의 적용을 불가능하게 한다. 예를 들어 주간에 비어있는 가구의 경우, 조사를 위해서는 야간이나 주말을 이용하여야 하며, 조사 설득을 위해서는 적절한 수준의 재통화가 이루어져야 하나 조사시간의 제약이 있는 경우 이러한 시도가 불가능하게 되며 이로 인하여 조사결과에 대한 심각한 선택편향(selection bias)이 발생 할 수 있다.

여론조사가 갖는 마지막 특성은 그 내용에 관한 것으로 일반적으로 여론조사내용은 사회적, 정치적으로 매우 민감한 내용이 다루어지게 되고 따라서 이로 인한 조사거절 및 관측오차가 발생할 가능성이 높게 된다는 것이다. 관측오차가 발생하게 되는 원인으로는 응답자, 조사원 그리고 설문내용의 구조적 문제 등을 고려할 수 있다. 조사내용에 대하여 의도적, 혹은 비의도적인 응답자의 거짓 대답, 원하는 대답을 얻기 위한 조사원의 의도적인 질문, 잘못된 설문 구성으로 인한 관측상의 오차들이 관측오차를 발생하게 하며, 특별히 조사의 내용이 매우 민감한 문제인 경우 이러한 오차의 발생 가능성이 더욱 높아지게 된다.

살펴본 현재 한국에서 진행되는 여론조사의 특성들은 조사의 신뢰도를 떨어뜨릴 수 있는 비표본오차의 발생요소들과 직접적으로 연관되어 있다. 따라서 여론조사의 신 뢰도를 높이기 위해서는 무엇보다 조사과정 상에서 발생할 수 있는 비표본오차를 최소화 시키는 것이 필수적이다. 이를 위하여 먼저 지켜져야 할 사항으로는 선택편향을 최소화 할 수 있는 목표모집단과 부합하는 표집틀 구축 및 이로부터의 확률표본추출이다. 전화조사의 경우, 최소한 RDD 기법을 이용한 표집틀 확보와 이로부터 의 확률표본추출법이 적용되어야 할 것이다. 이를 통하여 전화번호명부가 표집틀로 사용되는 경우의 커버리지 오차를 최소화 시킬 수 있으며 또한 확률표본추출법 사용으로 인하여 표본오차에 대한 바른 통계적 분석을 실시할 수 있을 것이다. RDD 기법에 의하여 생성되는 표집들이 무선전화만을 보유한 가구들을 포함하지 못하는 약점을 극복하기 위해서는 핸드폰 RDD 기법 등을 고려할 수 있으나 조사결과의 신뢰도 확보를 위해서는 이에 대한 경험적(empirical) 그리고 이론적 연구가 선행되어야 할 것이다. 특별히 가구모집단의 유·무선 전화보유 비율에 대한 정보가 불확실한 상황에서의 무조건적 무선전화 RDD 사용 및 이를 통한 통계량 산출에는 매우 높은 오류발생의 가능성이 있으므로 그 사용에 주의가 필요하다. 커버리지 오차를 줄일 수 있는 또 다른 방안으로는 패널구성을 통한 조사방법을 고려할 수 있다. 즉, 인구학적 그리고 경제적 변수 측면에서 목표 모집단과 유사한 분포를 갖는 대형패널을 구성하고 이로부터 각 여론조사를 위한 표본을 추출하는 것이다. 통계청에서 수행하는 많은 가구조사들도 실제로 5년마다 실시되는 인구주택총조사 10% 표본으로부터 각 조사를 위한 표본이 추출된다. 인구주택총조사 10% 표본은 실제 전체 모집단과 유사한 인구특성 분포를 보이며 또한 이 자료는 각 가구별 매우 상세한 정보를 포함하고 있어 매우 유용한 표집틀로 사용되고 있다. 다만 이러한 대형패널의 구성 및 시간에 따른 모집단 변화를 반영하는 패널관리를 위해서는 막대한 비용 및 시간이 소요될 수밖에 없을 것이다.

가구원이 집에 없거나 조사거절 등으로 인한 무응답 오차를 최소화시키기 위해서는 적절한 재통화 혹은 재접촉 방법이 연구되어야 할 것이다. 단순히 재통화의 수를 늘리는 대신 무응답 사유와 원인을 분석하여 이를 원인별로 적절하게 처리하여야 할 것이다. 특별히 재접촉 및 재통화를 위해서는 이를 위한 충분한 시간도 확보되어야 할 것이다. 관측상에서 발생하는 오차를 줄이기 위해서는 질문의 형태, 질문의 순서, 적절한 응답 수준 등의 질문지 전반에 대한 연구와 검토를 통한 질문지 설계(questionnaire design)가 이루어져야 할 것이다. 특별히 민감한 사회적, 정치적 사안들이 전화조사를 통해 이루어지는 여론조사의 경우, 질문의 형태 및 가능한 응답 수준 등에 대한 심도 있는 논의가 선행되어야 할 것이다.

모든 조사에는 필연적으로 비표본오차로 인한 편의가 발생하게 된다. 즉 설령 모집단 전체가 조사된다 하더라도 조사를 통해 얻어진 결과는 필연적으로 오차를 갖게 된다. 그렇다면 과연 어떠한 것이 현명한 것일까? 대충 조사하고 그 결과가 맞기를 간절히 기도하는 것이 바람직한가? 아니면 확률표본을 추출하고 모든 조사과정에서 발생할 수 있는 비표본오차의 원인을 파악하여 이를 최소화할 수 있는 조사방법을 적용하는 것 즉 조사과정 전체에 신뢰도를 높이는 것이 바람직한 것인가? 그 답은 이미 주어져 있다. 하지만 어떻게 라는 질문의 해답은 여전히 연구의 대상이며 아마 정답도 없는 이 질문은 계속되리라 생각된다. 마지막으로 접촉율, 응답률, 표집틀의 커버리지 비율 그리고 확률표본 추출 여부 등을 이용한 조사방법의 신뢰도 지 수를 개발하여 조사결과 발표 시 함께 공표하거나 조사의 내용에 따라 필요한 수준의 신뢰도를 조절하는 방안도 향후 연구가 되는 것이 바람직하리라 여겨진다

* 본 문건의 내용은 필자의 견해로 아산정책연구원의 공식 입장과는 다를 수도 있습니다.

About Experts

박민규
박민규

고려대학교

박민규 교수(고려대학교 통계학과)는 고려대학교에서 통계학 학사학위와 석사학위를 취득하였고 미국 Iowa State University에서 박사학위를 취득하였다. 고려대학교 통계연구소 소장, KBS 지방선거 여론 조사 자문위원, 국가통계위원회 위원, 한국조 사연구학회 총무이사, 한국통계학회 응용통계연구 편집위원으로도 활동하고 있다. 주요 논문으로 "Calibration estimation in survey sampling" (The International Statistical Review, 2010), "The mixed model fo survey regression estimation" (The Journal ofStatistical Planning and Inference, 2009) 등이 있다.