신문은 선생님

[재미있는 과학] 나이·성별·직업별 골고루 물어야… 누가 뽑힐지 알아요

입력 : 2016.03.22 03:09

[선거 결과 예측하는 여론조사]

여론조사, 정확한 예측 하기 위해 번호 무작위로 생성해 전화 걸어
소득 수준과 지지 정당 균일하고 조사 대상 나이·성별 다양하면
소수만 조사해도 전체 결과 알아

4월 13일 국회의원 선거를 앞두고 최근 여야가 공천 후보자를 발표하면서 국민의 관심이 선거에 집중되고 있어요. 또 지지층이 탄탄한 후보들끼리 같은 선거구에서 맞붙게 되면, 각 후보의 지지율이 몇 퍼센트라는 예측 보도가 신문에 실리고 있지요. 그런데 선거가 치러지기도 전 지지율 예측은 어떻게 하는 걸까요?

선거일 이전까지는 전화 조사로 선거 결과를 예측해요. 이때 사용하는 전화번호는 '임의 번호 걸기(RDD)' 방식을 통해 무작위로 만들어진답니다. 지역번호, 지역별 국번(서울 양천구의 경우 지역번호는 02, 지역별 국번은 2693·2602 등)을 제외한 나머지 번호를 0번에서 9번까지 무작위로 입력해 전화하는 여론조사 방식이지요. 예전에는 KT 전화번호부를 사용했는데, 이 경우 한 지역에 오래 살고 있거나 자기 집을 갖고 있는 부유한 고연령자에게 주로 전화를 걸게 돼 정확한 예측이 불가능했다고 해요. 무작위로 생성한 전화번호를 이용하면 전체 유권자의 약 80%까지 접촉할 수 있는 반면, 기존의 전화번호부로 연결될 수 있는 전체 유권자는 약 40%에 불과해 무작위 방식이 좋답니다.

◇1936년 미국, 수백만 조사하고 예측 틀려

1920년대 미국의 유명 잡지 '리터러리 다이제스트'는 "공화당 후보와 민주당 후보 가운데 누구에게 투표할 것인지 답변해달라"는 여론 조사 엽서를 수많은 사람에게 발송해 미국 대선 결과를 예측했어요. 엽서를 보낼 명단은 전화번호부와 자동차등록부에서 선별했지요. 이 같은 방식으로 '리터러리 다이제스트'는 1924년과 1928년, 1932년까지 연속 3번 대통령 당선인을 정확히 맞혔어요. 그런데 1936년에는 예측에 실패해요. 1936년에는 어떤 일이 일어났던 걸까요?

여론조사 설명 그래픽
그래픽=안병현
당시 리터러리 다이제스트는 1000만명에게 엽서를 발송해 236만7230장을 되돌려 받았어요. 가구 수 기준으로는 3가구당 1집꼴로 엽서를 보냈을 정도로 공을 들였지요. 이렇게 모은 답변을 바탕으로 리터러리 다이제스트는 "공화당 후보인 앨프리드 랜던이 57%의 지지를 얻어 민주당 후보인 프랭클린 루스벨트(43%)를 크게 앞설 것"으로 예측 보도를 했어요. 그런데 정작 투표함을 열어보니 민주당의 루스벨트가 62.5%를 득표해 공화당의 랜던(37.5%)을 크게 앞섰답니다.

반면 1936년 대선을 정확하게 예측한 기관도 있었어요. '갤럽 여론조사소'는 상대적으로 매우 적은 숫자인 1500명만을 조사해 루스벨트 55%, 랜던 44%의 득표를 예측했어요. 어떻게 236만장의 엽서보다도 훨씬 적은 1500명을 근거로 정확한 선거 예측을 했던 것일까요?

여론조사의 목적은 소수에게 의견을 묻더라도 집단의 모든 구성원에게 물었을 때와 똑같은 결과를 얻는 데 있어요. 성별이나 나이, 지지 정당, 소득 수준, 학력, 직업 등과 관계없이 조사 대상으로 뽑힐 확률이 누구나 같아야 집단 전체를 대변하는 '대표성'이 생겨요. 이러한 대표성이 여론조사의 정확성을 좌우하지요. 예를 들어 된장국의 간을 볼 때 먼저 숟가락으로 국솥을 휘젓지 않아 된장국 농도를 균일하게 만들지 못하면, 간을 아무리 많이 보더라도 간을 맞출 수 없는 것과 같은 이치랍니다.

리터러리 다이제스트가 정확한 예측을 못했던 원인은 전화번호부와 자동차등록부에 등록된 사람들을 대상으로 조사했기 때문이었어요. 1929년 시작된 경제 대공황은 1939년까지 대량 실업과 불황을 일으켰어요. 1936년에 집에 전화기가 있고 자동차를 소유한 사람들은 상대적으로 부유했기 때문에 가난한 사람들은 표본에서 제외됐던 거예요. 당시 미국 고소득층은 공화당, 저소득층은 민주당을 지지하는 사람이 많았어요. 즉 리터러리 다이제스트는 소득 수준, 지지 정당이 균일하지 못한 조사 대상을 선정했던 셈이지요.

◇상자 속에서 골고루 공 꺼내봐요

여기 1000개의 공이 든 검은 상자가 놓여져 있어요. 그 안에는 빨간 공, 파란 공, 녹색 공이 섞여 있어요. 여러분이 이 상자에 손을 넣어 10개의 공을 꺼내본다고 상상해 보세요. 이때 꺼낸 공을 '표본집단(sample)'이라고 해요. 검은 상자에 있는 1000개의 공은 '모집단(population)'이라고 부르고요. 표본집단에서 색깔별로 몇 개씩 들었는지 확인한 뒤, 모집단에서 빨간 공·파란 공·녹색 공이 각각 몇 %씩 차지하는지 추측할 수 있을까요? 네, 그럴 수 있어요. 만약 빨간 공, 파란 공, 녹색 공이 고르게 섞여 있다면 10개를 뽑든, 100개를 뽑든, 1000개를 뽑든 결과가 비슷하답니다.

실제로 4년 전 국회의원 선거에서 출구 조사를 할 때도 유권자 1000명 중 18명(1.75%)꼴로 어떤 사람을 찍었는지 조사해서 전체 선거 결과를 예측했어요. 전국의 모든 투표소에서 출구 조사를 실시한 것도 아니에요. 고작 1.75%의 유권자에게 물어본 결과로 선거의 최종 결과를 예측한다는 것이 놀랍지 않나요? 출구 조사를 할 때는 투표소에서 나오는 유권자 5명마다 1명씩 붙잡아 누구에게 투표했는지를 조사해요. 그렇게 하면 엄마, 아빠, 형, 동생이 와서 투표를 하더라도 1명만 조사를 하게 되죠. 그만큼 같은 후보자에게 투표를 했을 집단이 단체로 뽑힐 가능성이 줄어드는 거예요.

또한 유권자에게 성별과 나이, 지지 후보와 지지 정당을 함께 적도록 부탁해요. 성별과 나이에 따라 지지 후보와 지지 정당에 차이가 있기 때문이에요. 지지 후보와 지지 정당뿐 아니라 성별과 나이를 물어보는 것은 마치 국을 끓일 때 간을 제대로 맞추는 일과 똑같아요. 표본의 대표성을 높이기 위해 나이와 성별로 예측 결과를 보정하는 것이지요.


서금영 과학칼럼니스트 |