개념쏙쏙! 수학
알쏭달쏭 개표 방송, 통계 알면 쉬워요
'모집단'은 투표한 사람들을 뜻해요, 출구조사한 사람들은 '표본'이라 해요
표본과 모집단 사이 차이인 '오차'… 오차 범위 작을수록 정확하단 뜻이죠
'신뢰수준' 은 같은 조사 반복했을 때 오차 범위 내 결과가 나올 가능성이죠
"출구조사 결과, ○○○ 후보가 지지율 45%로 당선이 유력시되고 있습니다. 이번 출구조사는 선거 당일 오전 6시부터 오후 5시까지 전국 투표소에서 유권자 8만명을 대상으로 했으며, 응답률 69%, 신뢰 수준 95%, 오차 범위 ±0.9%입니다."
어제 저녁, 선아는 아빠와 함께 선거 방송을 시청했어요. 그런데 방송에 나오는 말이 너무 어려워서 궁금한 것이 무척 많아졌습니다.
"어휴~ 아빠, 개표 방송 내용이 너무 어려워요."
"출구조사는 선거 결과를 예측하고자 투표를 마치고 나오는 사람들을 대상으로 투표 내용을 조사하는 것이란다. 여기에는 수학의 한 분야인 '통계(統計)'가 적용되어 어렵게 느껴지는 거야."
"통계요? 그게 뭐예요?"
"통계는 아득히 먼 옛날부터 사용됐어. 옛날 로마시대에는 5년마다 전 인구를 직접 헤아리고 재산을 일제히 등록하는 '센서스(census)'란 제도가 시행되었단다. 이 용어는 오늘날에도 대규모의 일제 통계 조사를 나타내는 말로 쓰이지."
"와~ 그렇게 먼 옛날부터 통계가 사용되었군요?"
-
- ▲ 그림=이창우
"그럼 통계에서 쓰이는 기본 용어부터 알아보자. 선아야, 엄마가 맛있는 카레를 끓이다가 감자 조각 하나를 숟가락으로 떠서 잘 익었는지 확인하는 모습을 본 적 있지? 이때 숟가락으로 떠올린 감자 한 조각이 카레 속 재료들이 잘 익었는지를 판단하는 '표본'이 되는 거야. 이처럼 통계학에서는 연구자의 관심의 대상이 되는 전체 집합을 '모집단', 감자 한 조각과 같이 모집단에서 채택한 일부분을 '표본'이라고 해."
"그럼 선거에서는 투표에 참여한 사람 전체가 모집단, 출구조사에 참여한 사람이 표본 집단이겠네요?"
"그렇지! 통계조사 방법에는 전수조사(全數調査)와 표본조사(標本調査)가 있는데, 전수조사는 관심의 대상이 되는 모집단 전체를 조사하여 특성을 파악하는 방법이야. 통계청이 5년마다 실시하는 '인구주택 총조사'가 전수조사에 해당하지. 그런데 일반적으로 모집단은 매우 크기 때문에 이를 전부 조사하려면 엄청난 비용과 시간이 든단다. 이와 달리 표본조사는 모집단 중 일부를 표본 집단으로 선택하여 조사하는 방법이야. 그리고 그 결과에서 모집단의 특성을 추정하지."
"그럼 표본을 선택할 때 주의할 점은 없어요?"
"아주 예리한 질문인데? 지금부터 아빠가 완벽하지 않은 표본 집단 3가지를 말해 볼게. 선아는 각 집단의 부족한 점을 생각해 보렴. 모집단 1만명 중 표본 집단 20명을 선택한 A씨, 모집단이 남녀 각각 500명일 때 여자 300명을 표본 집단으로 고른 B씨, 모집단에 속하지 않는 사람을 표본 집단으로 선택한 C씨. 자, 각각 어떤 점이 부족할까?"
"우선 A씨는 모집단의 수에 비해 표본의 수가 너무 적어요. B씨는 표본 집단 300명을 모두 여자로만 채택한 것이 잘못이고요. C씨처럼 모집단에 속하지 않는 사람을 표본으로 선택하면 조사의 정확도가 떨어지지 않을까요?"
"맞아. 표본의 수가 적거나 한쪽으로 치우치면 모집단의 특성을 정확하게 추정하기 어렵단다. 표본의 정확도를 높이는 방법에는 여러 가지가 있는데, 모집단에서 무작위로 표본을 뽑는 방법, 일정한 간격을 두고 규칙적으로 표본을 뽑는 방법, 모집단을 몇 개의 작은 집단으로 나누어 각각에서 골고루 뽑는 방법 등이 있지. 그런데 아무리 좋은 표본을 골라도, 표본조사 결과와 모집단 전체의 실제 특성과는 차이가 날 수밖에 없어. 이러한 차이를 '오차(誤差)'라고 한단다. 오차가 발생하는 값의 범위를 오차 범위라고 하는데, 오차 범위가 작을수록 조사가 정확하다는 뜻이야."
"아하! 조금 전 방송에서도 '오차 범위'라는 말이 나왔어요!"
"그래. 방송에서 나온 '응답률 69%' '신뢰 수준 95%' '오차 범위 ±0.9%'라는 말이 궁금했지? 먼저 '오차 범위 ±0.9%'라는 말은 ○○○ 후보의 지지율이 '44.1(=45-0.9)%'에서 '45.9(=45+0.9)%' 사이라는 뜻이야. 또 '신뢰 수준'이란 동일한 조사를 반복하여 진행할 경우에 오차 범위 내의 결과치가 나올 가능성을 말하는 것으로, 통계치의 정확성을 표현하는 용어란다. 신뢰 수준이 95%라는 말은 100번 조사하면 오차 범위 내의 결과가 95번은 나올 수 있다는 뜻이지. 마지막으로 '응답률 69%'라는 말은 690명의 표본을 얻기 위해 실제는 1000명을 조사했음을 의미한단다."
"아하! 방송 내용이 그런 뜻이었군요. 이제부터는 뉴스에 나오는 통계 용어를 관심 있게 볼래요."
"좋은 생각이구나. 통계학은 품질관리, 여론조사, 시장조사 등 우리 실생활에 널리 쓰이는 매우 중요한 학문이란다."
[함께 생각해봐요]
다음 A~D 중 표본 채택이 가장 바람직한 경우는 무엇입니까?
정답: D
[관련 교과] 6학년 2학기 '경우의 수와 확률'