표본(sample)

정의

  • 조사하기 위해 모집단에서 뽑은 일부의 집합

표본이 가져야 할 특징

  • 모집단을 잘 대표할 수 있도록 표본이 뽑혀야 한다.
  • 그래야 이후의 통계적 작업들이 의미있는 작업들이 되며
  • 결과물 또한 신뢰할 수 있고, 유용한 결과가 될 수 있다.

표본을 비유해보면

  • 국의 간을 맞출 때 한 숟갈을 떠서 맛을 보는 경우
  • 수질오염 측정시, 전체 강물을 조사하는 게 아니라 7~8곳에서 채수 일부를 하여 검사함
  • 혈액상태를 보기 위해 5ml 정도의 채혈

표본은 모집단을 대표할 수 있는가?

  • 국내 유권자 4,400만명 중 1,500명을 조사해 전체 유권자의 여론, 태도, 관심을 정확하게 파악할 수 있을까?
  • 위의 표본에 대한 비유를 이용해 설명한다면 아래와 같이 말할 수 있다.
  • 충분히 잘 섞인 경우, 일부 표본을 조사해서 전체의 특성을 파악할 수 있다.

1936년 미국 대선 여론 조사 사례

리터러리 다이제스트의 선거예측조사 사례

선거예측조사에서 정확성을 보여줬던 리터러리 다이제스트는 1936년, 전화가입자와 자동차 소유자 명부를 가지고 1,000만 장의 엽서 질문지를 발송했다. 1,000만장이란 당시 가구 수 기준으로 3가구 당 1장 꼴인 굉장히 많은 수였다.

이 중 236만 7,230명이 엽서조사표에 의견을 적어서 회송했고, 조사표를 종합한 결과 공화당의 랜던 후보에 대한 지지율이 57%, 민주당의 루스벨트 당시 대통령에 대한 지지율이 43%로, 따라서 랜던 후보의 압도적인 승리가 예상되었다.

하지만 실제 결과는 루스벨트 당시 대통령이 60.8%, 랜던 후보가 36.5%를 득표하면서 루스벨트 대통령이 재선되었다. 그리고 리터러리 다이제스트는 1938년 발행이 중단되었다.

조지 갤럽의 선거예측조사 사례

동일한 대선에서 조지 갤럽의 미국 여론조사 연구소는 훨씬 작은 50,000명의 표본 크기를 사용해 여론조사를 했다. 표본의 크기는 리터러리 다이제스트보다 훨씬 적었지만, 결과적으로 1.4% 이내의 오차로 결과를 정확하게 예측하면서 전국적인 인정을 받게 되었다.

사례에서 배울 수 있는 점

문제점 1. 모집단 전체를 반영하지 못하는 치우친 표본 사용
전화번호부, 자동차등록부, 사설 클럽회원 명보, 대학동창회원 명부 등은 편향(bias)또는 치우침이 있는 추정 결과를 얻을 수 있는 표본 추출 틀임.

문제점2. 응답여부가 자기선택에 의해 이루어짐
이는 조사되는 표본이 특정 성향(정치 참여도가 높은 사람들)으로 구성될 수 있게 하는 문제점이다.

  • 표본 크기는 조사의 정확도를 좌우하는 중요 요소이지만, 여론조사의 정확도를 높이는 충분조건은 아니다.
  • 모집단을 잘 대표할 수 있도록 표본추출이 이뤄져야 한다.
  • 표본 추출 대상 목록(표본추출틀)이 중요하다.

표본 추출 틀

정의

  • 표본을 뽑을 명단, 혹은 정보 목록

좋은 표본 뽑기

좋은 표본이란

  • 편중되지 않고, 전체를 대표할 수 있는 표본

랜덤추출(무작위 추출)

  • 모집단의 각각의 요소가 표본으로 선택될 가능성이 같게 하는 표본 추출법
  • 표본추출하는 사람의 생각이나 주관이 개입되지 않음

층화

  • 모집단을 서로 동질적인 집단인 층으로 미리 구분하고, 각 층에서 일부 표본을 추출하는 방법
  • 각 층마다 표본을 추출하여, 층간의 표본 추출이 한쪽으로 편중되지 않도록 한다.
  • 표본의 대표성을 높이는 방법이다.
  • e.g. 여론조사에서는 보통 지역, 성, 연령대에 따라 층화를 한다.

표본의 크기

모집단이 커지면 표본도 비례하게 커져야 하는가?

  • 표본의 크기는 조사 결과의 정확도를 결정하는 중요한 요소이다.
  • 음료수나 혈액검사 등 모집단의 조사단위가 동질적인 경우 적은 수의 표본으로도 정확한 조사 가능
  • 하지만 다양성이 높은 모집단은 어느정도 큰 표본이 필요하다.
  • 그렇다고 해서 표본의 크기가 엄청나게 크더라도 왜곡이 없는 것은 아니다.
  • 표본의 크기는, 사안에 대해 모집단을 대표할 수 있을 정도만 되면 충분한다.

비유

국 맛 보기

국의 맛을 볼 때, 작은 냄비에 끓였다고 해서 조금 간을 보고, 솥단지에 끓였다고 해서 국자단위로 맛을 보지 않음.

상자 안의 검은 공과 흰 공

  • 상자 A에는 총 10만개의 공이 있다. (검은색 7만개, 흰색 3만개)
  • 상자 B에는 총 1000개의 공이 있다. (검은색 700개, 흰색 300개)
  • A 상자에서 랜덤으로 100개를 뽑아도, B 상자에서 랜덤으로 100개를 뽑아도 검은공을 뽑을 확률은 70%이다.

사례

  • 위의 리터러리 다이제스트 예시

Reference

통계로 세상 읽기 - 이긍희, 이기재, 장영재, 박서영, 한종대 공저
방송통신대 - 통계로 세상 읽기 강의
https://en.wikipedia.org/wiki/The_Literary_Digest

Comments