Quantcast

[단독] 더불어민주당-자유한국당 지지율 논란 ②, 리얼미터와 한국갤럽의 조사결과 차이를 감소시키려면?

  • 김명수 기자
  • 승인 2019.05.15 13:58
  • 댓글
이 기사를 공유합니다

[김명수 기자] 각 선거여론조사기관의 조사결과를 둘러싸고 정치권에서도 신뢰도와 관련된 논쟁이 자주 발생한다.

조사기관별로 너무 큰 편차를 보여주는 결과가 자주 등장하기 때문이다. 

이에 따라 여론조사기관별 신뢰도 측정의 기준이 새로 제시될 필요가 있다.

어제 그러한 조사기관별 편차의 원인은 가중값 배율 문제라는 점을 "[단독] 더불어민주당-자유한국당 지지율 논란 ①, 리얼미터와 한국갤럽의 차이가 발생하는 이유는 가중값 문제" 제하의 기사를 통해 1차 지적한 바 있다.

오늘은 어제의 문제점에 이어 실제 이런 문제가 얼마나 기존 조사에 존재하는가를 파악하기 위해 최근 여론조사를 전수검사해봤다.

여심위에 공개된 각 조사의 표집과정에서 할당목표에 얼마나 근접한 조사를 했는가를 '표본의 크기'영역에 공개된 할당목표와 조사완료 데이터를 비교해 할당목표 대비 실제 조사완료된 데이터의 차이를 '반영률' 개념을 도입해 비교하고, 해당 '반영률'의 표준편차를 확인해 봤다.

여심위 여론조사 결과 현황 보기

조사과정에서 전국조사가 아닌 경우와 조사내용이 다르더라도 같은 조사결과를 분석해 발표한 조사는 제외했다.

먼저, 이 조사결과의 의미를 이해하기 위해서는 표준편차 개념을 알아야 할 필요가 있다.

표준편차 (standard deviation)는 사전적 의미는 "산포도의 하나인 표준편차는 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적인 수치다. 표준편차가 0에 가까우면 자료 값들이 평균 근처에 집중되어 있음을 의미한다. 표준편차가 클수록 자료 값들이 널리 퍼져 있음을 의미한다"라고 정의되어 있다.

따라서 표준편차가 낮은 기관일수록 할당목표에 충실하게 조사했다는 것을 의미하며, 표준편차가 높은 기관은 할당목표와는 차이가 큰 조사를 수행했다고 해석할 수 있다.

물론 이 표준편차만으로 선거여론조사의 신뢰도를 판단할 수는 없다. 이 표준편차가 의미하는 것은 얼마나 표집단에 충실하게 조사를 수행했는가를 의미하며, 그 결과 가중값 배율 적용을 얼마나 적게 혹은 많이 했는가를 의미한다.

가중값 배율을 적용하더라도 조사기관별로 훌륭한 알고리즘과 로직을 갖추고 있다면 신뢰할 수 있는 데이터가 나올 수도 있다.

그러나 가장 좋은 것은 표집단에 근접한 조사결과를 가지고 분석하는 것이 가장 이상적일 것이라는 점은 자명하다.

표준편차가 낮은 기관의 조사결과일수록 기자는 더 신뢰할 수 있겠다고 판단하고 있다.

표 3 최근 30건 여론조사 중 표준편차가 가장 낮은 2곳과 가장 높은 2곳의 반영률 및 표준편차 데이터 4건
표 1 최근 30건 여론조사 중 표준편차가 가장 낮은 2곳과 가장 높은 2곳의 반영률 및 표준편차 데이터 4건

각 표에서 할당목표와 20%이상 적거나 많은 경우는 모두 반영률에 붉은 색을 칠해 파악하기 쉽게 했다. 붉게 칠해진 데이터가 많을수록 조사의 충실도 실제 인구구성과는 차이가 많음을 의미한다.

결론적으로 이번 조사에서 제시된 표준편차는 조사의 충실도를 의미한다.

조사기관의 조사방식에 따라 조사비용과 조사기간 등 여러가지 애로사항이 있을 수 있으며, 조사방식은 각 조사기관이 선택한 것이다.

이번 조사에서는 조사의 충실도만을 체크한 것으로 이해할 수 있으나, 충실한 조사를 더 신뢰하는 것이 이치에 맞을 것으로 판단된다.

실제 데이터 내용을 살펴본 결과는 아래의 표와 같다.

표 1 최근 선거여론조사 30건의 실제 인구구성 반영률의 표준편차
표 2 최근 선거여론조사 30건의 실제 인구구성 반영률의 표준편차

한 눈에 파악할 수 있도록 여러 번 조사한 기관의 데이터는 평균값을 도출해 비교했다.

총 30건의 전국 조사 중 여론조사기관은 12개였으며, 그 조사에 실제 인구구성비율을 정확히 반영한 반영률의 표준편차 순위는 아래와 같다.

표 2 최근 선거여론조사 30건에 참여한 12개 여론조사기관의 표준편차 평균 (표1의 중복 제거)
표 3 최근 선거여론조사 30건에 참여한 12개 여론조사기관의 표준편차 평균 (표1의 중복 제거)

조사 결과 표에서 나타나듯이 조사기관별 실제 인구구성 반영정도의 차이가 심하게 존재한다.

신뢰도 논쟁이 많은 기관일수록 표준편차가 높고, 신뢰도 논쟁이 적은 기관일수록 표준편차가 낮은 것으로 해석된다.

가중값 배율 개념 자체가 할당 목표 대비 조사된 표본이 적거나 많아 가중값을 적용하는 개념이므로, 그 과정에서 실제와 다른 바이어스가 발생할 수 밖에 없다는 것이 데이터를 통해 어느 정도 확인된 것이다.

특정 조사기관이 매우 여러 번 등장하는데, 조사의뢰자 측에서 왜 그 기관을 선택해 조사를 수행하는가에 대해서는 일일이 확인하지는 않았다. 각 언론사의 선택의 영역이기 때문이다.

그러나 할당목표 대비 조사 반영률 표준편차가 이처럼 높은 여론조사의 결과를 인용보도하는 것에 대해 각 언론사에서도 재검토가 필요해 보인다. 최소한 조사기관에 이 표준편차를 낮출 것을 요구하는 것은 반드시 필요한 조치로 판단된다.

표준편차가 크게 나온 여론조사기관은 표준편차를 낮출 수 있도록 할당목표에 근접한 조사를 수행할 것을 권한다.

물론 이 부분은 분석기법에 따라서는 더 정확한 분석을 위해 일부러 가중값을 적용하는 경우도 있을 것이나 그러한 선택은 여론조사기관의 선택이며, 국민이 왜 그러한 가중값을 적용했는지 알기 어렵고, 현재 여심위에 등록된 자료에서도 그 이유는 공개되어 있지 않아 투명하지 않다.

중앙선거관리위원회 여론조사심의위원회에 제안한다

1. 가중값 배율 조항을 강화해 표집 활동 자체의 신뢰도를 높일 것을 제안한다. (여심위 회의와 의결을 통해 자체적으로 변경 가능)
2. 할당목표 대비 조사결과의 반영률 데이터와 반영률의 표준편차를 서비스에 반영할 것을 제안한다. (표 1 참조)

기 조사된 데이터를 포함해 인구대비 표집단 목표할당에 조사완료가 얼마나 근접했는가를 반영하는 반영률 개념을 도입하고, 반영률의 표준편차를 제공한다면 해당 조사에 대한 국민의 이해도가 대폭 높아질 수 있을 것으로 판단된다.

국민은 조사된 여론조사가 얼마나 할당목표에 근접하게 조사되었는가를 알 권리가 있으며, 현재 공개된 '표본의 크기' 정보에서는 그러한 조사된 결과에 대한 상세정보가 제공되고 있으나, 할당목표가 얼마나 충실히 조사에 반영되었는지를 한눈에 파악하기는 어렵다.

따라서 기자가 재구성한 표와 같이 여심위의 선거조사결과 등록현황의 '표본의 크기'영역에 할당목표 대비 충실도를 파악할 수 있는 수치와 해당 수치의 표준편차를 추가해 공개해 줄 것을 제안한다. 이 부분은 이미 있는 데이터에 간단한 연산식을 추가하면 되는 작업이므로 역량 있는 개발자라면 하루면 개발할 수 있는 내용이고, 오래 걸리더라도 1주일 이내에 마무리할 수 있는 간단한 작업이다.

선거여론조사는 선거에 지대한 영향을 미치는 것으로 국민은 정확한 여론을 알 권리가 있으며, 언론사 역시 왜곡되지 않은 정확한 민심과 여론을 파악해 보도할 의무가 있기 때문이다.


추천기사