김상민 교수 ‘구글+네이버 트렌드’ ESM 득표 예측 분석
5일 현재 이재명 47%, 윤석열 39% 승리 예상
21대 총선 족집게 예측…지난 대선도 적중해

(출처: 블로그 열린뉴스 김상민 TV 캡쳐)
(출처: 블로그 열린뉴스 김상민 TV 캡쳐)

대통령선거 선거일 전 7일동안은 깜깜이 기간으로 불린다. 여론조사 결과 공표가 금지되기 때문이다.

이런 가운데 김상민 김상민 동양미래대 로봇자동화공학부 겸임교수가 구글과 네이버 트렌드 소스를 분석해 발표하는 ESM 득표예측 결과가 눈길을 끌고 있다.

김 교수는 3월 5일 현재 투표가 진행된다면 이재명 민주당 대선후보가 47%를 얻는 다고 예측했다. 투표율은 79%를 기록해 지난 대선보다 1.8% 높을 것으로 예측했다.

 

무엇을 근거로 이런 예측을 할까?

 

김 교수는 지난 2일 'cpbc 가톨릭평화방송 <이기상의 뉴스공감>에 출연해 “트럼프 때부터 시작해서 전 세계적으로 본다면 빅데이터 방식이 기존의 여론 조사를 압도하고 있다. 왜 그러냐면 여론조사는 사실은 샘플링을 어떻게 하냐에 따라 달라지고 통계학에서 보면 5000만 명 중에 1000명을 뽑는데 그러면 이게 5만 명 중에 1명을 대표로 해서 의견을 묻는데 이렇게 해서는 큰 사이즈의 표본의 특성을 찾을 수 없다는 거고 사람의 마음이라는 거는 숨겨져 있다”며 “객관적, 주관적인 부분을 다 배제한 빅데이터가 떠오르는 방식으로 진행이 되고 있다”며 빅데이터에 기반한 선거예측 작업을 설명했다.

김 교수는 빅데이터 ESM선거예측시스템에 대해 “네이버는 간단한 키워드 검색, 그거는 빅데이터로 볼 수 없고 의미가 없고 웹상에 나타나는 전체의 모든 데이터를 다 처리해야 한다”고 밝혔다.

그는 “구글 쪽의 빅데이터를 일단 근간으로 하고 과거에 대선 때 했던 자료들하고 그다음에 최근에 있어서 키워드 갖고 있는, 아까 본 것처럼 어떤 키워드가 관심 있고 그 후보와 관련 있는가 처리하고 그렇게 해서 과거 역대 경험치를 조합해서 나름대로 만든 선거모델 예측 시스템에 의해서 추측을 한다”며 “그렇게 해서 실제로는 저희가 제가 2016년부터 선거 관련해서 조사를 했는데 거의 역대 선거를 가장 정확하게 맞췄다고 자부하고 있다”고 말했다.

 

지난 선거, 빅데이터 ESM 예측 과연 맞았을까?

 

지난 2020년 4월 15일 치러진 21대 총선에서 더불어민주당은 위성정당을 포함해 180석이 넘는 의석을 차지했다.

투표결과 민주당은 지역구에서 163석, 비례투표용 위성정당인 더불어시민당은 17석, 열린민주당 3석을 획득해 총 183석을 획득했다.

현재 국민의힘인 당시 미래통합당은 지역구 84석, 위성정당인 미래한국당은 19석을 얻어 103석을 얻었다.

지난 2020년 치러진 21대 국회의원 총선거 결과
지난 2020년 치러진 21대 국회의원 총선거 결과

민주당의 압승을 예상했지만 180석이 넘으리라고는 아무도 예측하지 못했다. 당시 정치권에선 여론조사를 바탕으로 민주당의 과반의석 획득 여부가 최대 관심사였다.

투표일 당일 조사된 방송3사 합동 출구조사 결과는 어땠을까?

지난 2020년 치러진 21대 총선 방송3사 출구조사 결과
지난 2020년 치러진 21대 총선 방송3사 출구조사 결과

출구 조사결과 민주당은 지역구 139~158석, 더불어시민당 비례대표 16~20석, 열린민주당 비례대표 1~3석을 예상했다. 3당을 합하면 최저 156석에서 최대 191석을 차지하는 것으로 예측됐다.

국민의힘 전신 미래통합당의 경우 지역구 90~109석, 위성정당인 미래한국당의 경우 비례대표 17~21석으로 예측됐다. 두 당을 합 할 경우 최저 107석에서 최대 130석으로 예상했다.

 

21대 총선 족집게처럼 적중했다.

 

방송3사 출구조사 결과의 정확성은 어느 정도였을까? 출구조사에서 범 민주당 계열은 156~191석, 범 국민의힘 계열은 107~130석으로 나왔다.

실제 개표 결과 범 민주당 계열은 183석으로 출구조사 최대치 마지막 범위안에 들었다. 반면 범 국민의힘의 경우 103석으로 최소치 범위를 벗어났다.

사실상 21대 총선 결과는 방송 3사의 출구조사 최소치와 최대치의 범위를  넘어선 것으로 끝이 났다.

그렇다면 21대 총선을 가장 정확하게 예측한 곳은 어디일까?

출처 : 블로그 열린뉴스 김상민 TV 캡쳐
출처 : 블로그 열린뉴스 김상민 TV 캡쳐

 

김상민 동양미래대 로봇자동화공학부 겸임교수는 21대 총선 하루 전인 2020년 4월 14일 ‘ESM 선거예측 모델을 이용한 4·15 총선 선거 결과’를 발표했다.

김 교수는 범 민주당 계열은 비례대표를 포함해 179석(실제 의석 183석), 범 국민의힘 계열은 105석(실제의석 103석)을 예측했다.

김 교수의 예측 결과는 100%에 가까운 적중률을 나타냈다. 사실상 족집게 수준이었던 것이다.

 

19대 대통령 선거 예측 정확도는?

 

2017년 5월 9일 치러진 19대 대통령선거에서 김 교수의 예측은 어느정도 적중했을까?

19대 대선결과 투표율은 77.2%를 기록했다. 문재인 후보가 41.1%를 얻어 대통령에 당선됐다. 홍준표 후보 24.0%, 안철수 21.4%, 유승민 6.8%, 심상정 후보 6.2%를 득표했다.

김상민 교수는 ESM 모델을 기반으로 대선 9일 전인 2017년 4월 30일 투표일 72%(실제 투표율 77.2%)를 예측했다.

문재인 후보 45%(실제 41.1%), 홍준표 16%(실제 24.0%), 안철수 21%(실제 21.4%)를 예상했다. 유승민 후보의 경우 4%(실제 6.8%), 심상정 후보 8%(실제 6.2%)를 예측했다.

2017년 5월 4일 김 교수는 문재인 45%(실제 41.1%), 홍준표 22%(실제 24.0%), 안철수 15%(실제 21.4%), 심성정 9%(실제 6.2%), 유승민 6%(실제 6.8%)를 예상했다.

김상민 교수가 19대 대선을 앞두고 7일동안 예상한 평균값을 계산한 결과 최종 투표결과와 큰 차이가 없는 것으로 나타났다.

(데이터 출처 : 블로그 열린뉴스 김상민 TV )
(데이터 출처 : 블로그 열린뉴스 김상민 TV )

김 교수는 2017년 5월 3일부터 9일까지 일주일 동안 예상 투표율을 76.4%를 예측했다. 이 수치는 최종투표율 77.2%와 0.8% 밖에 차이가 나지 않는다.

문재인 후보의 득표율은 46.4%로 계산해 5.3%의 차이를 보였다. 홍준표 후보의 경우 최종 특표율과의 차이는 6.6%, 안철수 후보의 경우 4.3%, 유승민 후보의 경우 0.2%, 심상정 후보의 경우 0.8의 차이를 보였다.

저작권자 © 충북인뉴스 무단전재 및 재배포 금지