2022년 2월 25일~ 3월 1일까지 구글 트렌드와 네이버트렌드를 이용해 분석한 ESM 득표 예측 결과를 열린뉴스김상민TV 블로그에서 발표했습니다. 이것을 정리했습니다. 대선이 일주일 앞으로 다가왔지만 판세는 여전히 안개 속처럼 전혀 알 수 없습니다. 팽팽한 접전이 이어지고 있는 가운데 심지어 최근 양강 후보에 대한 지지율이 동일한 여론조사 결과가 나오기도 했습니다. 이런 상황에서, 100% 정확하지는 않지만 국제적인 신뢰를 보여주고 있는 구글 트렌드와 국내에서 나름대로 믿을만한 네이버 트렌드를 함께 이용한 이 빅데이터 분석 시스템이 상당한 신뢰성을 보여주고 있다고 생각합니다. 유권자들의 현명한 판단을 기대합니다.
※ [대선 D-8] 구글 트렌드 및 네이버 검색 트렌드를 이용한 빅데이터 ESM 선거예측시스템 대선 득표 예측 결과-이재명 45% vs 윤석열 36%로 이재명 당선 확실시
대선판이 요동치고 있다. 21일과 25일 두차례 대선 토론회이후 후보간의 역량을 온 국민앞에 보인 토론회로 유권자의 선택에 상당한 변화를 준 것으로 나타났다. 또 윤석열 후보에 대한 본부장 리스크와 대장동 사건에서 김만배가 언급한 '그분'이 이재명 후보가 아니라 현직 조재연 대법관으로 밝혀지고, 윤석열 부친의 자택을 김만배등이 사전에 모의하여 구입한 녹취록이 공개 되면서 대장동 게이트가 이재명 게이트가 아니라 법조게이트로 몸통이 이재명이 아니라 윤석열로 드러나고 있다.
또한 도이치모터스 주가조작에 대한 김건희의 통정매매가 사실로 드러나면서 본부장 리스크에서 윤석열에 대한 중도층의 지지율이 급감하고 있다.
또 24일 러시아가 우크라이나를 침공하면서 선제타격과 핵무장을 불사하겠다는 윤석열 후보의 주장에 대해 우크라이나 국민들의 피난과 전쟁피해를 보면서 평화에 대한 관심이 높아지고, 선제타격 운운하는 윤석열의 전쟁불사에 대한 불안감으로 국민들의 안보심리가 이재명으로 표 결집이 보여주고 있다.
구글 빅데이터 분석에 따르면 선거일이 다가오면서 압도적으로 이재명 후보의 관심도가 높아지고 있다. 지역별로 보더라도 이재명 후보는 전지역에서 관심도가 높아지고 있으며 심지어 윤석열 후보에 대한 관심이 가장 높은 경북에서도 38:34로 이재명 후보에 대한 관심도가 높아지고 있다. 부산 경남 경북에서 이재명이 처음으로 보수후보를 앞지른 결과가 나올지 관심이다.
연관검색어에서도 이재명 후보보다 윤석열 후보에 대한 본부장 리스크 관련 , 일본군 한반도 진입도 가능하다는 윤석열 발언등 부정적인 키워드 검색이 압도적으로 많고, 상대적으로 이재명 후보는 우크라이나 사태를 보고 윤석열의 안보무능을 비판한 것이 회자되고 있을 뿐이다.
안철수 후보의 경우는 단일화 철회 과정에서 잠시 관심도가 높아 졌으나 안철수 X파일로 후보단일화를 강요하려는 시도가 언론에 미리 공개되면서 유야무야 되는 형국에. 27일 단일화 결렬을 선언하면서 단일화는 물건너 간 형국으로 점차 윤석열의 추락이 더해 보이는 형국이다.
네이버에서는 보수 언론의 지형상 상대적으로 윤석열 후보에 대한 검색량이 이재명 후보보다는 다소 높으며 27일 안철수와 윤석열 단일화 결렬로 이슈로 검색어 트렌드가 크게 출렁거린 모습이다.
정치인들은 흔히들 자기에게 유리한 결과가 나오면 훌륭한 결과라고 하고, 자기에게 불리한 여론조사가 나오면 비과학적이라고 한다. 그런데 여론조사라는 것이 모집단의 대표성을 갖는 충분한 샘플링이 전제 되어야 하나 대부분은 그렇지 않다. 특히 선거에서는 조사기관의 의뢰자 입맛에 맞는 결과가 나오기 쉽다.
미국 대선에서 대다수 여론조사가 힐러리의 승리를 예측하였을 때 트럼프의 당선을 예측한 것은 빅데이터를 분석한 인도의 인공지능 모그 AI였다. 필자는 구글 등 빅데이터를 이용하여 지난 선거에서 여러차례 선거 결과를 정확히 예측한바 있다.
필자는 윤석열 후보와 같은 79학번으로 윤석열 후보를 잘 알고 있으며, 80학번 안철수와는 같은 부산출신으로 잘 알고 있으며, 75학번 심상정 후보는 필자가 87년 데이콤 노조를 설립하여 노조위원장을 하며 노동운동을 하던 과정에서 심후보를 매우 잘 알고 있다. 필자는 서울대에서 통계학과 컴퓨터사이언스를 전공했으며, 1985년 (주)한국데이타통신에서 연구원을 시작으로 1999년 데이콤 종합연구소(LG유플러스와합병) 팀장, 2008년 토로스증권에서 선물옵션 인공지능 HFT 차익거래 자동매매시스템 개발 및 운용, 2007년부터 동양미래대학 로봇자동화공학부 겸임교수로 IOT와 인공지능, 빅데이터와 데이터 사이언스를 수십년간 연구해온 데이터 과학 전문가이다.
필자는 지난 2016년말 대다수 선거 전문가들이 힐러리의 승리를 점쳤을 때 빅데이터를 이용하여 트럼프의 당선을 예측했으며, 19대 대선에서 민주당 문재인, 안희정, 이재명 대선후보 경선에서 득표율을 빅데이터를 이용해 거의 정확히 예측했으며, 2016년 20대 총선에서 민주당 122석 의석을 정확히 예측했으며, 20대 4.15 총선에서는 여권의 180 의석을 정확히 예측했다. 역대 선거에서 사용한 필자의 ESM 선거예측 시스템은 거의 오차범위내에서 득표율을 정확히 예측해 왔으며, 본인의 블로그에 그 결과가 기록되어 있다.
최근 선거 결과를 미리 예측하기 위해 수많은 여론조사가 쏟아지고 있다. 그러나 조사기관의 유무선 비율, 질문지 구성, 응답률에서 그 신뢰성에서 크게 의심받고 있다. 여론조사에서 낮은 응답률, 신뢰성없는 표본의 추출, 유도성 질문지, 특정 지지층의 과표집 등 많은 문제를 내포하고 있다. 또한 난립한 여론조사 업체에서는 기 응답자의 성향을 미리 수집 파악하여 응답자 표본을 임의로 설계하여 의뢰자가 원하는 대로 돈만 지불하면 원하는 결과치를 얻어내는 것이 아닌가 의심도 든다.
20일 안철수 후보가 윤석열 후보와의 야권 단일화 제안을 철회하고 연이어 안철수 후보의 완주의사가 확인되면서 20대 대선에서는 이재명, 윤석열, 안철수, 심상정 4자 대결로 굳어졌다.
다수의 여론조사가 의뢰자에 따라 그 결과가 설계된 상황에서 그 신뢰도가 크게 훼손된 상황으로 역대 선거에서 보았듯이 여론조사 결과는 신뢰성이 크게 떨어져 있으며 대선판도는 여론조사기관의 데이터 보다는 빅데이터만이 유일한 판세를 읽는 수단이 된 상황이다. 그래서 D-16를 시작으로 20대 대선에서 필자가 다년간 연구해온 빅데이터연구를 기반으로 구글트렌드와 네이버 빅데이터 서비스를 이용한 ESM 예측시스템으로 선거 마지막 날까지 예측시스템으로 결과를 예측할 것이다.
네이버의 빅데이터는 검색어 트렌드만을 제공하기 때문에 실제 웹페이지 전체에서 트렌드를 볼수 있는 구글의 보완 자료로 사용하였다.
필자의 하이퍼 인공지능 예측시스템 ESM은 빅데이터에서 트렌드을 이용하여 선거결과를 예측할때 최종의 관심도가 아니라 기간중 시간을 X축으로 놓고 트렌드 관심도를 Y축으로 놓고 적분하고 최근 데이터에 가중치를 주는 방식으로 득표율을 예상하였다. 또 단순 트렌드가 아니라 연관 키워드 분석을 통해 키워드에 따른 지지율의 가감을 하고 인공지능 예측모델을 이용한 계산으로 정확한 예측을 기하였다.
필자는 대선 전일까지 빅데이터를 통한 후보자별 득표율을 예측하여 발표할 예정이다.
필자가 만든 하이퍼 인공지능 예측시스템 ESM에 의하면 만약 D-8인 오늘 투표가 이루어 진다면 투표율은 71%가 예상되고 후보별 득표율은 이재명 45%, 윤석열 36%, 안철수 11%, 심상정 2.1%, 허경영 3%의 득표율이 예측되고 있다. 이는 26일(D-11) 에 비해서 이재명 후보가 7% 차이에서 9.0%로 격차를 벌이면서 오차범위 밖에서 이재명 후보의 당선이 확실시 되고 있다.
점차 여야의 진영간 결집이 이루어 지고 대선의 쟁점이 점차 명확히 되면서 대선결과의 윤곽이 빅데이터를 통해 드러나고 있다. 결론적으로 오늘 당장 투표를 한다면 오차범위 밖에서 이재명 후보의 당선이 확실시 되고 있다.
최근 KBS의 제주지역 여론조사도 필자의 구글빅데이터를 이용한 분석과 거의 일치하고 있다.
※ 김상민, 배종찬 여론조사 전문가가 본 20대 대선 전망은? 친절한 경제씨 스위프트 러시아 퇴출이 경제에 미치는 영향 3/2(수) 이기상의뉴스공감
댓글