[대선 D-3]빅데이터 ESM 선거예측시스템 예측 결과, 이재명 47% vs 윤석열 38%
대선 D-3(2022년 3월 6일), 언론에서는 박빙승부가 될 것이라고 연일 보도하고 있습니다. 역대 최고의 사전투표율은 과연 어떤 방향을 가리키고 있을까요? 각 진영은 아전인수격으로 자기편에 유리할 것이라고 서로 주장하고 있지만, 특별히 민주당 지지율이 높은 호남지역의 투표 열기는 아무래도 민주당 쪽으로 기우는 형상입니다. 오늘의 빅데이터는 어떤 지표를 보여주고 있을까요?
오늘도 빅데이터 분석가인 김상민교수는 열린뉴스김상민TV 블로그에 구글트렌드와 네이버트렌드의 빅데이터를 이용한 ESM 선거예측시스템 예측 결과를 발표했습니다.
※ [대선 D-3]빅데이터 ESM 선거예측시스템 "이재명 47% vs 윤석열 38%로 9%격차를 벌리며 이재명 당선 확실시"
- 여론조사 공표 금지로 빅데이터만이 선거 예측하는 유일한 바로미터
- 20대 대선 사전투표율 36.93%로 19대 대선보다 10.87% 높은 투표율
- 이재명에 대한 관심도와 사전투표율과의 상관 관계 매우 높아
- ESM "8%의 격차로 오차범위 밖에서 이재명 후보의 당선 예측"
3일부터 여론조사 공표가 금지됨에 따라 사전선거가 시작되는 이제 빅데이터만이 대중이 알수있는 민심을 측정하는 유일한 바로미터가 되었다. 최근 선거 결과를 미리 예측하기 위해 수많은 여론조사가 쏟아지고 있다. 그러나 조사기관의 유무선 비율, 질문지 구성, 응답률에서 그 신뢰성에서 크게 의심받고 있다. 여론조사에서 낮은 응답률, 신뢰성없는 표본의 추출, 유도성 질문지, 특정 지지층의 과표집 등 많은 문제를 내포하고 있다. 또한 난립한 여론조사 업체에서는 향후에도 응답을 할 것인가라고 질문하여 기 응답자의 성향을 미리 수집 파악하여 의뢰자가 원하면 응답자 표본을 임의로 설계하여 의뢰자가 원하는 대로 돈만 지불하면 원하는 결과치를 얻어내는 것이 아닌가 의심된다. 즉 사실상 여론 조사가 아니라 여론조작 수준이다.
3일 안철수 후보가 단일화를 이유로 사퇴하고, 언론들은 이재명 후보와 윤석열 후보의 박빙의 선거 결과를 예측하고 있는 가운데 역대 선거에서 선거 결과에 근접한 예측을 해온 ESM 빅데이터 선거예측 시스템의 분석에 따르면 이재명 후보가 47% 득표율로 윤석열 후보에 비해 9% 차이로 승리하는 것으로 예상되고 있다.
최근까지 여론조사는 수십개의 여론조사 기관이 난립하고 같은 조사 방식에서도 조사 기관마다 여론 조사결과가 큰 차이를 보여 그 신뢰도가 크게 훼손된 상황에서 여론조사 공표까지 금지되면서 일반인은 빅데이터만이 선거 판세를 읽는 유일한 수단이 된 상황이다.
4일과 5일 실시된 20대 대선 사전투표에서 사전 투표율은 19대 사전투표율과 비교해 보았을 때 전국적으로 26.06%에서 36.93%로 10.87% 높은 투표율을 보였으며 전통적으로 민주당 지지가 높은 호남 지역에서는 전국 평균보다 훨씬 높은 50%대의 사전투표율을 보였다.
이는 진영간 결집을 보여주면서 한편으로는 이재명 지지층의 결집이 눈에 띄었다. 이같은 결과는 지역별 사전투표율과 빅데이터 상에서 나타난 이재명 후보에 대한 상관 관계를 통해 확인할 수 있다.
5일 선관위가 발표한 16개 광역 시도별 사전 투표율을 살표보면, 구글트렌드에서의 이재명에 대한 관심도 순위 점수와 사전투표율과의 상관관계를 살펴보면 상관계수(1에 가까울 수록 상관도가 정비례하여 높고 -1에 가까울 수록 반비례하여 낮음)가 0.88로 매우 높은 상관관계가 있음을 알수 있다. 즉 다시말해 이재명 후보에 대한 결집이 윤석열 후보의 결집보다 훨씬 높다고 볼수 있다.
그러나 선거 막판이 다가오자 지역별로 볼때 19대에서는 보수세가 강한 영남지역과 민주당 세가 강한 호남과의 격차를 12%에서 3.4%로 사전 투표율간의 격차가 좁혀 졌다. 즉 경북의 결집도를 보았을 때 보수의 결집도 상당 이루어져 사전투표가 끝나면서 부동층이 거의 사라지고 19대 대선에서 3자 구도로 인해 무효표와 기권표가 거의 사라지고 보수진영의 결집도 뚜렷해져 진영간 치열한 대결 양상이 관측된다.
호남에서는 그간 경선에서 이낙연 후보를 밀던 표가 이재명으로 주저하는 모습이었으나 투표일이 다가오자 호남에서 역대급의 결집이 일어나는 모습이다.
구글의 연관 검색어에서도 윤석열 후보는선데이저널이 공개한 윤석열 후보의 박근혜 전 대통령에 대한 육성 녹취록, 가족의 일본의 극우 사이비 무속 종교 관련, 윤후보 측근의 남묘호렌게쿄 관련 의혹 등 연관 검색어가 급등하고, 이는 안철수와의 단일화 검색어 보다 관심이 높다. 또 본부장 리스크 관련, 일본 자위대의 한반도 진입도 가능하다는 윤석열 발언 등 부정적인 키워드 검색이 압도적으로 많다. 또 눈에 띄이는 것중에는 사전투표시 윤석열이 줄을 서지 않고 새치기한 것으로 알려져 이에 대한 검색량이 급등하는 모습이다.
이재명 후보는 야당에서 시흥시 거북섬에 대한 특혜의혹을 제기함에 따라 검색어가 급등하였으나 여권에서는 근거없는 모략이라고 반박하고 있으며, 역대 대선에서 당선자만을 인터뷰했다는 타임지와의 인터뷰와 관련한 검색, 박근혜 전 대통령 박근령씨의 이재명 지지 등 상대적으로 윤석열 후보보다 긍정적인 키워드 검색이 많다.
네이버 검색어 트렌드에서는 우크라이나,경제, 형수, 대장동 등 이재명에 대한 부정적 키워드 검색이 많으며, 윤석열에 대해서도 본부장리스크, 장모, 부인 김건희씨등 부정적 관련 검색이 압도적으로 많다. 네이버의 빅데이터가 구굴에 비해 실시간 제공, 데이터 처리량 등에서 구글 빅데이터에 미치지 못한다. 또 네이버에서는 보수 언론 다수를 차지하는 형편과 신천지 등 종교단체의 댓글 부대 동원 의혹 등 상대적으로 이재명 후보에 대한 부정적 댓글 비중이 압도적으로 높아 ESM 에서는 구굴 빅 데이터 분석을 주로 하였다.
하이퍼 인공지능 예측시스템 ESM은 빅데이터에서 트렌드을 이용하여 선거결과를 예측할때 최종의 관심도가 아니라 기간중 시간을 X축으로 놓고 트렌드 관심도를 Y축으로 놓고 적분하고 최근 데이터에 가중치를 주는 방식으로 득표율을 예상하였다.
또 단순 트렌드가 아니라 연관 키워드 분석을 통해 키워드에 따른 지지율의 가감을 하고 네이버 검색 데이터를 보정하여 인공지능 예측 모델을 이용하여 정확한 예측을 기하였다.
ESM을 이용한 20대 대선의 최종 결과 사전투표가 역대 가장 높은 투표율을 보여주면서 부동층이 대체로 사라지고 양진영의 결집이 이루어 지면서 하이퍼 인공지능 예측시스템 ESM에 의하면 만약 D-3인 6일 투표가 이루어 진다면 후보별 득표율은 이재명 47%, 윤석열 38%, 심상정 2.1%, 허경영 2.5% 의 득표율이 예측되고 있다.
.D-16 부터 ESM 분석에 의하면 D-11일 부터 이재명 후보가 윤석열 후보에 비해 3.5% → 7.0 → 9% → 10% → 11% → 8%로 득표율 격차를 벌이다가 D-3일인 3월 6일에는 경북, 경남, 울산에서 뚜렷한 윤석열 후보로의 결집이, 사전투표가 끝나자 다시 이재명 후보로 관심도가 높아지면서 부동층이 점차 사라지고 양 후보간에 득표율 예측은 9%로 격차를 벌렸다.
결론적으로 오늘 당장 투표를 한다면 9%의 격차로 오차범위 밖에서 이재명 후보의 당선이 확실시 되고 있다.
댓글