Perché i sondaggi non riescono a prevedere le elezioni

Introduzione

Negli ultimi anni, i sondaggi tradizionali hanno spesso fallito nel prevedere accuratamente i risultati delle elezioni presidenziali. Un caso emblematico è rappresentato dalle elezioni presidenziali argentine del 2019, dove Alberto Fernández ha sconfitto il presidente in carica Mauricio Macri con un margine significativo, non previsto dai sondaggi. Questo studio esamina i dati grezzi forniti da Elypsis, un sondaggista argentino, per comprendere i motivi di tali fallimenti e propone un modello alternativo basato sull’intelligenza artificiale e l’analisi dei social network.

Limiti dei Sondaggi Tradizionali

I sondaggi tradizionali soffrono di vari problemi che ne compromettono l’accuratezza:

  1. Basso Tasso di Risposta: I tassi di risposta ai sondaggi telefonici sono drasticamente diminuiti, raggiungendo livelli inferiori al 6%, rendendo difficile ottenere un campione rappresentativo.
  2. Rappresentazione Errata: I campioni di sondaggio spesso non rispecchiano accuratamente la demografia della popolazione generale. Anche dopo la riponderazione, questi campioni possono produrre risultati imprecisi, specialmente in paesi con voto non obbligatorio.
  3. Pregiudizi di Desiderabilità Sociale: Gli intervistati tendono a nascondere le loro vere intenzioni di voto per candidati controversi, fenomeno noto come effetto Bradley, che distorce ulteriormente i risultati.

Analisi delle Elezioni Presidenziali Argentine del 2019

L’analisi dei dati grezzi di Elypsis rivela due principali problemi:

  1. Rappresentazione Demografica Distorta: Il campione del sondaggio era significativamente distorto, con una sottorappresentazione dei giovani elettori, un gruppo demografico cruciale in Argentina dove il voto è obbligatorio e l’affluenza è elevata.
  2. Pregiudizi di Desiderabilità Sociale: Molti elettori hanno nascosto la loro vera intenzione di voto, specialmente nei confronti di Cristina Fernández de Kirchner, una figura politica controversa. Questo bias ha portato a una sottostima del sostegno per Fernández nei sondaggi.

Proposta di un Modello Basato sull’Intelligenza Artificiale

Per affrontare i limiti dei sondaggi tradizionali, lo studio propone un modello basato sull’analisi dei dati dei social network, in particolare Twitter. Il modello segue quattro fasi principali:

  1. Raccolta Dati: Utilizzo delle API pubbliche di Twitter per raccogliere tweet rilevanti sui candidati da marzo a ottobre 2019. In totale, sono stati raccolti circa 110 milioni di tweet.
  2. Elaborazione del Testo e dell’Utente: Identificazione e rimozione di bot utilizzando il nome del client Twitter. Standardizzazione del testo tramite rimozione delle stop word e tokenizzazione.
  3. Classificazione dei Tweet: Addestramento di un modello di apprendimento automatico, in particolare la regressione logistica, per classificare i tweet come favorevoli a un candidato o all’altro. Questo modello ha raggiunto un’accuratezza dell’83%.
  4. Modellazione delle Opinioni: Utilizzo delle opinioni cumulative degli utenti per tracciare le tendenze elettorali nel tempo. Questo approccio longitudinale consente di monitorare i cambiamenti di opinione e di definire classi di fedeltà degli utenti verso i candidati.

Risultati del Modello

Il modello proposto ha dimostrato una maggiore precisione rispetto ai sondaggi tradizionali nelle elezioni argentine del 2019. Tre modelli specifici sono stati sviluppati:

  1. Modello 1: Gruppo di indecisi come terza parte.
  2. Modello 2: Uso dell’omofilia di rete per dedurre l’orientamento politico degli indecisi.
  3. Modello 3: Riponderazione della popolazione di Twitter ai dati del censimento per ridurre il pregiudizio di campionamento.

Il Modello 3 ha fornito le previsioni più accurate, con un errore assoluto medio (MAE) di 0,53, prevedendo la vittoria di Fernández con il 48,9% dei voti, una stima molto vicina al risultato ufficiale del 48,24%. Questo modello ha anche previsto con successo il grande margine di vittoria di Fernández nelle elezioni primarie (PASO), un risultato che ha sorpreso tutti i sondaggisti tradizionali.

Conclusioni

I metodi tradizionali di sondaggio stanno diventando sempre meno affidabili a causa di bassi tassi di risposta, distorsioni demografiche e pregiudizi di desiderabilità sociale. L’analisi dei social network, combinata con l’intelligenza artificiale, offre una soluzione promettente a questi problemi. Questo metodo non solo può prevedere le elezioni con maggiore precisione, ma può anche rilevare le tendenze della società in tempo reale. Il futuro delle previsioni elettorali e dell’analisi dell’opinione pubblica potrebbe quindi risiedere in metodi non intrusivi basati su big data e intelligenza artificiale.

Lo studio dimostra che l’uso di strumenti di intelligenza artificiale per analizzare i dati dei social network può fornire previsioni elettorali più accurate e affidabili rispetto ai metodi di sondaggio tradizionali, rappresentando un significativo passo avanti nella scienza delle previsioni elettorali. Questi metodi possono catturare meglio l’opinione delle persone, ridurre i bias e fornire un quadro più chiaro delle tendenze politiche e sociali.