G. Elliott Morris lavora come data journalist all’Economist, dove al momento si occupa principalmente del modello che mira a predire l’esito delle elezioni presidenziali che si terranno il prossimo 3 novembre. Lo abbiamo intervistato proprio per approfondire i segreti del suo modello predittivo e analizzare la situazione di quelle che saranno tra le elezioni presidenziali più importanti della storia recente degli Stati Uniti.
Qual è il tuo background? Come sei arrivato a lavorare all’Economist?
Rispetto a molti sondaggisti e giornalisti sono di recente uscita dall’università: mi sono laureato nel 2018 e poco dopo sono entrato all’Economist per fare lo stesso lavoro che faccio oggi, ossia quello del data journalist, principalmente nell’ambito politico. All’università ho studiato scienze politiche, statistica e informatica – in realtà anche storia, ma non è che oggi la usi molto – e credo che queste materie mi abbiano preparato piuttosto bene per la carriera nel data journalism.
Oggi, guardando ai tuoi compiti all’Economist, troviamo lo sviluppo del modello predittivo di cui parleremo tra poco. Ma sei coinvolto anche in altri aspetti dell’attività redazionale?
All’Economist ogni data journalist contribuisce alla pagina finale del settimanale, che è una sorta di vetrina dedicata al dataviz. Scriviamo un pezzo piuttosto ambizioso ogni settimana, e questo richiede di dividerci il lavoro all’incirca una volta al mese: alcuni di noi lo fanno più frequentemente, altri meno. Inoltre considera che YouGov conduce il sondaggio per l’Economist, gestendo di settimana in settimana la maggior parte del design del questionario e le operazioni di rilevazione, ciononostante se vogliamo aggiungere delle domande, lo fanno sempre volentieri. Ovviamente abbiamo accesso a tutti i microdati a disposizione, quindi lavoriamo molto sulla modellizzazione delle caratteristiche individuali dell’elettorato, sulle regressioni multilivello e su processi simili. Credo sia una delle migliori partnership a cui il data team ha accesso: siamo stati veramente fortunati in questi anni recenti ad avere i panel YouGov.
Il modello MRP, o regressione multilivello con post-stratificazione, è una tecnica di inferenza statistica che permette di stimare il valore di una variabile in una singola area (per esempio, il voto in un solo collegio elettorale) a partire da un sondaggio su tutto il Paese. Per far ciò, si incrociano le intenzioni di voto dichiarate da ogni gruppo demografico a livello nazionale con la numerosità di ciascun gruppo nei vari collegi elettorali. Questo modello è divenuto molto popolare in vista delle elezioni generali nel Regno Unito del 2017, ma ancora di più con quelle del 2019. Perché credi che non sia così utilizzato negli Stati Uniti, ad esempio nelle elezioni per il Congresso?
Non saprei: ho delle mie teorie su questo, ma non sono basate su particolari evidenze. Mi sembra che il Regno Unito sia più “sondaggio-centrico”, e credo che gli inglesi abbiano una maggiore familiarità con il funzionamento dei sondaggi, con i loro successi e con i loro fallimenti. Invece nel 2016 gli statunitensi erano piuttosto ingenui rispetto a come venivano condotti i sondaggi, ai loro punti di forza e alle loro debolezze. Per questa ragione, credo che nel Regno Unito sia possibile una migliore comprensione, da parte dei cittadini ma anche dei media, delle differenze tra il modello MRP e le tradizionali proiezioni basate sui sondaggi. Invece qui negli Stati Uniti “MRP” è solo un’opaca parola tecnica per alcuni data journalists e per una stampa “scelta”, come l’Economist o il New York Times, e non sembra che qualcuno sia preparato per adottarlo appieno. Ovviamente credo che sarebbe meglio se una fetta più grande della stampa americana adottasse l’approccio adottato nel Regno Unito.
Focalizziamoci sul modello dell’Economist: alla base vi è un incrocio tra i dati dei sondaggi e altri indicatori tra cui quelli economici. Ci spiegheresti come funziona concretamente? Lo hai creato sulla base di altri modelli impiegati nell’ambito politico?
Il modello è basato sia sulla letteratura tradizionale della scienza politica, sia sulla letteratura dell’aggregazione di sondaggi che si è sviluppata soprattutto dal 2008. Poi abbiamo fatto riferimento allo stato dell’economia, a tutti gli indicatori economici fondamentali come il tasso di disoccupazione e la produzione industriale: abbiamo indicizzato il tutto fino al 1944 per comparare i tassi di crescita economica che osserviamo oggi con quelli storici, e questo ha rivelato una relazione piuttosto forte con il risultato delle elezioni presidenziali, specialmente se il presidente è un incumbent alla ricerca del secondo mandato consecutivo. Abbiamo visto che se il tasso di crescita è inferiore al 90% dei dati dei precedenti 20 mila giorni, allora lo scenario è sfavorevole al Presidente uscente, ed oggi non è che sia peggiore del 90%, è proprio il peggiore mai visto.
Alla formula aggiungiamo anche la popolarità del presidente secondo i sondaggi, che abbiamo indicizzato sino al 1948, e la polarizzazione: crediamo, basandoci sulle ricerche di scienza politica dell’ultimo decennio, che gli americani non stiano votando come facevano un tempo, e che quando vedono i numeri negativi dell’economia non reagiscano più così duramente contro un presidente ricandidato per un secondo mandato come avveniva, ad esempio, nel 1970. In particolare, oggi Trump non sembra essere punito per il tasso di crescita crescita al -10/-20% tra il primo e il secondo quadrimestre del 2020, e abbiamo permesso al modello di cogliere questa differenza nella relazione tra il presidente e l’elettorato includendo un limite su quante persone nell’elettorato sembrino essere swing voters. Quindi, in questo senso, noi teniamo conto della polarizzazione politica, una cosa che la maggior parte dei modelli non aveva quasi mai fatto prima di noi, ma che ora sembrano iniziare a fare. Questo è lo step della “scienza politica”, che permette di includere nel modello quelle aspettative che abbiamo rispetto a come si svilupperà la corsa che sono basate sull’economia, sull’approvazione per il presidente e sul grado di polarizzazione. Poi in cima a tutto c’è lo step che riguarda l’aggregazione dei sondaggi, che prende in considerazione i sondaggi nazionali e i dati di sondaggio quotidiani. Qualora questi non fossero disponibili, facciamo stimare al modello cosa direbbero quei sondaggi basandoci su altri sondaggi caratterizzati da situazioni demografiche e politiche simili.
Il modello che avete elaborato consegna delle previsioni, delle probabilità di vittoria per ogni candidato, e da un certo punto di vista è simile, in questo aspetto, ai modelli del 2016. Perché hai deciso di focalizzarti su una struttura di questo tipo dopo tutte le incomprensioni del 2016, quando le persone non capirono appieno la differenza tra modelli predittivi e la media real time dei sondaggi? Del resto, qualsiasi sondaggista ti direbbe che un sondaggio è una fotografia di un particolare momento nel processo temporale che porta alle elezioni. Perchè dunque hai scelto questo approccio?
Quello che le persone vogliono sapere è quanto sia probabile che i dati che stiamo vedendo oggi consegnino una previsione attendibile per l’election day. Stiamo facendo un modello per rispondere esplicitamente alla domanda “Quanto spesso i candidati hanno vinto quando avevano numeri simili ai dati che stiamo vedendo oggi?”. Indicare la probabilità risponde bene a questa domanda, quindi è per questo che ci concentriamo su quell’aspetto.
Abbiamo fatto usato diversi approcci di visualizzazione diversi da quelli del 2016, ma anche qualcosa di simile. Ad esempio abbiamo indicato le probabilità anche non a livello percentuale, non come 90% ma come 9 possibilità su 10, per aiutare le persone a comprendere il vero significato del numero e non considerare quel 90% come un 100%, cosa che in molti tendono a fare. Sulla pagina abbiamo incluso tutti i range per le previsioni, quando entri non vedi solo che Biden oggi ha il 90% delle possibilità di vittoria, ma anche che ha possibilità considerevoli di vincere tra i 252 e i 415 grandi elettori: il primo dato non sarebbe sufficiente a vincere, il secondo sarebbe il record nella storia democratica.
Tutto è calibrato per rappresentare il 2020 con i dati che abbiamo, partendo dal presupposto che i sondaggi siano accurati come nel passato. Nel 2016 i sondaggi avevano un margine di errore più largo rispetto a quello della nostra media dei sondaggi; potrebbe accadere ancora, ma le migliori previsioni che abbiamo fatto nel passato non supportano questa conclusione. Di solito quando si ha un margine di errore che va a favore di una parte, non è mai statisticamente solido affermare che andrà nuovamente in favore di quella parte (o che ci sarà). Per aiutare il lettore abbiamo anche incluso più rappresentazioni grafiche con margini di errori visibili rispetto al passato.
Rispetto alla seconda parte della domanda, credo sia centrale la differenza tra il pensiero del sondaggista e di chi elabora previsioni: credo di poter dire per esperienza che i sondaggisti credono che quello che pensa l’opinione pubblica sia importante e che il governo reagisca a ciò, motivo per cui la maggior parte dei sondaggisti tratta i dati come una fotografia in un certo momento della corsa elettorale. Ma noi che elaboriamo previsioni cerchiamo di dire “sulla base dei sondaggi che abbiamo oggi, e di tutti i sondaggi del passato, c’è un candidato che ha più possibilità di vittoria”. La fotografia in questo senso è ancora utile, perché utilizzandola possiamo ragionevolmente dire che è impossibile avere grandi cambiamenti in un periodo limitato. In ogni caso, non direi che un approccio è meglio dell’altro: sono semplicemente differenti.
Su Twitter hai sottolineato che non siamo per nulla vicini allo scenario del 2016. Perché?
Per prima cosa il margine nazionale di Biden, e anche quello negli swing states, è molto più largo di quello di Hillary Clinton: ad oggi è davanti di 10 punti nel nostro modello nazionale, mentre a questo punto del 2016 Clinton era avanti di 4 punti e mezzo. Quindi c’è un margine che è tra le due e tre volte superiore. Già solo questa comparazione tra il 2020 e il 2016 suggerisce che Biden abbia maggiori possibilità di vittoria della Clinton o, per dirla diversamente, che Trump avrà molte più difficoltà nel vincere le elezioni.
Ma andando oltre vi sono delle ragioni specifiche per le quali il dato nazionale tende a oscurare la competizione. Il primo è ovviamente che non è il voto popolare, ma quello del collegio elettorale (i grandi elettori) a decidere le presidenziali: nel 2016 Trump vinse senza la maggioranza del voto popolare ma grazie alla conquista con margini molto risicati di stati come il Wisconsin, la Pennsylvania e il Michigan. Biden oggi sta facendo molto meglio nei sondaggi di quanto non fece Hillary Clinton, e questo è abbastanza deducibile dallo swing nazionale. Clinton vinse di 2 punti, Biden è avanti di 10: è una differenza di 8 punti, mentre il Wisconsin e la Pennsylvania si sono spostati di 9/10 punti.
Ci sono dunque delle evidenze che ci dicono che la corsa è più sbilanciata che nel 2016 a livello nazionale, e che Biden ha guadagnato terreno nel Midwest. Il candidato democratico ha infatti delle particolari caratteristiche che sono capaci di attrarre chi vive in quell’area, e possiamo dedurre questo da altri dati (il modello non li considera): se guardiamo agli incroci del sondaggio YouGov/Economist, Biden va particolarmente bene tra i bianchi che non sono andati al college, cioè coloro che passarono da Obama a Trump dal 2012 al 2016, ma anche tra le persone più anziane. C’è motivo per credere che questi elettori votarono per Trump nel 2016 perché erano stanchi delle politiche di Obama, ma anche perché propensi a votare contro Hillary Clinton per la suo impegno nei diritti dei non bianchi: sappiamo che gli elettori di cui stiamo parlando si caratterizzano per un certo livello di razzismo, ad esempio perché rispondono ai sondaggi indicando che le persone non bianche stanno rubando i loro lavori. Biden per queste fasce sembra rappresentare qualcosa di diverso da ciò che rappresentava Hillary Clinton, e ciò permette loro di tornare a votare il candidato democratico.
This is a good reminder from Rachel that polling error CAN be quite large, and though that’s not usually likely, there are identifiable reasons why polls could be off again this year, including: residual error from 2016 + fx from covid and voter suppression (in close states). https://t.co/S4iaiONeY5
— G. Elliott Morris (@gelliottmorris) July 20, 2020
Inoltre gli indici di gradimento di Clinton e Trump nel 2016 sembrano piuttosto differenti da quelli di Biden e Trump nel 2020.
Sì, Biden è più popolare di quanto Clinton non sia mai stata, e con popolare intendo che piace di più. Ci sono molti dati che ci spiegano perché sta andando bene, ma è difficile credere a questi dati considerando quanto accaduto proprio nel 2016: quattro anni fa Trump e Clinton erano piuttosto appaiati, ma la narrazione dei media contro Trump e contro la sua tipologia di elettorato fecero passare il messaggio che la sua vittoria era impossibile. Ora, invece, sembra che stia quasi accadendo il contrario: le persone sono sospettose verso i dati a causa del loro fallimento nel predire l’esito del 2016, mentre i dati, invece di mostrare una corsa all’ultimo voto, delineano un vantaggio piuttosto sostanzioso di Biden su Trump.
Probabilmente uno degli aspetti sospetti dei sondaggi dopo il 2016 è il modo in cui essi vengono condotti negli swing state, in particolare laddove la working class bianca ha reso possibile la vittoria di Trump. Dalla tua prospettiva, cos’è cambiato dal 2016 ad oggi a livello di campionamento, ad esempio rispetto all’educazione, che in stati come il Michigan venne considerata ai tempi uno dei principali fattori di errore?
Dal mio punto di vista i sondaggi sono piuttosto affidabili, ma vi sono ancora diversi aspetti che andrebbero migliorati. Del resto, i sondaggi del 2016 nel Midwest sono passati alla storia per quanto siano stati sbagliati. Per prima cosa, durante le primarie democratiche, in quegli stati si sottostimò Bernie Sanders (i sondaggi lo stimavano sotto di 20 punti, ma vinse di 1,5 punti in Michigan, NdR). Quello fu un segnale di ciò che accadde dopo: allora vi fu una sottostima della quota di elettori della working class bianchi, con la conseguenza che durante le elezioni presidenziali si sovrastimò la Clinton e si sottostimò Trump. Credo che forse, dopo quanto accaduto alle primarie, avremmo dovuto essere più scettici rispetto ai sondaggi. Ma da allora sembra che i sondaggisti abbiano fatto un lavoro piuttosto buono per correggere quell’errore nel rappresentare la working class. C’è poi anche da aggiungere che non sappiamo nulla degli ultimi dieci giorni prima delle elezioni, quando non si fanno sondaggi. Invece, dal 1948 siamo consapevoli che sarebbe utile avere dei dati anche per quel periodo: allora lo stop dei sondaggi avvenne tre settimane prima del voto e lo scenario cambiò radicalmente.
Insomma, ci sono lezioni che i sondaggisti hanno compreso, ma ci sono comunque ancora dei problemi: in Florida e in Michigan i benchmarks che stanno usando oggi non vanno bene, nel senso che stanno pesando i modelli degli exit poll sul sondaggio 2016, ma sappiamo che non era rappresentativo. Questi sondaggisti ritengono che avere un benchmark sia comunque meglio che non averlo, e che questa volta andranno più vicini a cogliere la realtà di quanto non abbiano fatto nel 2016.
Hai ricordato che il presidente degli Stati Uniti è eletto dai grandi elettori. Secondo il tuo modello, ci sono 7 stati che ritieni contendibili, dal Texas alla Florida, con 143 grandi elettori, e poi hai quegli stati che erano stati cruciali nel 2016, come la Pennsylvania o Michigan, che premiano Biden. Il punto è: quanto è cambiata la mappa elettorale dal 2016?
Sì, in Michigan o Pennsylvania, ad esempio, il nostro modello aveva Clinton avanti di 4 o 5 punti nel 2016, e le dava l’80% di possibilità di vittoria; oggi ha Biden avanti di 8 punti, con una possibilità di vittoria del 91%. Però resta comunque la sensazione che sia ancora sbagliato dire che il Michigan non sia contendibile: noi diamo a Trump 1 possibilità su 10, ma potresti controbattere che l’ultima volta ne aveva comunque solo 3 su 10. Ma di nuovo, considerando che non c’è alcuna correlazione storica per predire il margine di errore dei sondaggi per le prossime elezioni si tratta di una pillola da ingoiare. Sarò però sincero, al momento è difficile credere totalmente ai dati e che Biden sia così favorito come emerge dal nostro modello. Ma è altrettanto difficile credere che il modello sia troppo fiducioso su questi stati, ipotizzando l’esistenza di un margine di errore così ampio nei sondaggi e troppe variabili che dovrebbero cambiare da qui al giorno delle elezioni. Per cui credo che sia semplicemente meglio provare a dare fiducia ai sondaggi. Avrai notato, poi, che in Georgia e North Carolina, Biden è davanti ma non così tanto da avere certezze, quindi sembra che stia cercando di riconquistare il terreno perso dalla Clinton, soprattutto tra i bianchi razzisti del Midwest, e stia giocando sulla forza del partito sopratutto nella Sun Belt, dove c’è stata una registrazione nelle liste elettorali mai vista negli ultimi dieci anni – almeno fino a quando la pandemia ha bloccato i processi di registrazione. Un trend, dunque, che sembra favorevole ai democratici: gli elettori bianchi hanno livelli di educazione maggiore, gli ispanici sono più “amichevoli” che in passato, e questo si riflette sulla mappa elettorale.
Evidenzierei comunque che il modello ritiene che i sondaggi siano troppo benevoli con Biden e che dovrebbe vincere di 8 punti e non di 10 come danno altri modelli, e già questa è una differenza significativa. Ci si può ragionevolmente aspettare che il giorno delle elezioni la corsa sarà ancora un po’ più combattuta di così. La Pennsylvania e data all’80% ai democratici, quindi potremmo aspettarci, se la corsa sarà un po’ più combattuta, che il giorno delle elezioni si sia più vicini al 50 e 50, quindi a quanto accadde nel 2016. Ma a volte è semplicemente difficile fidarsi dei dati. Crediamo che siccome i sondaggi erano errati 4 anni fa, allora lo saranno anche oggi; crediamo che Trump abbia una fascia di elettori “segreta”, che non parla con i sondaggi (e non ci sono prove di questo). Pensiamo però al fatto che nel 2012 si diceva la stessa cosa di Romney, e poi abbiamo visto come è andata. E di nuovo, questo ipotetico margine di errore è difficile da prevedere basandosi sui dati passati. Quindi magari il modello è effettivamente troppo favorevole per Biden, ma è difficile rispondere alla domanda “come dovrebbe essere?”.
The ten likeliest states to decide the electoral college for Biden or Trump, according to our model: https://t.co/O6Lknvo6Kp
Pennsylvania
Florida
Michigan
Wisconsin
North Carolina
Minnesota
Arizona
Georgia
New Hampshire
Texas(in that order)
— G. Elliott Morris (@gelliottmorris) June 30, 2020
Ricapitolando, potremmo pensare a tre categorie di stati a cui Biden deve puntare: quelli tradizionalmente democratici ma che costarono l’elezione alla Clinton nel 2016 (Michigan, Pennsylvania e Wisconsin); poi alcuni stati che furono vinti da Obama nel 2008 (Florida e North Carolina) e poi altri stati che neanche Obama vinse, quali l’Arizona o la Georgia, che oggi tendono verso i repubblicani. Biden avrebbe bisogno solamente di conquistare una di queste tre categorie di stati per vincere. Cosa pensi della demografia? Hai parlato di working class e bianchi, ma vorrei chiederti un’opinione rispetto alle fasce suburbane, che andarono bene per i dem nel 2018, e agli evangelici, che ho letto aver dato qualche segnale di cedimento rispetto a Trump.
Fino ad ora le aree suburbane sembrano essere democratiche come nel 2018, se non di più. Formano una quota piuttosto considerevole dell’elettorato, anche se il loro spostamento a sinistra è grande più o meno quanto quello degli elettori rurali democratici. Quindi non dovremmo dimenticare gli elettori rurali per varie ragioni: in primis, costituiscono una quota sproporzionata più grande di voti del collegio elettorale, dal momento che il collegio elettorale orienta intrinsecamente il risultato verso aree meno popolate; in secondo luogo, costituiscono una quota importante degli elettori nel Midwest. Quindi io terrei un occhio sulle aree rurali! Rispetto agli evangelici sembra effettivamente che stiano resistendo a Trump, ma non saprei dirti onestamente il perché.
Con questo margine per Biden, i democratici dovrebbero conquistare tre o quattro seggi al Senato per avere la maggioranza anche nella Camera alta. Avete elaborato un modello per il Senato?
I democratici avrebbero bisogno di conquistare tre seggi al Senato per raggiungere la maggioranza, ma considerando che perderanno con grande probabilità l’Alabama saranno forse quattro. So che Dan Rosenheck, un mio collega, sta lavorando su un modelllo ad hoc per il Senato.
A proposito dei grandi elettori, credi che ci sia una possibilità che in futuro gli Stati Uniti si liberirino di questo sistema? Quali sarebbero eventualmente le conseguenze?
Credo che per la democrazia americana sarebbe meglio abbandonare l’anacronistico sistema dei grandi elettori. Sarebbe infatti meglio aderire al principio “una testa, un voto”. Del resto, il modo in cui è strutturato attualmente il collegio elettorale crea un bias nel risultato, in particolare a favore dei bianchi e della working class. Ci sono tutta una serie di ragioni che i teorici politici americani hanno addotto sul perché questi due gruppi dovrebbero essere sovrarappresentati nel sistema politico, ma io non sono d’accordo con loro: gli elettori bianchi non sono gli unici in America, e non vi è nulla nell’essere bianco che comporti o giustifichi in qualche modo il godimento di un vantaggio nel sistema politico. Allo stesso tempo, alcune delle ragioni degli stati centrali e più piccoli rispetto alla propria sovra-rappresentatività mi suonano davvero come anti-democratiche.
Una rimozione dei grandi elettori obbligherebbe i candidati presidenti a fare campagne più estese, non solo negli swing states, quindi probabilmente una conseguenza sarebbe anche una maggior democratizzazione del processo di fundraising. Credo sarebbe un risultato positivo per tutti gli Stati Uniti, desiderabile se osservato con gli occhi del XXI secolo. E poi renderebbe il mio lavoro molto più semplice: dovendo tenere in considerazione solo il voto popolare ci eviteremmo molte simulazioni.
Commenta