Sunday, June 1, 2014

Perché i sondaggi sbagliano, punto interrogativo

Se la memoria non mi inganna, all'indomani delle lezioni politiche 2013 i maggiori istituti di sondaggio italiani furono di nuovo tutti in grado di illustrare un panorama delle preferenze politiche dei cittadini italiani perfettamente compatibile con il risultato appena uscito dall'urna. Questo, nonostante avessero appena preso delle cantonate su alcuni partiti sino a tre giorni prima del voto. Alcuni esempi: aver nettamente sottostimato il successo del movimento di Grillo, parzialmente quello de Berlusconi, aver nettamente sovrastimato le preferenze per Monti & co., parzialmente sovrastimato la forza del PD. Alcune di queste discordanze possono essere fisiologiche, ma una me ne colpì: Il M5S era dato attorno al 15% appena qualche giorno prima, poi prese il 25%. Dalla settimana successiva, per tutti i sondaggisti che apparivano in Tv il M5S era stabilmente nelle vicinanze del 25%. Ricordo che questo fatto mi colpì molto ed oggi mi ha indotto ad una riflessione che esporrò.

Nel corso di questo ultimo anno, il M5S ha oscillato nelle previsioni tra il 19 e il 26 percento. Nel frattempo è moderatamente cresciuto il PD. A tre giorni dal voto, ormai tutti davano il primo tra il 25 e il 29 e il secondo tra il 30 e il 34. Voglio qui evidenziare un dato e fare una previsione.

Il dato su cui concentrarci adesso è quello dell'Istituto che fa i sondaggi per Mentana: nel giro di un'ora, ha prima dato il PD al 34% con gli exit poll (le interviste all'uscita del seggio, qui assumiamo che siano state effettivamente raccolte come presumo da contratto); poi lo ha dato quasi al 40% con la prima proiezione su un piccolissimo campione (ma scelto con criteri statistici) di schede scrutinate (le famose proiezioni). In effetti, il PD ha poi superato il 40% una volta finiti i conteggi su tutte le schede. Decade definitivamente la spiegazione mitologica che vuole il ribaltamento della convinzione degli elettori a pochi giorni oppure ore dal voto: dopo che avevano votato, gli elettori apparentemente le sparavano ancora grosse nelle interviste.

La mia previsione consiste nell'anticipare che in tutti i prossimi sondaggi, di tutti gli istituti statistici maggiori, da lunedì stesso il PD si attesterà intorno al 40% o più. Se questo evento si verificherà, reputo che ciò possa costituire l'evidenza di un gravissimo errore di fondo nel metodo.

A chi ha un minimo di dimestichezza con le regole della statistica, gli eventi citati su (andrebbe aggiunto a questo punto il celebre "recupero" di Berlusconi, guardacaso attribuitogli proprio durante il silenzio elettorale nel 2006) non trovano soddisfacente spiegazione e non sono compatibili con alcuna ipotesi di correttezza dello studio statistico. Per capirlo è sufficiente invocare gli stessi istituti, estremamente abili nel prevedere la percentuali dei partiti quando analizzano i piccolissimi campioni di schede votate. In effetti, quando un campione viene scelto correttamente, cioè con un corretto criterio in modo che racchiuda tutte le componenti del totale della popolazione, esso può essere di taglia estremamente piccola e dare risultati straordinariamente corretti, cioè vicini al dato reale su tutta la popolazione.

Ci viene fornita una spiegazione ricorrente: una parte dell'elettorato non fornisce risposte fedeli, se intervistato. Viene invece qui rigettata, visto l'errore riportato degli exit poll, la giustificazione che invoca repentini "cambi di casacca" proprio nell'imminenza del voto: gli exit poll sono censiti dopo il voto, e non prima, ed erano errati come i sondaggi, e non certo azzeccati come le proiezioni. Sono dunque d'accordo solamente con la prima osservazione: è possibile, e non possiamo del tutto escluderlo, che gli istituti scelgano correttamente i loro campioni statistici da un punto di vista "distributivo", ma sono i campioni stessi intrinsecamente ad essere non rappresentativi, poiché la parte di intervistati che non risponde o risponde infedelmente non si distribuisce in modo proporzionale al totale della popolazione ma è partito-dipendente.

Ritengo che l'errore in questo caso risieda proprio nel fatto che tutti gli istituti statistici italiani abbiano tentato di incorporare la tendenza menzionata nelle loro valutazioni statistiche, finendo per diffondere maggiormente l'errore.

L'ipotesi che faccio è un'ipotesi di studio. Non sono al corrente dei metodi usati dagli istituti italiani, del resto sono tutti restii a parlarne in pubblico. Grave errore, unito al fatto che non ci viene spiegato in modo coerente e razionale quale fenomeno abbia sistematicamente sbugiardato il loro lavoro di un intero anno proprio al momento della tornata elettorale. Ci vengono solamente proposti dei sondaggi nuovamente "coerenti" solo dopo le elezioni, come se l'errore fosse stato prontamente corretto. Ad ogni anno successivo, invece, la dissonanza si ripresenterà puntuale al momento del voto.

L'ipotesi di fondo, dicevo, è che gli istituti di sondaggio compiano tutti lo stesso errore sistematico. Il fatto che sbaglino tutti, apparentemente in modo indipendente ma reciprocamente concorde, sembrerebbe indurci a pensare ad un reale comportamento erratico della popolazione italiana, a riflettere cioè una reale disconnessione tra risposta ad un'intervista e voto nell'urna, che giunga a catarsi il giorno delle elezioni, per poi stabilizzarsi per qualche tempo dopo. Ma se l'errore è sistematico, al contrario saranno sempre tutti gli istituti a sbagliare in solido e mai uno solo, semplicemente perché quell'errore di metodo viene adottato da tutti. Questo errore di metodo consisterebbe a mio avviso in un tentativo (errato, a questo punto) di compensare, tramite la definizione del campione ed (od) i pesi da attribuire alle singole risposte, la correlazione tra infedeltà nella risposta e la preferenza partitica. O tra reticenza alla risposta e quest'ultima. Forse questo sistema viene copiato da un istituto all'altro, o forse appare solo a tutti il più logico. Potrebbe darsi che parte dell'induzione all'errore provenga dalla necessità comunque di assecondare il committente, che mai vedrebbe con favore un sondaggista del 2013 che il giorno dopo il M5S al 25% pretendesse di darlo di nuovo al sedici o meno.

Illustro qui a grandi linee ed in modo molto schematico, ma solo a titolo di esempio, come uno di questi ipotetici meccanismi compensativi, che generano errori statistici sistematici, potrebbe funzionare. Mettiamo che nel momento storico T, analizzando le risposte ai quesiti posti in un campione di interviste e i risultati elettorali, in una certa parte discordanti, un istituto statistico verifichi che sia plausibile che: chi vota il partito X tende più di altri a dichiararlo esplicitamente; tra coloro che si dichiarano indecisi i simpatizzanti del partito Y sono prevalenti; se un intervistato sceglie di non dare alcuna risposta e rifiuta il sondaggio, accade più spesso che sia un elettore abituale del partito Z invece che di X o Y. A questo punto gli esperti decidono di assegnare dei particolari pesi statistici in sede di analisi numerica alle risposte "voto X", "sono indeciso", "non voglio rispondere", in modo tale che le interviste tornino ad essere una fedele rappresentazione dell'elettorato. Questo sistema è una sorta di registrazione del metodo di conteggio delle risposte.

Fino all'elezione successiva, gli esperti si sentiranno rinfrancati dal fatto che il flussi seguano andamento regolare, senza sbalzi, e riflettano le notizie politiche. E dal fatto che i colleghi dicano le stesse cose. Ma arriva una nuova elezione ed accade il patatrac: la previsione salta completamente, tutti gli istituti fanno una momentanea figuraccia in solido, ma in tutta fretta e furia i pesi vengono aggiornati e nuovamente registrati, e il profilo dell'intervistato medio ad una settimana o due dal voto torna ad essere in linea con l'ultimo risultato elettorale. Cosa è successo nel frattempo? Semplice, quei pesi hanno completamente mascherato i flussi delle preferenze politiche da un partito all'altro, poiché tali flussi avvengono in maniera preponderante proprio all'interno dei gruppi di coloro che si dichiarano indecisi o non vogliono rispondere. Li si è assunti statici, ancorati alle preferenze dell'elezione precedente. Si tratta di persone che stanno cambiando idea, ma il loro peso statistico viene congelato dal fatto che vengono assegnati di default a Y o Z. La perdita di convinzione degli elettori di X viene invece mascherata dall'assunto che siano restati i più determinati vita natural durante.

Il meccanismo di compensazione descritto, nel dettaglio, potrebbe non essere quello di assegnare dei pesi, ma solamente di forgiare dei campioni di indagine selezionati ad hoc. Sarebbe comunque una sorta di bias indotto che troverebbe giustificazione solo sull'assunto che esistano fisse tipologie di cittadini elettori.

Attendiamo ora i prossimi sondaggi, in linea con il PD al 40% e oltre, come d'incanto coerenti con le urne di fine maggio.