sabato 19 aprile 2008

Come hanno funzionato le previsioni per il Senato

Durante questa tornata elettorale ci siamo cimentati con l'improbo compito di prevedere la distribuzione dei seggi al Senato. Nelle scorse settimane abbiamo spiegato la metodologia utilizzata, nota come "uniform national swing", una distribuzione uniforme sul territorio della crescita o decrescita di un partito. Siamo stati tra i pochi ad andare vicino al risultato elettorale definitivo. Eravamo visti come mosche bianche. Ma l'intuizione era quella poi risultata. Avevamo previsto da 21 a 30 seggi in più per la coalizione di Berlusconi. Tuttavia la coalizione del PdL è andata oltre, e spieghiamo il perchè.

Dal punto di vista empirico, la previsione dei dati per il Senato si scontrava con due grosse difficoltà:

1) L'indisponibilità di sondaggi a livello regionale. L'ipotesi di lavoro usata per risolvere il problema è quella della distribuzione uniforme dei cambiamenti. Si tratta ovviamente di un'ipotesi molto forte ma, in assenza di dati regionali, sembra meglio delle alternative (che consistono essenzialmente nell'assegnare arbitrariamente tassi diversi di crescita o decrescita di un partito nelle diverse regioni).

2) L'indisponibilità di sondaggi a livello nazionale relativi al Senato; praticamente tutti i sondaggi erano relativi alla Camera. L'ipotesi di lavoro qui è che gli incrementi e decrementi a livello nazionale per la Camera sono identici a quelli del Senato.

C'erano inoltre due problemi addizionali.

a) I partiti e le coalizioni presenti nell'elezione del 2008 erano differenti da quelli dell'elezione 2006. Nella maggior parte dei casi era abbastanza facile collegare le forze del 2006 a quelle del 2008, ma in alcuni casi minori (Rosa nel Pugno, Mussolini, scissionisti DS e altre cosucce) non era ovvio quale fosse la cosa giusta da fare.

b) Non avevamo alcun controllo sulla qualità dei sondaggi che venivano usati come input per la predizione.

Bene, adesso i dati delle elezioni sono praticamente definitivi, quindi ci possiamo porre la domanda: come ha funzionato il modello previsivo? Quali ipotesi hanno creato i maggiori problemi? Per chi si stufa presto di leggere ecco la risposta: il modello ha funzionato abbastanza bene e i problemi principali sono derivati dal punto 2) e dal punto b). Il tasso di crescita dei voti della coalizione PD alla Camera è stato più basso che al Senato (dove il PD partiva da una percentuale più bassa), e questo ha causato una sottostima dei seggi PD. I sondaggi sono stati un problema perché hanno sbagliato clamorosamente il risultato della Sinistra Arcobaleno; a dir la verità non hanno fatto così male per gli altri partiti.

Veniamo ai dettagli. Prima domanda: qual è stata la previsione finale che abbiamo fatto usando la media Tocqueville? Partiamo comparando i risultati della media sondaggi con il risultato effettivo della Camera.


Sondaggi
(media Tocqueville)
Dato effettivo
PdL 44,4 46,81
PD 37,8 37,54
UDC 6,0 5,62
SA 6,6 3,08
DX 2.4 2.4
PS 1.2
1

Come si vede, il risultato di PD e UDC è stato previsto quasi con esattezza (oltre a quello dei partiti minori escusi dalla ripartizione, Socialisti e La Destra). Il risultato del PdL è stato sottostimato, par di capire perché nessuno ha compreso l'esplosione della Lega, e il risultato di SA è stato gravemente sovrastimato.

Confrontiamo ora i risultati finali in termini di seggi esclusivamente per le regioni del porcellum (escludendo quindi Estero, Val d'Aosta, Trentino Alto-Adige e Molise) che sono quelle oggetto dell'analisi. Si tratta di 299 seggi, la seguente tabella descrive la predizione sui seggi che risultava dai sondaggi e quella effettiva che si è realizzata.


Sondaggi
(media Tocqueville)
Dato effettivo
PdL 160 167
PD 125 129
UDC 2 3
SA 12 0

Le variazioni rispetto al dato effettivo riflettono gli errori dei sondaggi, combinati con le caratteristiche del sistema elettorale. In verità l'errore sul PdL, di per sé, non genera grossi sbagli nell'assegnazione dei seggi. Infatti, in tutte le regioni in cui il primo partito è sotto il 55%, una sottostima di due-tre punti non ha alcuna conseguenza in termini di seggi. Il vero problema è stato l'errore su SA. Il dato dei sondaggi la dava oltre la soglia dell'8% in diverse regioni, e in tutte queste regioni sottraeva seggi al secondo arrivato. In altre parole, secondo la media sondaggi l'effetto "regioni rosse" c'era, e in più SA sottraeva qualche seggio addizionale al PD dove questo è minoritario (per esempio in Piemonte).

Ovviamente non possiamo farci molto se i sondaggi sono sbagliati. Però il bello dei dati elettorali è che alla fine il dato vero sulla forza dei partiti viene rivelato. Possiamo quindi porre la seguente domanda: se avessimo avuto sondaggi perfetti quanto avremmo sbagliato nell'attribuzione dei seggi? La risposta a questa domanda ci fornisce un'idea di quanto siano buone o cattive le ipotesi di omogeneità di comportamento tra Camera e Senato e tra regioni. Se mettiamo nel foglio di calcolo i dati veri della Camera otteniamo il seguente risultato.


Seggi: previsione
in base ai risultati Camera
Dato effettivo
PdL 173 167
PD 126 129
UDC 0 3
SA 0 0
Quindi sovrastimiamo PdL e sottostimiamo PD e UDC. Per l'UDC questo è dovuto al fatto che i nostri calcoli la danno appena sotto la soglia in Sicilia. Per il PD il problema è che i dati della Camera sottostimano la crescita del partito al Senato. La situazione infatti è la seguente.

2006 2008 rapporto 08/06
Coalizione PD Camera 36,65 37,54 1,02
Coalizione PD Senato
33,61 38,01
1,13

Nelle ultime elezioni l'Ulivo si è presentato unito alla Camera e diviso al Senato, e ha preso circa il 3% in meno al Senato (non ci furono grosse variazioni invece per IDV e RNP). In queste elezioni questo effetto si è annullato, le percentuali di Camera e Senato sono praticamente identiche. Ma questo ha significato un aumento assai più forte al Senato che alla Camera. Quindi, assumendo che i voti al Senato amentassero come alla Camera abbiamo sottostimato il risultato del PD al Senato.

Quindi l'ultima domanda è: se avessimo avuto sondaggi perfetti nazionali per il Senato quanto avremmo sbagliato nell'attribuzione dei seggi? L'errore in questo caso si può attribuire totalmente all'ipotesi di "uniform national swing", ossia l'errore ci puo dire quanto il risultato elettorale è dovuto a una distribuzione non omogenea tra le regioni della crescita o decrescita dei diversi partiti. Questa è la tabella.


Seggi: previsione
in base ai risultati Senato

Dato effettivo
PdL 165 167
PD 134 129
UDC 0 3
SA 0 0

Se compariamo questi dati con la distribuzione effettiva dei seggi direi che l'ipotesi "uniform national swing" ha funzionato abbastanza bene, almeno per quanto riguarda la distribuzione dei seggi. Se siete interessati all'analisi completa, qui c'è il foglio di calcolo con la comparazione regione per regione. I seggi vengono previsti esattamente in 12 regioni su 17. In Toscana sottostimiamo il PD di un seggio, mentre in Campania lo sovrastimiamo di un seggio (la debolezza del PD in Campania era attesa). In due regioni sbagliamo ad attribuire il premio. In Abruzzo è semplicemente il caso che i due partiti sono vicini. In Calabria il risultato del PD è nettamente inferiore a quello nazionale (l'effetto Fuda-Loiero, anche questo atteso e discusso). Infine, in Sicilia sbagliamo di poco la previsione su UDC, che resta sopra la soglia e prende 3 seggi.

Direi che, tutto sommato, la metodologia non ha fatto niente male. Con i dati "giusti", ossia i dati nazionali del Senato, l'ipotesi di "uniform national swing" avrebbe sbagliato la previsione sul PdL, quella che più contava, solo di due seggi.