Il paradosso di Simpson spiegato ai non statistici

Se non hai ancora capito il paradosso di Simpson, te lo spiego qui

La realtà in cui viviamo è spesso difficile da comprendere, e la statistica si rivela spesso uno strumento prezioso per capirla: ovviamente, tutto questo vle se viene ben utilizzata. Il paradosso di cui parleremo viene attribuito a Edward H. Simpson, uno statistico e crittoanalista della metà del secolo scorso che illustrò il problema. Lo fece con l’articolo scientifico The interpretation of interaction in contingency tables, per quanto lo stesso paradosso sia stato descritto anche da altri ricercatori, tra cui un articolo precedente di George Yule (Notes on the theory of association of attributes in Statistics) già nel 1903.

Anche la voce italiana di Wikipedia in merito non sembra purtropo di grande aiuto (quella in inglese è forse ancora più teorica e ricca di tecnicismi). Le altre fonti web che spiegano il fenomeno simpsoniano (che nulla c’entra con la famiglia di Homer, per inciso) sono in genere un po’ superficiali, a volte astruse, spesso troppo tecniche (nella migliore delle ipotesi), mentre gli esempi classici che si usano per illustrarlo sono purtroppo, in qualche modo, infelici, sicuramente poco adatti al grande pubblico e spesso spiegati in malo modo. Nel metterla su questo piano non si vuole discutere la scientificità degli stessi, chiaramente, ma esclusivamente (e senza alcun riferimento in particolare) la fruibilità del linguaggio utilizzato. A volte, in effetti, farsi capire dagli altri è più difficile dell’atto del comprendere stesso – questa cosa le università dovrebbero capirla meglio, dato che tanti equivoci della modernità lo confermano.

Perchè il paradosso di Simpson è importante da capire

Il paradosso di Simpson è stato utilizzato in più contesti per illustrare il tipo di risultati fuorvianti che l’uso improprio delle statistiche è in grado di generare, vale a dire: non basta guardare le percentuali per trarre conclusioni che potrebbero rivelarsi affrettate. Sarebbe importante essere consapevoli della possibile manipolazione, anche in buonafede, che un’analisi statistica grossolana può indurre in ognuno di noi. Nel caso del paradosso di Simpson parliamo di dati analizzati in forma aggregata che possono portare a percentuali discordanti se presi singolarmente (e naturalmente anche viceversa). La cosa che il paradosso ha fatto emergere è che molto dipende dalla popolarità dei campioni, soprattutto se sono disomogenei e distribuiti in modo differente.

Definizione del paradosso di Simpson

Il paradosso di Simpson è un fenomeno di probabilità e statistica in cui una tendenza sembra uscire fuori, almeno apparentemente, da gruppi di dati distinti, ma scompare – o addirittura si inverte – quando i gruppi vengono combinati tra loro. È particolarmente problematico perchè, di fatto, induce errori di valutazione e falsa causalità tra fenomeni, anche in ambiti sensibili come quello medico o delle scienze sociali. Il paradosso può essere risolto quando le variabili confondenti e le relazioni causali sono affrontate in modo appropriato nella modellazione statistica.

L’università “maschilista” di Berkley

Il classico esempio che proveremo a ripensare, anche per inquadrare diversamente alcune delle polemiche recenti sul politicamente corretto (giusto in alcuni casi, meno in altri), riguarda quello dell’università di Berkeley, la quale apparentemente discriminava le studentesse in favore degli studenti maschi. 44% dei maschi ammessi ai corsi, secondo i dati dell’epoca, contro il 35% delle donne: ma andando a vedere i dati puntuali ovvero quelli dei singoli indirizzi, per alcuni di essi le donne ammesse erano in realtà di più.

I dati globali dicevano quindi una cosa (più uomini che donne ammesse):

quelli dei singoli dipartimenti ne dicevano un’altra:

Ciò che sembrava una discriminazione sessista a livello di dati aggregati portava a conclusioni opposte analizzando i dati per ogni dipartimento. Emerse peraltro, cosa tutt’altro che poco significativa, che le donne tendevano ad iscriversi agli indirizzi più selettivi o impegnativi, dove comunque le ammissioni erano più rare, mentre i maschi facevano domanda per gli indirizzi più facili (come spiega molto bene Travaglini nelle sue slide).

In breve: l’aggregazione di dati comporta il calcolo di medie, che nel caso specifico avrebbero dovuto essere pesate su ulteriori fattori di ogni facoltà. Ciò che sembrava evidente a livello di media aggregata, pertanto, non era così marcato sui singoli dati per facoltà che componevano il caso specifico.

Come interpretare il grafico del paradosso di Simpson

Adesso dovrebbe essere più chiaro il senso del pluri-citato grafico in cui vediamo due andamenti distinti di dati, i quali mostrano un verso crescente che poi si inverte sui dati aggregati: è lo stesso ragionamento di cui sopra. Il grafico usato per spiegare l’effetto paradosso di Simpson rende bene visualmente: le linee blu e rossa indicano un andamento crescente, mentre la loro combinazione (la linea tratteggiata) può capitare tranquillamente, come in questo caso, che indichi un andamento opposto. Non c’è alcuna contraddizione effettiva in questo, perchè come abbiamo visto ci possono essere fattori legati alle caratteristiche dei singoli partecipanti al calcolo statistico che sono stati deliberatamente o involontariamente ignorati.

By Schutz – Own work, Public Domain, https://commons.wikimedia.org/w/index.php?curid=2240877

Correlazione non implica causalità

Se due grafici riportano andamenti simili per due fenomeni, non è detto che un fenomeno “dipenda” dall’altro come si sarebbe portati a credere: la falsa causalità è un bias cognitivo molto diffuso, specie tra i non addetti ai lavori. La causalità è facile da determinare e questo porta all’idea sbagliata che sia sempre una deduzione esatta, ma non è così.

Lo prova ad esempio, in modo divertente, il grafico del consumo di mozzarella pro capite negli USA che ha un andamento simile con quello del numero di dottorati in ingegneria civile (fonte): chiaramente le due cose non possono c’entrare nulla tra loro, eppure la loro correlazione statistica è prossima al 100%.

La massima correlation does not imply causation (correlazione non implica causalità, ovvero il fatto che due grafici di andamenti siano simili o sovrapponibili non significa affatto, come molti tendono a pensare, che uno causi o influenzi l’altro) si lega bene al discorso che abbiamo proposto, e all’esempio forse più chiaro tra quelli presenti in letteratura. Molti equivoci statistici, del resto, si basano su qualcosa di “extra” rispetto alla statistica stessa, e non si dovrebbero spiegare solo con la statistica in modalità divulgativa, quantomeno – per quanto, ovviamente, sia formalmente corretto farlo.

Il problema di quello di Simpson è che non si tratta di un paradosso che fa sospendere il giudizio come molti altri paradossi: al contrario (e probabilmente per via dell’effetto Dunning-Krueger), corrobora convinzioni errate, e fa attribuire causalità ad eventi non collegati tra loro.

Paradosso di Simpson ed efficacia dei vaccini per il Covid-19

Si è parlato di paradosso di Simpson questa estate, anche in Italia, in relazione a dati statistici controversi (o mal interpretati) dal punto di vista di alcuni soggetti no-vax, ovvero contrari al vaccino per il Covid-19.

Dai dati sembrava che i vaccini fossero inefficaci, poichè i dati recenti sembravano mostrare che su un campione di ricoverati per Covid in forma grave, più della metà (58,4%) fossero completamente vaccinati. Il Washington Post ha spiegato bene perchè questa deduzione è errata: all’epoca dei fatti l’80% degli israeliani erano vaccinato. Partiamo pertanto dal presupposto che se anche il 100% lo fosse stato, una piccola percentuale di ricoveri o casi fatali di Covid-19 ci sarebbe probabilmente stata lo stesso. Nessun vaccino è purtroppo in grado di dare protezione nella totalità dei casi, anche per via delle sintomatologie specifiche dei singoli, che possono cambiare caso per caso.

Ad agosto 2021 301 persone (53 persone ogni milione di abitanti) con ciclo vaccinale completo sono state ricoverate; al tempo stesso, si rilevò che 214 persone non vaccinate erano state ospedalizzate anche esse. Qui viene il primo inghippo a cui fare attenzione: queste persone, essendo di meno rispetto ai vaccinati, finivano per costituire una frazione molto più grande della più piccola popolazione, per l’appunto di persone non vaccinate (164 su ogni milione). Di fatto, è corretto dire che i non vaccinati avevano il triplo di probabilità di essere ricoverati rispetto ai vaccinati, proprio perchè 164 è poco più del triplo di 53.

Tornando al dato iniziale, quell’inquietante 58,4% comunque vaccinato e ricoverato, l’errore stava nel fatto che questa percentuale era aggregata: l’incidenza maggiore della mortalità dipende esclusivamente dal fatto che la maggiorparte dei vaccinati era anziana e quindi, per forza di cose, più soggetta a rischi.

Gli israeliani vaccinati erano più anziani rispetto a quelli non vaccinati. Ed è per questo, e solo per questo, che sono stati ricoverati in maggior numero. Tra gli adulti israeliani sotto i 50 anni, al 15 agosto, 3,5 milioni erano vaccinati e 1,1 milioni no. Questo è ancora un numero considerevole di resistenze ai vaccini. Tra quei 3,5 milioni di giovani vaccinati, solo 11 sono stati ricoverati in ospedale, circa tre per milione. Nel frattempo, dei non vaccinati in questa fascia di età, 43 erano in ospedale, ovvero 39 per ogni milione.

Foto di Deedster da Pixabay