Arxiu del dilluns, 7/11/2016

Desviats

dilluns, 7/11/2016

S’atribueix a Mark Twain (tot i que vés a saber) la frase “Hi ha tres tipus de mentides: mentides, maleïdes mentides, i estadístiques”. Una frase totalment certa i alhora, profundament injusta. L’estadística és una eina imprescindible, no només per la ciència sinó per anar fent al dia a dia, però és una eina delicada i cal saber interpretar-la. Moltes vegades, sobretot en política i economia, però també en altre camps, ens venen idees, conceptes i productes basant-se en unes fantàstiques estadístiques que resulten errònies.

En ocasions és, simplement perquè les han fet malament. Si vols esbrinar com aniran les properes eleccions i fas una estadística fent preguntes a unes poques desenes de persones d’un únic barri, segur que no encertaràs. Però la culpa no és de l’estadística sinó teva per fer les coses malament. En altres ocasions les dades són correctes, però les mostren de manera enganyosa. Amb gràfics que no comencen on han de fer-ho o amb efectes òptics que distorsionen els resultats. La premsa en va plena d’exemples de manipulació psicològica basada en la manera de presentar unes dades que, en principi poden ser certes.

I una de les maneres més subtils de despistar és posar les dades sense un detall important: la desviació estàndard. Una dada sense la qual, la majoria de gràfics estadístics, per cridaners que semblin, són impossibles d’interpretar.

Tècnicament, la desviació estàndard és la xifra que ens indica quanta variació o “dispersió” hi ha respecte a la mitjana. Estrictament diríem que, per un conjunt de dades, és l’arrel quadrada de la seva variància, però l’important es el concepte.

Si aquesta tardor vull saber a quina zona es fan més bolets, una manera és contar els que troben els boletaires que van a diferents indrets. Cada boletaire és un món, de manera que hi haurà diferències, però si de mitjana en recullen més en un indret que en un altre, pot ser indicatiu que allà n’hi ha més…. o potser no.

Podria ser que hi hagués un boletaire extraordinari que sempre aconsegueixi trobar-ne molts més que la resta. Si aquest geni va a un dels indrets que analitzem, el nombre de bolets que trobarà serà molt elevat i ell solet farà pujar molt la mitjana d’aquella zona. Si només mirem les mitjanes (com fan molts anuncis o moltes enquestes polítiques) ens enganyarem. Podríem tenir valors com 30 bolets de mitjana a la zona A, 28 a la zona B, 33 a la zona C i 59 a la zona D. Això faria pensar que la zona D és la millor, però potser només és la que un únic boletaire en va trobar més de cent.

La desviació estàndard ens diu com de dispersos son els valors. Tindríem, per exemple, que a la zona A la mitjana és 30 i la desviació estàndard és de 3. Podríem interpretar-ho de manera intuïtiva dient que és assenyat esperar trobar-ne tres amunt o avall de la mitjana, es a dir entre 27 i 33. Si a la zona D tenim 59 amb una desviació de 50, voldrà dir que el valor que podem esperar va entre 9 i 109. O en altres paraules, que no sabem res ja que amb tanta variació, el valor real pot ser qualsevol, per molt prometedora que sigui la mitjana.

Per això, els valors de les gràfiques són interessants, però sempre hem de mirar la petita barra que hi ha pintada a sobre i que ens indica el marge d’error que hi ha en aquella estadística. Si és petit, vol dir que els valors són fiables, si és molt gran ja no n’hem de fer massa cas. I si no apareix, el més assenyat és malfiar i pensar que ens volen entabanar.