Entrades amb l'etiqueta ‘probabilitat’

No tenim por

dimecres, 23/08/2017

En Josep Ramoneda deia fa pocs dies que haurem de conviure amb atemptats com el de la setmana passada, però que la probabilitat de ser víctima d’un atac és molt baixa i que per tant no s’ha de tenir por. Deia que la societat només té una sortida: defensar la normalitat.

Tot i el terrible que és la situació, he de dir que em sento orgullós d’aquesta frase que també citava en Ramoneda i que s’ha convertit en el lema de la resposta ciutadana d’aquests dies: “no tinc por”. Perquè no podem caure en el parany de la por, i perquè si raonem en base al que ens diu l’estadística i en concret l’anàlisi de probabilitats, segurament deixarem de tenir por. Tot es deriva d’una confusió (sovint intencionada) entre esdeveniments que no tenen res a veure els uns amb els altres. Quina era la probabilitat que hi hagués algun atemptat a Barcelona durant un determinat període (per exemple, entre 2017 i 2020)? És difícil de calcular, però sí que podem dir que era elevada, perquè Barcelona és llaminera. I quina és la probabilitat que tinguem un atemptat a Europa durant els propers 12 mesos? Tots acceptarem que és pràcticament del 100%, com ho és la probabilitat que hi hagi un atemptat en algun lloc del món durant els propers dos mesos. Quan parlem de grans zones de la Terra o de llargs períodes de temps, les probabilitats sempre són elevades, perquè tots els fets, de tant en tant, passen. Això és cert tant si parlem d’atemptats com si pensem en inundacions, huracans o terratrèmols. Ara bé, una cosa és parlar de regions, països o ciutats, i una altra és parlar de persones concretes: quan confonem esdeveniments i ens apliquem a nosaltres les probabilitats que s’apliquen a regions i ciutats, és quan comencem a perdre de vista la realitat. Perquè, com bé explica en Josep Ramoneda, la probabilitat que tenim de ser víctimes d’un atac aquí a casa nostra és molt baixa (jo diria que obscenament baixa, si la comparem amb la que tenen altres persones que viuen a regions conflictives del planeta). Les taules que ens proporciona el Centre de Recerca sobre la Globalització del Canadà, que podeu trobar referenciades en aquest article, són ben eloqüents: en base a dades del 2008, el risc anual de morir per atemptat terrorista al Regne Unit és de 1 entre un milió cent mil, i al Canadà és de 1 entre tres milions vuit-cents mil. En canvi, el risc anual de morir per accident de tràfic és de 1 entre 23.000 i de 1 entre 13.500 al Regne Unit i al Canadà, respectivament. Als Estats Units, és 33.842 vegades més probable morir de càncer que d’un atac terrorista. De veritat que hem de tenir por?

Els fets no són evitables, ho hem d’acceptar. Podem treballar per fer-los més improbables, però hem de ser ben conscients que la seguretat total no existeix. Som limitats, finits, i no ho podem controlar tot. D’aquí dos, tres o deu segles, hi haurà grans desastres naturals, tant si la espècie humana existeix com si s’ha suïcidat. I com tots bé sabem, la probabilitat que els que llegim això no hi siguem d’aquí a cent anys, és del 100%.

La nostra resposta, en canvi, la nostra reacció als fets, la construïm nosaltres i és responsabilitat nostra. És cert que partim d’hàbits evolutius que no ens ho posen fàcil. Si ens deixem portar pel tros de cervell de rèptil que encara tenim, anirem a respostes racistes i d’actuació ràpida, plenes d’odi i venjança. Perquè sentim una atracció innata per allò que és morbós i negatiu, i és un fet que les noticies sobre catàstrofes, guerres i destrucció tenen més audiència que les que parlen de la gent que treballa per la construcció de la pau i els drets humans. El “no tinc por”, en canvi, és una resposta des de la serenitat que pot ajudar a construir marcs de convivència i de pau.

“No tinc por” és una frase incòmoda, per dir-ho en paraules suaus. En Timothy Snyder recorda que quan es produeix un atac terrorista, les autoritats sovint se’n aprofiten per consolidar el seu poder, i que la tirania moderna és la gestió del terror. El mecanisme de tot plegat és la por de la gent, que ens fa demanar més seguretat i que és l’excusa per incrementar la securització i la militarització, per retallar els drets humans i per posar fi al sistema de controls i contrapesos dels Estats de Dret. Però una societat sense llibertat i sense drets humans no pot lluitar de manera eficaç contra el terror. En Timothy Snyder diu a més que “la suspensió de la llibertat d’expressió i del dret a un judici just […] és el truc més antic del manual hitlerià”. En canvi, si no tenim por, deixarem de demanar més securització, no acceptarem una reducció dels drets humans, i “last but lot least”, no contribuirem a l’espiral que acaba amplificant el terror internacional. El lema “no tinc por” va directe a tallar les arrels de la guerra contra el terrorisme. Perquè, com diu en José Luis Gordillo, aquesta guerra contra el terrorisme “és una gran operació de màrqueting (relacionada amb la por de les elits a la fi del petroli abundant) que amaga depredació i reducció de drets humans i que aconsegueix el suport social amb la política de la por”. L’absència de por ens permet a més controlar i eliminar l’odi, com observen, entre molts d’altres, Amnistia Internacional i el mateix Timothy Snyder. Snyder, per cert, també ens fa algunes propostes dignes de consideració: “investiga… mira d’entendre les coses per tu mateix… perquè renunciar als fets és renunciar a la llibertat” – “dedica estona als articles llargs” – “una part del que hi ha a internet hi és per perjudicar-te” – “finança el periodisme d’investigació subscrivint-te a mitjans impresos” – “responsabilitza’t de la informació que transmets als altres”.

Per cert, en Josep Ramoneda diu també que l’obligació dels governs és asserenar i tranquil·litzar, en lloc de elevar el to verbal i endurir la legislació buscant legitimar-se davant la societat atemorida.

El número 1515

dijous, 28/01/2016

Avui fa un mes de l’aparició mediàtica del numero 1515. De cop, tothom va començar a parlar de si un empat a 1515 vots era o no probable. Sembla impossible que només faci un mes, oi?. Amb la quantitat de coses que han passat…

Hi va haver molt debat a les xarxes a partir d’una pregunta de Gerard Piqué, que va demanar quina probabilitat hi havia que l’assemblea dels Cupaires acabés en empat. El debat va incloure intervencions, entre d’altres, d’en Xavier Sala-i-Martin i dos supòsits que va publicar l’Ara amb raonaments relacionats amb el llançament d’una moneda. Malauradament, les votacions no es poden analitzar amb models de monedes, perquè els humans anem canviant d’opinió, a diferència de les boles i monedes.

Escric aquest article aprofitant l’avinentesa que avui, com deia, fa un mes de tot plegat, i també perquè alguns companys m’ho han demanat. En tot cas, vull deixar clar que es tracta única i simplement d’un exercici de càlcul de probabilitats per mostrar que moltes afirmacions que es van fer i que deien que l’empat era molt i molt improbable, eren falses.

No podem parlar de llançament de monedes perquè els humans som força més complicats, però també perquè les probabilitats depenen de la informació prèvia que tinguem. No és el mateix la probabilitat de tenir un retard de més de 15 minuts en el tren que he d’agafar demà si no tinc cap més informació, que aquesta mateixa probabilitat si sé el tipus de tren i/o el lloc on sóc, perquè les probabilitats de retard d’un rodalies, d’un TGV o d’un tren Alemany o Suïs són totalment diferents.

Diuen que per tal de poder trobar una solució, cal abans saber quin és el problema. Cèsar ho va fer, tot posant en evidència que calia considerar la informació prèvia que ja teníem (vegeu el comentari del 28/12/2015 a les 18:25). Va explicar que calia partir dels resultats de la segona votació, que de fet eren una evolució bastant previsible dels resultats de la primera: 1512 vots en contra d’investir a Mas, 1510 vots a favor d’investir-lo (1482 + 28 = 1510) i 20 blancs i nuls. La pregunta de Cèsar era un bon plantejament del problema: “tot sabent aquests resultats de la segona votació, quin resultat es pot esperar a la tercera votació?”.

Però no n’hi ha prou. Encara cal fer més hipòtesis, i alguns supòsits addicionals que es van fer a les xarxes socials no són correctes. No es pot aplicar la llei binomial, perquè les persones no som boles blanques i negres. Les persones canviem d’opinió, i en un cas tan ajustat com el que estem considerant, aquests canvis són els que determinen el resultat. No podem pensar que el vot de 3022 de persones (1512+1510) ja era conegut, per la mateixa raó: és ben probable que algú canviés el seu vot entre la segona i la tercera votació. I no crec que puguem pensar que els 28 que havien votat sí a Mas però no a l’acord votarien sí a la tercera votació, o que hi hauria un canvi de vot només en vuit dels 20 vots nuls.

L’element clau que ens aniria bé saber és quantes de les 3022 persones que van votar una opció definida a la segona votació, van canviar el seu vot a l’hora de votar per tercera vegada. Segurament hi va haver canvis en els dos sentits, encara que el que a nosaltres ens interessa és el còmput total. I com que no tenim manera de saber el que va passar, ho hem d’expressar en forma de probabilitats. Per fer-ho fàcil, proposo anomenar PC(0) la probabilitat que, a la tercera votació, les 3022 persones continuessin repartint-se en 1512 vots en contra i 1510 a favor (parlo de totals, no de persones concretes). De la mateixa manera, PC(1) és la probabilitat que, a la tercera votació, les 3022 persones es repartissin en 1511 vots en contra i 1511 a favor, i PC(-1), la probabilitat que el resultat fos un vot menys a favor i un vot més en contra. En general, PC(x) és la probabilitat que els 3022 vots es repartissin en 1510+x vots a favor i 1512-x vots en contra, on x és qualsevol valor enter, positiu o negatiu. És bastant plausible que PC(0) sigui un valor petit, que PC(x) creixi per valors petits del valor absolut de x, i que després torni a ser petit a mesura que aquest valor absolut de x va creixent, perquè és rar que moltes persones a la vegada vagin canviant de vot.

La probabilitat condicionada ens permet, ara sí, calcular la probabilitat d’empat en base a la probabilitat d’empat quan coneixem el nombre de canvis en el grup de 3022 vots (que anomenaré PE), i a aquesta probabilitat de canvi PC(x). En concret, la probabilitat d’empat és la suma de PE(0)*PC(0) + PE(1)*PC(1) + PE(-1)*PC(-1) + PE(2)*PC(2) + PE(-2)*PC(-2) +…, per tots els valors de x fins que PC(x) sigui suficientment petit. Estic suposant que ningú de les 3022 persones va deixar de votar a la darrera votació, però si volem incloure aquest supòsit és ben fàcil, només cal afegir termes a la suma anterior. En tot cas, els valors de PE són les probabilitats d’empat sabent el resultat de la segona votació i sabent el còmput total dels canvis de vot de les 3022 persones (fixeu-vos que el que estem fent és sumar per totes les possibilitats d’aquest còmput de les 3022 persones, que no coneixem). Per exemple, PE(0) és la probabilitat d’empat sabent que les 3022 persones van continuar repartint-se en 1512 vots en contra i 1510 a favor, mentre que PE(2) és la probabilitat d’empat sabent que les 3022 persones van repartir-se en 1510 vots en contra i 1512 a favor. En el primer cas, el que calia és que, dels 20 vots restants, 3 fossin en contra i 5 a favor (o bé 4 en contra i 6 a favor, etc., vegeu la nota al final), mentre que en el segon cas hi hauria empat si, d’aquests 20 vots, 5 fossin per exemple en contra i 3 fossin a favor. No sabem el comportament d’aquestes 20 persones i el que van fer, però és clar que els valors de PE(y) no són massa petits, perquè no estem parlant del comportament de 3030 persones sinó del que van fer 20 persones (suposant, és clar, que ningú marxés entre les dues votacions), vegeu la nota la final. En concret, PE(0) és del 9,7%. En d’altres paraules, si el grup de 3022 persones que ja havia votat sí o no hagués mantingut el seu total de vots afirmatius i negatius, la probabilitat d’empat a la tercera votació era del 9,7%, quasi un 10%.

Algunes conclusions. En primer lloc podem afirmar que, com que alguns valors de PC(x) no són petits i com que els valors de PE(y) tampoc ho són, la probabilitat d’empat després d’una segona votació 1512-1510 no és pas tan petita com es va dir (a la nota del final podeu veure el resultat amb alguna hipòtesi addicional). En segon lloc, hem d’acceptar que no tenim prou dades per a calcular les PC(x) i les PE(y) i que per tant no podrem saber amb exactitud la probabilitat final d’empat, perquè aquests valors depenen del comportament de cada grup humà en concret i no disposem d’estudis sociomètrics suficients.

En poques paraules: l’empat era molt més probable del que molta gent va dir.

Per cert, acabo amb una frase que m’ha agradat: l’Albert Sàez diu que, amb la crisi dels refugiats, els tolerants països nòrdics han deixat de ser-ho. Pensa també que la mort de Schengen és la mort d’Europa.

———

NOTA: Una primera consideració és que, com que la suma de totes les PC(x) (que representen tots els comportaments possibles de les 3022 persones) ha de ser la unitat, podem afirmar que la probabilitat d’empat és superior al mínim de tots els valors PE(y).

Pel que fa a la probabilitat d’empat PE(y), la podem calcular si encara fem alguna hipòtesi extra. El que segueix ho concretaré a dos casos concrets, PE(0) i PE(2), però el raonament és fàcilment extrapolable a qualsevol altre valor de y. Aquest valor de PE(y) depèn del comportament de les 20 persones que havien votat nul o blanc a la segona votació que, com és evident, no podem analitzar ni descriure amb les poques dades que tenim. Però un cop més, i concretant-nos al cas PE(0), podem escriure que PE(0) = Prob(2,0)*PV(2) + Prob(3,1)*PV(4) + Prob(4,2)*PV(6) + Prob(5,3)*PV(8) + Prob(6,4)*PV(10) + … + Prob(11,9)*PV(20). És una suma de 10 termes, on PV(k) és la probabilitat que un total de k de les 20 persones votessin a la tercera votació, i Prob(5,3), per exemple, és la probabilitat que les vuit persones que van votar ho fessin en forma de 5 vots afirmatius i 3 vots negatius. Tot plegat és degut a que estem calculant la probabilitat d’empat en general, no pas la d’empat a 1515. Observeu també que totes les k dels factors PV(k) són parells, perquè en el cas PC(0) i PE(0), l’empat era impossible si el nombre de vots del grup dels 20 era senar. Podríem fer ara la hipòtesi extra que, del grup de 20, era tan probable que votessin dues persones com que votéssim tres persones, o qualsevol altre nombre de persones. No ho sabem, però alguna cosa hem de suposar. En aquest cas, és clar que totes les PV(k) són iguals a la fracció 1/21, perquè hi ha 21 casos (podien votar 0, 1, 2, .. o 20 persones). I els valors Prob(i,j) = Prob (j,i) són fàcils de calcular usant la combinatòria, perquè si suposem que i>j i diem n=i+j, el valor de Prob(i,j) és igual al nombre combinatori “n sobre j” (casos favorables) dividit per “2 elevat a n” (total de casos possibles).

En resum, PE(0) = (Prob(2,0) + Prob(3,1) + Prob(4,2) + … + Prob(11,9) )/21. Si feu el càlcul, el resultat és PE(0) = (0,25 + 0,25 + 0,2344 + 0,219 + 0,205 + 0,1933 + 0,1833 + 0,1746 + 0,1670 + 0,1602)/21 = 0,09699. En d’altres paraules, si el grup de 3022 persones que ja havia votat sí o no va mantenir el seu total de vots afirmatius i negatius, la probabilitat d’empat a la tercera votació era del 9,7%, quasi un 10%.

El cas PE(2) és molt similar, així com tots els altres: PE(2) = Prob(0,2)*PV(2) + Prob(1,3)*PV(4) + Prob(2,4)*PV(6) + Prob(3,5)*PV(8) + Prob(4,6)*PV(10) + … + Prob(9,11)*PV(20). Per cert, és fàcil veure que sempre es compleix que PE(0) = PE(2) = 0,09699. I de la mateixa manera podríem calcular tots els altres PE(k) que necessitem per a saber la probabilitat d’empat. Però com que ja es veu que les PE(k) seran del mateix ordre, podem afirmar que la probabilitat d’empat era molt més elevada del que la gent va acabar pensant…

Hem de preguntar a molta gent?

dimecres, 26/08/2015

Veiem moltes enquestes i sondeigs als mitjans de comunicació. Fins a quin punt ens podem creure el que diuen? Cóm és que hi ha vegades que encerten i altres vegades que no?

Pensem en el cas més senzill de preguntes amb només dues opcions de resposta. Algú fa un sondeig per determinar quanta gent votarà una certa opció política. Al final, el que surt als diaris és que hi ha un 46,3% de futurs votants que pensen votar-la, per exemple. Cóm podem saber el percentatge de gent que vol votar una determinada opció, si no hem preguntat a tothom?

La resposta és que aquesta xifra del 46,3% és només una aproximació. De fet i com sabeu, no estic dient res de nou perquè tots sabem que les estadístiques donen aproximacions: no poden donar valors exactes. En tot cas, el que és menys conegut és que per entendre bé qualsevol resultat d’una enquesta o sondeig hem de saber el valor de l’error i l’interval de confiança. A l’exemple anterior, el correcte seria dir: “amb un error del 1% i un interval de confiança del 95%, podem dir que el 46,3% de futurs votants pensen votar aquesta opció”. Ningú explica tot això per no enfosquir i complicar el missatge comunicatiu, però aquests dos valors, l’error i l’interval de confiança, segur que són ben coneguts pels estadístics que han analitzat les dades de l’enquesta. La idea és senzilla. Ens cal fixar un error  perquè mai podem tenir una certesa absoluta en estimacions que són resultat de sondeigs. Així, quan acceptem un error del 1%, el que estem dient i que podrem afirmar és que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, amb un 1% d’incertesa en els dos sentits. Ara bé, és clar que encara no n’hi ha prou perquè el fet de preguntar a un conjunt de persones mai ens donarà informació precisa sobre el que vol fer la resta, ni tan sols acceptant aquest error del 1%. Però aquí és on arriba l’estadística per ajudar-nos amb els intervals de confiança. Què volem dir quan parlem de què l’interval de confiança és del 95%? Volem dir que si algú ve i ens diu que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, tindrà raó el 95% dels casos.

Aquesta màgica barreja d’error i interval de confiança és el que permet que l’estadística mesuri el que és parcialment desconegut i el que només és probable. No sabem què opina tothom, però podem afirmar que si diem que el percentatge de vots estarà entre el 45,3 i el 47,3%, encertarem el 95% de les vegades.

Mireu la taula manuscrita que he preparat a sota. Ens diu, en el cas més desfavorable i amb un interval de confiança del 95%, si hem de preguntar a molta o poca gent. Aquest nombre de gent als qui haurem de preguntar és el que s’anomena mida mostral. Hi ha formules per calcular-la (si esteu interessats podeu mirar aquesta web o bé aquesta altra) però la taula de sota ens pot donar ja una bona orientació. He inclòs el cas d’un error del 1% (força habitual) però també una segona columna amb el cas que l’error sigui del 4%. El que a mi em sobta és el poc que creix en el cas de la primera columna (en el cas del 4% encara creix menys, tot movent-se entre 536 i 601). Si acceptem un error del 1% i volem saber la intenció de vot en un poble amb 5000 votants potencials, hem de preguntar a 3289 persones, més de la meitat del total. Però si la població total és de 2 milions de persones o més, la mida mostral s’estabilitza i no arriba mai a les deu mil persones. No és una mica sorprenent? La mida mostral necessària en grans poblacions és relativament petita. No cal preguntar massa gent.

Només resta algun petit detall. Un cop sabem la mida mostral, cal triar les persones aleatòriament (amb el cens de població o el cens de votants, segons el que vulguem), i no es pot canviar res. Si li ha “tocat” a una persona, cal preguntar-li a ella i només a ella; si no vol contestar, simplement s’ha d’apuntar aquest fet però no la podem substituir per cap altre. I evidentment, el resultat del sondeig mostra el que la gent ens ha volgut dir, no el que pensen que faran…

Quan veieu els resultats d’un sondeig, penseu que probablement s’ha fet amb un interval de confiança del 95%, i esbrineu el valor de l’error que han considerat. No és el mateix un error de l’1% que un del 4%.

Per cert, en Jorge Wagensberg ens explica que la probabilitat és el grau de versemblança d’un succés abans que aquest es produeixi, mentre que la informació és el canvi d’estat mental que deixa un succés després de produir-se. Diu també que la informació, quan viatja, es vesteix de redundància per a poder resistir el soroll, i que observar és més que mirar perquè inclou la voluntat explícita de separar el soroll de la informació. No es pot parlar de probabilitat de successos que ja s’han produït ni d’informació de successos del futur.