Entrades amb l'etiqueta ‘correlació’

Correlació, causalitat i la teoria del xoc

divendres, 2/02/2018

Quan vaig descobrir la teoria del xoc de la Naomi Klein, la vaig trobar interessant i plausible. La teoria de xoc constata que les situacions tumultuoses i els moments de cataclisme són situacions idònies de xoc que els governants i les grans corporacions sovint aprofiten per a soscavar els drets i aplicar “polítiques extraordinàries” que només interessen a uns pocs. La Naomi Klein diu que qualsevol situació tumultuosa pot servir, si els polítics la saben envoltar d’un suficient grau d’histèria. Perquè la realitat no apocalíptica és un terreny inhòspit per a les ambicions anti-democràtiques, diu.

Ara, fa pocs dies, he conegut un treball molt interessant de recerca que el professor Rubén Durante (de la UPF), ha fet junt amb Ekaterina Zhuravskaya, de l’Escola d’Economia de París, i que dona una base científica a les idees de la Naomi Klein. Rubén i Ekaterina han estat estudiant la possible correlació entre aquells atacs militars que acaben produint una quantitat important de víctimes civils i l’existència d’esdeveniments puntuals de gran audiència mediàtica. L’estudi, que els autors expliquen aquí, el focalitzen en el conflicte entre Israel i Palestina i en la cobertura mediàtica als Estats Units. L’article científic, publicat al Journal of Political Economy amb un títol ben suggerent, “Attack when the World is not Watching: U.S. Media and the Israeli-Palestinian Conflict“, el podeu trobar a la pàgina de recerca d’en Ruben Durante. El treball es basa en dades diàries dels atacs perpetrats pels dos bàndols durant el període entre els anys 2000 i 2011, recopilades per dues organitzacions independents de drets humans, i que inclouen el nombre de morts en cada cas. Les dues organitzacions que van aportar les dades són la oficina UNOCHA de Nacions Unides i B’Tselem, el centre Israelià d’informació sobre drets humans. L’article científic de Durante i Zhuravskaya és extraordinàriament rigorós. Inclou una bateria de tests de sensibilitat sobre la selecció dels models i de les mostres i sobre la matriu de covariàncies, junt amb una anàlisi de la possibilitat d’usar mesures alternatives en relació a les variables més crítiques. Tot plegat confirma la robustesa dels resultats.

La imatge mostra una de les figures del treball, que podeu trobar aquí. Els 4 gràfics indiquen com es distribueixen les noticies entre el mateix dia de l’atac i el dia següent. Mentre que la informació sobre el nombre de víctimes apareix publicada habitualment tots dos dies, la informació personal de les víctimes, la dels seus enterraments i les entrevistes a testimonis i familiars surten més el dia següent que el mateix dia. Com que la informació de l’endemà és més emocional, la gent tendeix a fer més cas d’allò que es diu el dia següent. En aquest context, la hipòtesi dels investigadors és que tal vegada hi havia correlació entre els dies en què es produïen atacs mortals i els dies que els grans mitjans de comunicació dels Estats Units donaven a conèixer altres noticies de gran audiència. I van veure que la hipòtesi era certa: van analitzar moltes parelles de dies consecutius (D, D+1), i van demostrar que existeix una provada correlació entre el fet que el dia D hi hagués un atac amb morts civils per part d’Israel i el fet que el dia D+1 aparegués una determinada noticia d’ampli interès. En canvi, van observar que això no passava a l’altra banda: no hi ha correlació entre els atacs per part de Palestins un cert dia D i les noticies del dia D+1. L’estudi es va basar en les noticies de les tres grans cadenes dels Estats Units (ABC, CBS i NBC), que restringeixen el temps dedicat a les noticies d’actualitat i que habitualment remarquen les tres més importants. Les conclusions són clares: els atacs per part d’Israel són més freqüents i mes mortífers quan el dia següent apareixen notícies importants no relacionades amb aquest conflicte, mentre que en el cas dels Palestins no hi ha cap correlació. Cal dir la aquesta correlació deixa d’existir en el cas d’atacs militars molt focalitzats i sense pràcticament víctimes civils (atacs que no són tan preocupants des d’un punt de vista social i emotiu).

El que és important d’aquest estudi és que demostra la causalitat a partir de la correlació. Perquè l’existència d’una indiscutible correlació entre el fet que un determinat dia D hi hagi una actuació intencional (un atac amb víctimes civils) i el fet que el dia següent D+1 els mitjans de comunicació estiguin prioritzant determinades noticies previsibles i de gran interès (esportiu o social), fa que surti a la llum el fet causal: la causa que justament un atac es faci un determinat dia D és que les històries personals i més emotives que podrien publicar-se l’endemà, quedaran tapades per altres noticies més “populars”. La correlació entre fets de dos dies consecutius demostra la intencionalitat oculta, i ens presenta exemples concrets de la doctrina del xoc.

En Rubén Durante i la Ekaterina Zhuravskaya expliquen que, encara que el seu estudi és especific al conflicte entre Israel i Palestina, es pot estendre a molt més casos. Diuen que els responsables polítics sovint executen accions impopulars tot aprofitant moments en què els mitjans de comunicació i el públic es troben distrets en altres qüestions. Expliquen, per exemple, que l’any 1994, el dia que Itàlia es va classificar per a la final de la Copa Mundial de la FIFA, el govern de Silvio Berlusconi va aprovar un decret d’emergència que va alliberar a centenars de polítics corruptes de la presó. En general, diuen, el comportament estratègic dels polítics podria acabar minant l’eficàcia dels mitjans de comunicació, impedint la seva tasca de vigilància i reduint la capacitat dels ciutadans de fiscalitzar-los.

Molta gent ho pensem i ho volem denunciar, però en Rubén Durante i la Ekaterina Zhuravskaya ho han provat. La teoria del xoc és certa, i la conjunció entre les correlacions i la dimensió temporal permet demostrar causalitats, falses veritats i intencionalitats amagades.

——-

Per cert, en Bru Rovira parla amb la Marie Faye, una jove senegalesa amb papers que viu a Barcelona i que vol tornar al seu país. Marie Faye diu que Europa no és aquell paradís dels drets humans que ella esperava. Diu que els europeus anem a l’Àfrica a fer-los discursos paternalistes, a dir-los que ells només tenen dictadors. Però que Europa explota com esclaus als qui tenen la sort de treballar-hi. Diu que si alguna vegada a la vida ha passat gana, ha estat a Europa.

Les correlacions i les divisions

dimecres, 23/03/2016

Molts estudis científics mostren que hi ha una forta relació entre la vegetació i la pluja. A les regions de la Terra més verdes i amb més boscos, hi plou força. En canvi, als deserts quasi no hi plou. Aquí teniu per exemple un article publicat a la revista Geophysical Research Letters, que demostra que hi ha un fort grau de connexió entre el clima (en aquest cas, mesurat pel grau de pluviositat) i la quantitat de vegetació que hi ha a cada regió de la biosfera. Els autors mesuren la pluviositat amb l’índex SPI (en fan una mitjana al llarg de cinc mesos per evitar l’estacionalitat) i analitzen la quantitat de vegetació amb l’índex NDVI. Demostren que hi ha una forta correlació entre aquestes dues variables.

La paraula correlació és un concepte estadístic subtil i bonic. Diem que dues variables estan correlacionades quan el valor d’una d’elles varia sistemàticament mentre anem modificant el valor de l’altra. Per exemple, quan anem en cotxe per una carretera, hi ha correlació, en aquest cas positiva, entre els quilòmetres que fem i el temps que portem conduint. De fet, si mantenim una velocitat constant (per exemple, de 120 Km/h) sabem que als 5 minuts haurem fet 10 Km. i que al cap de 13 minuts serem a 26 Km. de la sortida. A mesura que passa el temps, som més lluny, òbviament. El cas de les correlacions negatives, en canvi, es dona quan el creixement d’una implica un decreixement de l’altra, com per exemple el grau de càrrega de la bateria del nostre mòbil: van passant les hores, i la bateria cada cop és menys carregada. Per cert, tant el cas del cotxe com el de la bateria del mòbil són dos exemples de correlació lineal (vegeu la nota al final), que és la més senzilla i la que tractaré en el que segueix.

Però l’interessant del concepte de correlació és que no implica, per si mateixa, cap relació de causalitat entre les variables que estem analitzant. Per això parlem de “co” relació, i no de relació. Això és estrany, a la nostra cultura occidental que ens ha acostumat a voler trobar les causes de tot i a investigar fins determinar qui és el presumpte responsable i culpable del que passa. Quan descobrim una correlació entre dos fenòmens, sabem que hi ha un co-lligam, però ningú ens diu si hi ha relació causal. Quan una regió es va desertitzant, és la manca de vegetació la que fa que hi plogui poc o és l’absència de pluges el que fa que no hi creixi res?

En tot cas, tornem al problema inicial. Deixeu-me que us proposi un petit problema, que si voleu podeu provar de plantejar als vostres amics. A la correlació entre el grau de vegetació (NDVI) i la pluviositat mitjana (SDI), observem que quan NDVI val 0,2 el valor del SDI és de 0,82, mentre que quan NDVI val 0,3, tenim un valor del SDI de 1.5. Com podem calcular el SDI per qualsevol altre NDVI, per exemple NDVI=0,47? . O també aquest altre, que és semblant però amb xifres ficticies i més senzilles: si per 3 Kwh d’electricitat he de pagar 2 cèntims i en canvi, per un total de 16 Kwh em toca pagar 7 cèntims, quin és el preu que hauré de pagar per 11 Kwh?

Aquests són problemes que podríem anomenar “de dos valors”, perquè per trobar la solució, hem de saber què passa a dues regions amb diferents tipus de vegetació. És com, per exemple, la relació entre el PIB i l’índex Gini de desigualtat o com molts altres fenòmens econòmics i socials que es correlacionen. Les matemàtiques ens diuen que, si el problema només té dues variables i la seva gràfica és una linea recta (vegeu un cop més la nota al final), només necessito dos valors per poder entendre el comportament del fenomen (o sigui, la correlació) i fer prediccions per qualsevol altre valor de les dues variables. Però aquí ensopeguem amb una pedra que algú ens ha posat al camí. Molta gent no té massa dificultats per resoldre problemes de proporcionalitat (que només necessiten un valor) mentre que es veuen incapaços de resoldre problemes “de dos valors” com els que he comentat. Anem al mercat. El quilo de mandarines és a 2 euros el quilo. És clar que mig quilo val un euro i que un quilo i mig ens costarà tres euros. Però, si em donen el PIB i l’índex Gini de dos països, sabré donar una estimació de l’índex de Gini d’un tercer país del que conec el PIB?  Les proporcions, que depenen d’un únic valor, són fàcils. Però quan passem d’un a dos valors, tot se’ns fa una muntanya. I és una pena, perquè molts dels fenòmens que passen cada dia al món només es poden entendre com problemes “de dos valors” (o més).

De fet, i tal com deia l’Steven Strogatz en el seu blog del New York Times, el desinterès per les matemàtiques pot venir, en molts casos, com a conseqüència directa de dificultats a l’hora d’haver de fer divisions. Perquè comptar, sumar i multiplicar no és difícil, però dividir té la seva gràcia. Per exemple, en un estudi fet per Annamaria Lusardi i Olivia Mitchell es veu que el grau d’ignorància financera és molt alt i preocupant, i el problema sembla que són les divisions. Lusardi i Mitchell diuen que és fonamental lluitar contra l’analfabetisme financer si volem defensar-nos i no ser enganyats, perquè l’analfabetisme financer és de fet un analfabetisme matemàtic que fa difícil aplicar correctament les operacions aritmètiques necessàries per a resoldre les preguntes quotidians.

Per cert, Manuel Toharia explica que la ciència es basa en les evidències. Parla d’aquells que diuen que Galileu o Copèrnic no tenien totes les proves del que afirmaven, i es pregunta si és que l’Església tenia proves que la Terra era al centre de l’Univers. Tot plegat sona a broma, diu.

———————-
NOTA: A les correlacions lineals, el valor esperat es pot representar al pla x-y amb una gràfica que és una recta. De fet, hauríem de parlar de correlacions afins, perquè les funcions afins es defineixen en matemàtiques com funcions polinòmiques de grau 1 tals que la seva gràfica al pla x-y és una recta. Tenen la coneguda expressió f(x) = y = ax+b, on a és el pendent (inclinació) de la recta i b és l’ordenada a l’origen (el valor de y quan x=0). Si b = 0, la recta passa per l’origen de coordenades, i la funció es denomina lineal. Les funcions lineals només depenen d’un paràmetre (el pendent de la recta f(x) = y = ax), però en canvi les funcions afins depenen dels dos paràmetres a i b que defineixen f(x). Les funcions lineals expliquen tots els fenòmens que segueixen una llei proporcional, com per exemple el que valdrà la bossa de fruita que hem comprat i estem pesant. En canvi, per determinar bé l’equació d’una funció afí calen dues dades, perquè una recta només queda determinada si donem dos punts. Suposem ara que ens diuen que la recta que representa la funció afí passa pels dos punts (x1, y1) i (x2, y2). En d’altres paraules, ens diuen que f(x1)=y1 i que f(x2)=y2. Cóm podrem calcular l’expressió de la funció f(x)?. Una primera idea pot ser plantejar un sistema de dues equacions amb dues incògnites a i b, perquè sabem que y1 = a*x1+b i que y2 = a*x2+b. Però hi ha una manera més senzilla, que es basa en aquella propietat que diu que donada una recta i dos punts arbitraris P i Q de la mateixa, el triangle rectangle que té com hipotenusa el segment PQ i com a catets els dos segments vertical i horitzontal que surten de P i Q i es tallen, és semblant al triangle rectangle que defineixen dos altres punts qualssevol S i T d’aquesta recta. Quan escrivim això com una formula, obtenim que, per qualsevol altre punt (x, y) de la recta, (x-x1)/(x2-x1) és igual a (y-y1)/(y2-y1) (de fet, si plantegeu aquesta igualtat i aïlleu la variable y en funció de x, veureu que surt una equació del tipus y = a*x+b i que esteu calculant, de manera indirecta, els valors de a i b. La formula (x-x1)/(x2-x1) = (y-y1)/(y2-y1) és la que, donades dues dades inicials vegetació-precipitació (x1, y1) i (x2, y2), ens donarà l’índex de precipitació SDI esperat per qualsevol valor de l’índex de vegetació NDVI. Podeu comprovar que tot es redueix a fer tres restes, una divisió, una multiplicació i una suma. Tampoc és tan complicat, oi?

Per cert, cal tenir en compte que totes les correlacions es poden considerar lineals quan analitzem un rang prou petit de variació de les variables, mentre que quasi totes deixen de ser lineals (i caldria representar-les amb funcions més complicades que els polinomis de grau 1) quan fem més i més gran el rang de variació de les variables que estudiem.

Les perspectives dels núvols

dijous, 31/12/2015

Els núvols canvien com els paisatges. Quan ens movem, la perspectiva els renova. Sota el núvol de la foto només veiem la seva grisor i la manca de llum del Sol. Però si ens allunyem fins veure’l de perfil com a la imatge d’aquí al costat, podem apreciar la seva forma prima i allargada, que va seguint el pendent de la muntanya i els corrents d’aire ascendents. En aquesta web de les Getty Images podeu veure una imatge semblant. Hi ha núvols de tota mena, de prims i de gruixuts. Els prims ens donen informació sobre els corrents i les capes d’aire, però els hem de saber mirar. Els hem de mirar de perfil perquè si no, ni tan sols ens adonarem que són prims.

Hi ha molts tipus de núvols. Tenim els nimbus que porten aigua i tempestes, d’altres com els cirrus que són fets de petits cristalls de gel, els núvols de contaminació que alguns cops s’instal·len a les nostres ciutats gràcies a nosaltres, els ciclons i els pacífics cúmuls. Però també tenim els núvols de dades. Mireu aquest vídeo didàctic fet al KVL, a Dinamarca. Hi veiem algunes dades de cinc persones, de cognom Smith, Johnson, Williams, Jones i Davis: la seva càrrega de treball, la distància entre casa seva i el lloc de treball i el seu salari. Les dades han estat transformades i escalades per a que els valors siguin similars, vegeu la nota al final. El que el vídeo ens mostra és que cada persona es pot representar com un punt tridimensional de manera que les seves coordenades són justament els tres valors de les seves dades, tot mostrant-nos a més que la configuració dels cinc punts és molt diferent segons la perspectiva. En general veurem punts dispersos a l’espai però, com mostra el vídeo, si encertem bé el punt de vista ens adonarem que el conjunt de punts és ben prim, quasi pla.

Imaginem ara que volem estudiar aquestes mateixes tres dades, però de tota la gent d’un país. Comencem a representar cada persona amb un punt igual que en el vídeo, i al final tindrem milions de punts. És el que s’anomena un núvol de dades: un núvol de molts i molts punts que acaben perdent la seva individualitat a la vegada que ens mostren algunes característiques del grup social. En aquesta web, per exemple, podeu veure l’aspecte que té un núvol de dades musicals, on els punts ara són cançons i melodies.

Si de cada persona (o cançó) tenim dues dades, podem pintar punts en un gràfic 2D, pla, i tindrem un núvol bidimensional, senzill i fàcil d’interpretar. En canvi, si per cada persona tenim tres dades, podrem formar un núvol 3D com en el vídeo, però el seu anàlisi ja serà molt més complex perquè haurem d’encertar la perspectiva (el punt de vista) correcta. És com fer una foto. Podem fer moltes fotos d’un núvol, però algunes seran millors que altres. Les que el capten de perfil deixen veure la seva part esvelta i acaben donant molta més informació, perquè els núvols prims mostren determinades correlacions entre les dades. No deixa de ser curiós: els humans, que vivim en un Univers clarament tridimensional, no podem percebre directament la semàntica dels núvols 3D i els hem de projectar (una foto és una projecció) en un paper bidimensional per poder captar bé el seu significat. Hem d’anar girant, trobar la direcció correcta, fer la foto, i llavors ho podem veure clar. Doncs bé, la cosa és encara més complicada perquè si volem analitzar comportaments socials, necessitem analitzar moltes variables de cada persona (N per exemple) i no només tres. Els núvols de dades tenen moltíssims punts, i a més cada un d’ells té informació de moltes dades, amb N valors diferents. En llenguatge matemàtic, són núvols de punts en un espai de dimensió N. Això sona a molt complicat, oi? Doncs no ho és, i aquesta és una de les meravelles de les matemàtiques: l’eina que troba la direcció òptima per a fer la foto, que és la que calcula els valors i vectors propis d’una matriu, és la mateixa tant si som a l’espai 3-D com en un espai N-D de moltes més dimensions.

L’anàlisi de components principals (conegut per les seves sigles PCA, en anglès), és una de les tècniques actuals més potents per interpretar grans quantitats de dades, els anomenats “Big Data“. És una eina essencial per a les ciències socials. L’algorisme PCA ens ajuda a entendre aquestes dades i a descobrir correlacions de les que després podrem inferir determinades relacions causals, perquè calcula les anomenades direccions principals del núvol. De fet, calcula el gir que cal fer per arribar a aquestes direccions i poder tenir unes bones perspectives del núvol. Cal tenir en compte que les direccions principals inclouen la direcció des de la qual el núvol es veu en la seva màxima extensió i la direcció en la que es veu el màxim de prim, vegeu la nota al final (aquesta és la direcció en que el pla del vídeo es veu de costat). El seu ús és ben senzill: calculem la matriu de les nostres dades N-dimensionals, calculem els valors i vectors propis d’aquesta matriu amb algorismes coneguts i fàcils d’usar, projectem les dades, i ja les podem analitzar en 2D o en un espai adient de dimensió molt més reduïda que l’original N. L’algorisme PCA projecta per reduir la complexitat, però ho fa de la millor manera, preservant allò que ha trobat significatiu a les dades i suprimint el superflu.

La forma dels núvols de dades és fonamental per entendre els comportaments socials, les causalitats i fins i tot les relacions de poder i les injustícies. I tenim eines, com el PCA, que automàticament ens dóna la perspectiva òptima per observar-los. Però els punts dels núvols no tenen identitat. L’estadística treballa amb les dades, pot treballar amb grans volums d’aquestes dades, però aquestes han de ser sempre anònimes per tal de preservar el dret de les persones individuals a la seva intimitat i al control de les seves dades. El problema de certes pràctiques actuals i de determinats encreuaments que es fan entre molts núvols de dades complementaris és que poden arribar a identificar i “marcar” persones concretes. Si l’únic que saben de mí és la meva edat, el meu salari i si he estat hospitalitzat o no, ben poca cosa podran esbrinar. Però si a més saben on visc (és un dels llocs on més temps tinc el meu telèfon mòbil, per exemple) i tenen accés al cens de població, llavors tot esdevé més fosc, relliscós i perillós. El que es èticament incorrecte és convertir núvols anònims de dades en núvols etiquetats amb noms de persones, perquè utilitzar les dades personals sense permís és (o hauria de ser) un delicte. Podem mirar i gaudir de les infinites formes dels núvols, però no podem trencar, amb una lupa, la intimitat de les seves gotes d’aigua.

Per cert, l’Emilio Lledó diu que una de les més grans indecències actuals a Espanya és la corrupció de la gent. Diu que és una desvergonya i un engany, i que no només és la indecència de corrompre béns, sinó també la de la de la corrupció de la ment de la gent.

———

NOTA: Veureu que a la taula de valors del vídeo, hi ha valors negatius. Això és degut, en el cas de la càrrega de treball i del salari, a que s’ha restat el seu valor mitjà. Posem-nos en el cas de la càrrega de treball i suposem que els valors reals, respectivament per Smith, Johnson, Williams, Jones i Davis, són 0,8 , 1 , 0,4 , 0,2 i 0,6 (estem fent la hipòtesi que la màxima càrrega de treball és la unitat). La suma dels cinc valors és 3, i per tant el valor mitjà és 0,6. Si restem aquesta mitjana a tots els valors obtenim 0,2 , 0,4 , -0,2, -0,4, 0. Un escalat de tots els valors multiplicant per 5 dóna finalment els resultats que veiem a la taula del vídeo: 1, 2, -1, -2, 0. En el cas del salari el procediment és idèntic, mentre que en el cas de la distància a la feina, la diferència és que al final s’han arrodonit els resultats.

L’algorisme PCA treballa calculant els valors i vectors propis d’una matriu de dimensió N x N que habitualment és la matriu d’autocorrelació de les dades. Si la calculem, per exemple, amb les coordenades de tots els ocells d’un estol d’estornells, els vectors propis que obtindrem ens donaran en general la direcció d’avanç, la direcció (quasi vertical) perpendicular al pla que conté la majoria dels ocells i una tercera direcció transversal que és la que ens permet d’observar l’estol de perfil i veure la seva primesa.