Entrades amb l'etiqueta ‘estadística’

El factor limitant

dijous, 4/05/2017

Estem voltats de nous materials amb propietats que s’adapten als usos més variats. Però he de confessar que m’agrada la fusta. És agradable a la vista, suau al tacte, és acollidora i no és freda. A l’exposició “El taller dels somnis” hem pogut veure quatre dissenys en fusta molt especials. A la imatge, que trobareu en aquesta pàgina web, teniu la concreció, en fusta d’àlber blanc dels Estats Units, del somni de Juan Luis Arsuaga. La fusta d’àlber blanc (tulipwood en anglès) es treballa bé, no es torça, no té repèls i és lleugera. Arsuaga va batejar el seu somni amb el nom “factor limitant”.

El concepte ecològic de factor limitant determina i restringeix el desenvolupament i evolució dels animals i plantes. Es basa en la llei del mínim, plantejada per Liebig, que diu que qui governa el creixement d’una determinada espècie no és el conjunt de recursos disponibles, sino només el recurs més escàs i que més afecta i limita la vida dels individus d’aquella espècie. El fred, l’espai disponible, la quantitat de menjar, són possibles factors limitants. Però en cada cas, només un d’ells serà el veritable factor limitant. I de fet, tant els animals com els humans actuem i treballem per mitigar-lo, perquè volem viure millor. Algunes vegades emigrem a ambients més acollidors, i en altres casos inventem solucions per quedar-nos: coves, cabanes, igloos.

El somni de Juan Luis Arsuaga era tenir un refugi que permetés viure uns dies a la muntanya, observant i gaudint de la natura. Una cabina portable de fusta que fos un límit per protegir dels factors limitants. Que només tingués el bàsic per viure. Que permetés allunyar-se una mica de la humanitat per subvertir els seus valors, segons diu Arsuaga.

Arsuaga pensa que les cabanyes de fusta són un mite associat al compromís amb la natura amb vocació de sostenibilitat amb els boscos, perquè acabaran degradant-se i tornant a formar part del bosc, a banda de ser temporals i no invasives. La seva cabana de fusta, feta amb fusta d’àlber blanc i dissenyada per Jacob Benbunan, és un refugi que podem portar al bosc i deixar-lo allà, perquè acabarà fonent-se i integrant-se amb la natura. Félix Larragueta, de l’ebenisteria que el va acabar de dissenyar i construir, el defineix com un objecte ben especial, fet d’un conjunt de ventalls que s’obren per crear una closca protectora de fusta.

Quantes hores podem estar desperts abans de caure dormits? Quants quilòmetres podem caminar o córrer cada dia? Quantes hores podem estar, sense abric, mirant el cel de nit sense caure malalts? Quants anys de vida ens queden? Som limitats, ho sabem per experiència. I la ciència, amb els resultats molts experiments, ens ajuda a recordar-ho. Molts d’aquests límits no tenen cap valor concret calculable, però en sabem la seva probabilitat gràcies al que hem anat experimentant i quantificant. La ciència i l’estadística ens fan prendre consciència dels molts factors que ens limiten.

Vivim en una gran contradicció. Ens creiem infinits i poderosos, però la natura ens confronta amb la realitat: ens sentim millor quan ens marquem límits. Al bosc o a la muntanya, l’espai limitat d’una cabana de fusta ens dona refugi i protecció, ens separa del fred i la pluja, ens connecta amb els materials de la vegetació que ens envolta i en definitiva ens crea un espai habitable. Al bosc descobrim que només podem viure bé quan ens posem límits (en aquest cas, d’espai vital) que ens curen de la por a l’immens i al desconegut. Ja ho diu l’Emilio Lledó quan parla de felicitat i explica el que en pensava Epicur, que l’associava al cos, l’austeritat i als límits. I això és el que ens ensenya també la ciència, que ens diu que tot és limitat i que el millor que podem fer és tenir-ho ben present. Nosaltres som limitats, el planeta és limitat, les civilitzacions són limitades en el temps, els recursos són limitats, la quantitat de gent que pot viure al món és limitada. Si ho pensem cada dia (i això és el que ens ensenyen la ciència i les cabanes de fusta al bosc) tal vegada estiguem menys interessats en acumular poder i en tenir coses, perquè no serveix de res acabar sent els més rics del cementiri.

Per cert, en Bru Rovira diu que aquests dies que la terra s’omple de les fruites podrides de l’arbre de la corrupció, li ha caigut a les mans el llibre “Cinco meditaciones sobre la belleza”, del cal·lígraf, poeta i novel·lista François Cheng. Cheng diu que la bondat confirma la qualitat de la bellesa, i que la bellesa irradia la bondat i la fa desitjable.

Arbres i cròniques

dijous, 14/07/2016

Fa poc, mentre passejava, vaig trobar-me un arbre tallat. És el de la foto. Alguna cosa se’m va remoure per dins. Calia tallar-lo? No ho sé, però tinc els meus dubtes. Recordo molts arbres, als carrers, que van ser part de la meva vida durant anys i anys i que, un cert dia, algú va decidir tallar perquè feien nosa. Hi ha qui creu que, a tota reforma urbanística, el primer que cal fer és treure entrebancs i tallar arbres. Per què? He de confessar que em sento més proper als qui van projectar l’ampliació d’algunes carreteres com la que va a Vilalleons o la que surt d’Es Mitjorn Gran: van respectar el tram antic, cobert per una meravellosa doble filera de plàtans (pins), deixant-la per al pas en una de les direccions i van construir, al costat, un nou tram per a la circulació en direcció contrària.

Heu sentit parlar dels dendrocronòlegs? La dendrocronologia és la branca de la ciència que estudia els anells dels arbres i analitza els missatges que amaguen. El principi és ben senzill: La majoria d’arbres formen un nou anell de creixement cada any. El gruix d’aquest anell depèn de la temperatura i humitat durant l’any en qüestió, perquè els arbres creixen millor i de manera més perllongada els anys de clima benigne i humitat adequada. En canvi, a les èpoques de sequera creixen menys i fan anells més prims. D’altra banda, els arbres propers i de la mateixa zona viuen condicions climàtiques similars i per tant produeixen patrons semblants de creixement dels seus anells, tot i que cada arbre té la seva individualitat i el seu propi model de creixement. Per exemple, tendeixen a créixer menys a mesura que es fan vells de manera que els anells centrals són més separats que els exteriors, com podeu veure a la imatge de dalt.

La prehistòria s’amaga a la foscor dels temps perquè els humans no vam començar a escriure i deixar constància del que passava fins fa uns cinc mil anys. Però molt abans, els arbres ja anaven escrivint (escrivint-se) la crònica anual del seu entorn. La diferència amb el que ens expliquen altres sistemes de datació (com el basat en el carboni-14) és que la crònica dels arbres de l’antiguitat és viva i diversa. Els arbres d’un bosc viuen els mateixos canvis climàtics, però amb matisos. Els arbres més protegits al centre del bosc no produeixen i escriuen els mateixos anells que els que es troben en zones exposades al vent i a les inclemències del temps. Els dendrocronòlegs saben llegir els factors ambientals comuns a tots els arbres d’una mateixa regió junt amb les especificitats de cada un d’ells. Interessant, oi?

La dendrocronologia ve de lluny. El Laboratori d’investigació dels anells dels arbres de la Universitat d’Arizona va iniciar la seva activitat l’any 1937, i des de llavors es dedica a recopilar i guardar dades. Els investigadors han anant recopilant informació i creant un bon nombre de bases de dades, que ara poden compartir els científics de tot el món. La imatge que podeu veure a sota és d’aquest article de l’any 1941 de A.E. Douglas (fundador del laboratori ja comentat de la Universitat d’Arizona) i mostra com es feien coincidir, a mà, els patrons dels anells de 4 arbres que van viure fa 750 anys. Podeu veure que l’any 1260 va ser clarament més suau que el 1270, i que el 1251 va ser un any de sequera, amb una clara coincidència entre el que van percebre i enregistrar per separat cada un dels quatre arbres.

A les excavacions és fàcil trobar soques fossilitzades o semi-fossilitzades. No és difícil mesurar l’amplada dels anells de qualsevol d’elles. Un cop corregits efectes subjectius (de l’arbre) com el de l’envelliment, obtenim una seqüència d’amplades d’anells que cobreix tota la vida de l’arbre. És el seu testament, la crònica de la seva vida. L’arbre no sap res del que va passar abans de néixer ni ens pot dir res del que va succeir després de la seva mort, però ens regala el patró de tots els daltabaixos climàtics al llarg de la seva vida. Els dendrocronòlegs comparen els patrons d’arbres de la mateixa zona i els van emparellant anell a anell, de manera que acaben descobrint les pautes objectives de variació climàtica. El gràfic que podeu veure en aquesta pàgina web explica molt bé el que s’ha aconseguit esbrinar fins ara. És la variació climàtica a l’Europa central, any a any, des de fa 14.000 anys fins fa uns 10.200 anys, coneguda i entesa només a partir de l’estudi dels anells dels arbres. Estem parlant de molts anys abans de la revolució neolítica. Els humans no escrivien, però els arbres van preservar els canvis climàtics any rere any i ara ens regalen la seva crònica particular.

Inicialment, aquesta anàlisi dels patrons dels arbres es feia manualment. Suposem que trobem una soca d’arbre semi-fossilitzat. Estudiem els seus anells, obtenim el patró de les variacions climàtiques anuals al llarg de la seva vida, i acabarem tenint una gràfica més curta (de 50, 100 o 200 anys) però molt similar a la de la web del WSL. Ara només cal veure on encaixa amb la gràfica temporal de tot el que ja hem aprés fins ara, i això ens dirà l’edat de la soca. Aquesta tècnica, anomenada de datació creuada, funciona perquè és molt improbable que el patró de variacions climàtiques al llarg de tota la vida d’un arbre encaixi bé a més d’un lloc en el gràfic de tota l’evolució ja coneguda, com bé ens explica l’estadística. Fixeu-vos un cop més en la gràfica del WSL. Veureu que hi ha una zona, al voltant de fa uns 12.500 anys, on encara no tenim dades. Però només és qüestió de temps: l’escletxa sense informació s’anirà tancant a mesura que trobem soques d’arbres que se superposin parcialment amb la zona verda o amb la blava de la gràfica i que a la vegada expliquin una mica dels anys del mig. Seran arbres que van néixer a la zona verda i van morir als anys desconeguts, o bé que van néixer durant aquests anys i que van morir ja a la zona blava de la gràfica.

Les tècniques actuals de datació creuada utilitzen mètodes estadístics i resolen el problema amb algorismes informàtics que permeten correlacionar patrons i testejar diverses hipòtesis en relació als factors ambientals. Es basen en calcular la probabilitat que unes determinades condicions climàtiques hagin acabat produint els anells que observem a la soca que hem trobat, i en el fet que el grau de certesa de les inferències estadístiques augmenta a mesura que recollim més i més dades. Tot plegat és un bon exemple de treball interdisciplinari entre biòlegs, estadístics i informàtics. En aquesta pàgina web podeu trobar tot tipus de dades i paquets informàtic/estadístics per al problema de les datacions.

Ara fa tres anys, els investigadors suïssos van trobar 257 soques de pi en una zona en construcció als peus del Uetliberg. Les soques, semi-fossilitzades, van poder ser analitzades i els seus anells ens van explicar que eren pins de fa 13.000 anys, pins que havien crescut just després de la darrera glaciació, quan les glaceres alpines començaven a retrocedir. És un descobriment molt important, que ens portarà llum sobre les condicions climàtiques a Suïssa a finals de la darrera edat de gel. Aquí teniu un mapa interactiu que també ho explica.

Els arbres semi-fossilitzats són veritables documents escrits que ens estan permetent desxifrar i interpretar allò que els nostres avantpassats no ens van saber dir.

Però el clima actual està embogint. El que diu en Ramon Folch és esfereïdor, mireu la cita del final d’aquest article. En Ramon Folch ens recomana aquest vídeo, que mostra la variació de la temperatura global de la Terra des de 1880 fins a 2015. Tal vegada, d’aquí a uns segles, els humans ens haurem suïcidat col·lectivament i ja no podrem gaudir de la crònica que els arbres escriuen any rere any. Però els arbres continuaran deixant constància escrita del que va passant al seu entorn, com ja ho van fer després de l’extinció dels dinosaures, esperant que alguna futura espècie, més conscient i sàvia que nosaltres, els torni a llegir.

——

Per cert, en Ramon Folch constata que, per vuitena vegada consecutiva, a la Terra hem tingut el mes globalment més càlid de l’últim segle. Diu que el clima canvia perquè els humans escalfem l’atmosfera amb la combustió massiva de combustibles fòssils, i que no és mala sort, sinó que és una conducta temerària i culpable.

 

Hem de preguntar a molta gent?

dimecres, 26/08/2015

Veiem moltes enquestes i sondeigs als mitjans de comunicació. Fins a quin punt ens podem creure el que diuen? Cóm és que hi ha vegades que encerten i altres vegades que no?

Pensem en el cas més senzill de preguntes amb només dues opcions de resposta. Algú fa un sondeig per determinar quanta gent votarà una certa opció política. Al final, el que surt als diaris és que hi ha un 46,3% de futurs votants que pensen votar-la, per exemple. Cóm podem saber el percentatge de gent que vol votar una determinada opció, si no hem preguntat a tothom?

La resposta és que aquesta xifra del 46,3% és només una aproximació. De fet i com sabeu, no estic dient res de nou perquè tots sabem que les estadístiques donen aproximacions: no poden donar valors exactes. En tot cas, el que és menys conegut és que per entendre bé qualsevol resultat d’una enquesta o sondeig hem de saber el valor de l’error i l’interval de confiança. A l’exemple anterior, el correcte seria dir: “amb un error del 1% i un interval de confiança del 95%, podem dir que el 46,3% de futurs votants pensen votar aquesta opció”. Ningú explica tot això per no enfosquir i complicar el missatge comunicatiu, però aquests dos valors, l’error i l’interval de confiança, segur que són ben coneguts pels estadístics que han analitzat les dades de l’enquesta. La idea és senzilla. Ens cal fixar un error  perquè mai podem tenir una certesa absoluta en estimacions que són resultat de sondeigs. Així, quan acceptem un error del 1%, el que estem dient i que podrem afirmar és que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, amb un 1% d’incertesa en els dos sentits. Ara bé, és clar que encara no n’hi ha prou perquè el fet de preguntar a un conjunt de persones mai ens donarà informació precisa sobre el que vol fer la resta, ni tan sols acceptant aquest error del 1%. Però aquí és on arriba l’estadística per ajudar-nos amb els intervals de confiança. Què volem dir quan parlem de què l’interval de confiança és del 95%? Volem dir que si algú ve i ens diu que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, tindrà raó el 95% dels casos.

Aquesta màgica barreja d’error i interval de confiança és el que permet que l’estadística mesuri el que és parcialment desconegut i el que només és probable. No sabem què opina tothom, però podem afirmar que si diem que el percentatge de vots estarà entre el 45,3 i el 47,3%, encertarem el 95% de les vegades.

Mireu la taula manuscrita que he preparat a sota. Ens diu, en el cas més desfavorable i amb un interval de confiança del 95%, si hem de preguntar a molta o poca gent. Aquest nombre de gent als qui haurem de preguntar és el que s’anomena mida mostral. Hi ha formules per calcular-la (si esteu interessats podeu mirar aquesta web o bé aquesta altra) però la taula de sota ens pot donar ja una bona orientació. He inclòs el cas d’un error del 1% (força habitual) però també una segona columna amb el cas que l’error sigui del 4%. El que a mi em sobta és el poc que creix en el cas de la primera columna (en el cas del 4% encara creix menys, tot movent-se entre 536 i 601). Si acceptem un error del 1% i volem saber la intenció de vot en un poble amb 5000 votants potencials, hem de preguntar a 3289 persones, més de la meitat del total. Però si la població total és de 2 milions de persones o més, la mida mostral s’estabilitza i no arriba mai a les deu mil persones. No és una mica sorprenent? La mida mostral necessària en grans poblacions és relativament petita. No cal preguntar massa gent.

Només resta algun petit detall. Un cop sabem la mida mostral, cal triar les persones aleatòriament (amb el cens de població o el cens de votants, segons el que vulguem), i no es pot canviar res. Si li ha “tocat” a una persona, cal preguntar-li a ella i només a ella; si no vol contestar, simplement s’ha d’apuntar aquest fet però no la podem substituir per cap altre. I evidentment, el resultat del sondeig mostra el que la gent ens ha volgut dir, no el que pensen que faran…

Quan veieu els resultats d’un sondeig, penseu que probablement s’ha fet amb un interval de confiança del 95%, i esbrineu el valor de l’error que han considerat. No és el mateix un error de l’1% que un del 4%.

Per cert, en Jorge Wagensberg ens explica que la probabilitat és el grau de versemblança d’un succés abans que aquest es produeixi, mentre que la informació és el canvi d’estat mental que deixa un succés després de produir-se. Diu també que la informació, quan viatja, es vesteix de redundància per a poder resistir el soroll, i que observar és més que mirar perquè inclou la voluntat explícita de separar el soroll de la informació. No es pot parlar de probabilitat de successos que ja s’han produït ni d’informació de successos del futur.

L’esperança matemàtica

dijous, 11/06/2015

Sona estrany, i fa una mica de respecte, oi? Ens atrevim a parlar de l’esperança, però això que pugui ser “matemàtica” ja no ens agrada tant. Sembla que li tregui part de l’encant… Però tal vegada, tot és acostumar-s’hi. Jo crec que pensar en termes d’esperança matemàtica és una bona (i senzilla) manera d’estar més informats a l’hora de prendre decisions.

L’esperança matemàtica és un concepte estadístic. Representa el valor mitjà que podem “esperar” com a resultat d’un determinat experiment aleatori quan l’experiment es repeteix un elevat nombre de vegades (vegeu la Nota al final). El terme esperança matemàtica ve del fet que l’estadística és part de les matemàtiques. I no es gens difícil de calcular, si coneixem la probabilitat de les diferents situacions en les que ens podem trobar. Suposem que som a la parada de l’autobús, i que tenim dos autobusos (A i B) que ens porten al nostre destí. Suposem també que la freqüència de pas del A és el doble que la del B (en d’altres paraules, al llarg d’una hora passen el doble d’autobusos A que autobusos B) i que la meva experiència em diu que quan agafo l’autobús A tardo 20 minuts mentre que quan vaig amb el B tardo uns 23 minuts, perquè fa més volta i em deixa una mica més lluny. En aquest cas, és fàcil veure que l’esperança matemàtica del que tardaré en arribar és de 21 minuts (vegeu la Nota al final).

El joc de la ruleta i els jocs d’atzar són un bon exemple de l’ús de l’esperança matemàtica. La ruleta Francesa és una gran roda en forma de plat que gira sobre un eix vertical, dividit en 37 compartiments numerats del zero al 36, disposats en ordre aleatori i pintats de color vermell o negre (excepte la casella corresponent al zero, que és verda). Dels 18 nombres parells, 10 són negres i 8 són vermells. En canvi, la ruleta té 8 nombres senars negres i 10 senars vermells. El crupier dóna impuls a la roda i tira una petita bola de tefló  que comença a girar i acaba aturant-se en algun dels compartiments. Si aposto un euro al vermell i surt vermell, guanyo un euro, però si no surt vermell, el perdo. Quina és l’esperança matemàtica del que puc guanyar quan aposto un euro al vermell? Si mireu un cop més la nota del final, veureu que és 18/37 – 19/37 = -0,027 euros. L’esperança matemàtica em diu que el que puc esperar és perdre una mica menys de tres cèntims d’euro cada vegada que jugo un euro, degut a la famosa casella del zero, la casella verda. És clar que si jugo sense arriscar-me massa pot ser que guanyi algunes vegades, però si continuo jugant, a la llarga perdré els diners i se’ls quedarà la banca. Ara bé, és clar que si tinc una mica d’informació sobre el moviment de la bola i de la roda de la ruleta en els moments inicials (quan encara es permeten apostes), encara que aquesta informació sigui poc fiable, puc acabar guanyant. Això és el que van fer els del grup Eudaemons, estudiants de doctorat en física, fa uns 40 anys. Amb un petit ordinador que dos d’ells portaven dins el taló de la sabata, processaven la informació que veien i van aconseguir capgirar les probabilitats. Imagineu que el poc que arribeu a detectar en els primers moments del moviment de la bola us permet estimar que la probabilitat que s’aturi en vermell és de 20/37 mentre que la de que acabi en no vermell és de 17/37. Llavors, si aposteu pel vermell, l’esperança matemàtica passa a ser de 20/37-17/37 = 0,081 euros. Si jugueu moltes vegades, acabareu guanyant diners de veritat. Els del grup Eudaemons van guanyar uns deu mil dòlars abans que tinguessin un accident (un d’ells es va cremar la pell del peu) i deixessin de jugar. Però la cosa no va quedar aquí. Hi ha articles científics recents (com aquest) que fan propostes en el mateix sentit: si tenim una mica més d’informació, encara que aquesta sigui pobre, podem capgirar les probabilitats i aconseguir una esperança matemàtica de guany, a la llarga.

Però l’esperança matemàtica no només és útil en els jocs d’atzar. També ho és en molts processos de decisió complexes i en casos en què els humans estem deixant passar el temps sense decidir res mentre hipotequem el futur dels nostres néts. Coneixeu la Declaració sobre la Terra? És una declaració escrita per 17 reconeguts científics, que proposa vuit mesures per la reunió sobre el canvi climàtic que es farà a París el proper mes de desembre. Entre d’altres mesures, proposen que l’any 2050 el món tingui un balanç zero d’emissions de diòxid de carboni, de manera que siguem capaços de reabsorbir tot el que emetem. Fem una prova: apliquem el concepte d’esperança matemàtica al problema de les nostres emissions contaminants i de l’energia del futur. Per simplificar, podem pensar en tres escenaris possibles, que anomenaré A, B i C. L’escenari A és que els humans siguem capaços d’aconseguir un balanç zero d’emissions de diòxid de carboni l’any 2050, a base de reduir dràsticament l’ús de combustibles fòssils, apostar fortament per les energies renovables i inventar sistemes tecnològics de captura i reabsorció de diòxid de carboni. L’escenari B és que la humanitat ho aconsegueixi però més tard, per exemple l’any 2100. El tercer escenari és que passem el problema als nostres besnéts i al segle XXII. Ara pensem en el cost de cada una de les tres opcions, entenent per cost el que els nostres descendents hauran de pagar durant els dos propers segles. La teoria de sistemes ens diu que les conseqüències d’un retard en la presa de decisions són exponencials. Aquí entrem en el camp de l’especulació i les teories poden ser molt diverses, però el comitè IPCC de les Nacions Unides és pessimista. Poseu el valor que vulgueu als costos estimats de les opcions B i C, però és ben segur que el cost de la B serà molt més alt que el de l’opció A i que el de l’opció C serà extremadament elevat. I com ja sabem, l’esperança matemàtica del que la humanitat haurà d’acabar pagant d’una manera o altra (amb pobresa, desigualtats, conflictes etc.) és CostA * PA + CostB * PB + CostC * PC, on PA, PB i PC són les probabilitats que el món acabi adoptant la solució A, B o C. O bé aconseguim veure la gravetat del problema i fem que PB i PC siguin molt baixes, o enfonsarem la vida dels nostres besnéts. Si en teniu ganes, podeu jugar amb aquesta formula i fer proves variant els dos costos CostB i CostC (en relació al primer cost CostA) i les dues probabilitats PA i PB, perquè PC=1-PA-PB. I fixeu-vos que si no actuem aviat i de manera decidida, haurem de fer PA igual a zero…

El seu nom és esperança matemàtica, un nom que ens porta flaires de complexitat. Però si coneixem de manera aproximada les probabilitats, finalment no és més que una esperança aritmètica que podem calcular amb ben poques sumes i multiplicacions. L’esperança matemàtica ens ajuda a prendre bones decisions, i és menys difícil de calcular que el que fem amb un full de càlcul. Aquí teniu els danesos, que han apostat per la descontaminació i les energies netes. Copenhaguen, reconeguda com la ciutat Europea verda 2014, vol ser una ciutat neutra en emissions de diòxid de carboni l’any 2025 i està exportant tecnologia d’energies alternatives (la foto de dalt és justament d’aquesta pàgina web). Els seus habitants han vist que l’esperança matemàtica del que poden guanyar, econòmicament, en salut i en qualitat de vida, és gran i els compensa. La tenim en compte, l’esperança matemàtica, a la ruleta de la vida?

Per cert, Birgitta Jónsdottir diu que Snowden ho ha arriscat tot perquè sapiguem el que passa, i que si guanyen les eleccions i governen a Islàndia li concediran la ciutadania islandesa.

——-

NOTA: Més en concret, l’esperança matemàtica és un concepte de la teoria de la probabilitat. Representa la quantitat mitjana que podem “esperar” com a resultat d’un experiment aleatori quan la probabilitat de cada esdeveniment es manté constant i l’experiment es repeteix un elevat nombre de vegades. L’esperança d’una variable aleatòria discreta es calcula com la suma de la probabilitat de cada possible esdeveniment multiplicat pel valor de l’esmentat esdeveniment. Si apliquem aquest algorisme a l’exemple dels autobusos, podem veure fàcilment que l’esperança matemàtica del temps que tardaré en arribar al meu destí és (2/3)*20 + (1/3)*23 = 63/3 = 21 minuts suposant que arribo a la parada i pujo al primer autobús que arriba. Amb aquesta hipòtesi, la probabilitat de pujar a un autobús de la línia A és 2/3 perquè ha de ser el doble de la probabilitat de pujar a un autobús de la línia B, que ha de ser de 1/3 per a que la suma de probabilitats sigui la unitat. No obstant, i com a darrera observació, cal tenir en compte que si volem afinar més, ens caldrà complementar el valor de l’esperança matemàtica amb una estimació de la dispersió, per allò que ja sabem dels pollastres: si ens diuen que en grup de 10 persones tenen un pollastre per persona en mitjana i no ens diuen res de la dispersió, no podem saber si realment cada u té un pollastre o bé hi ha 9 persones sense res i un darrer privilegiat que s’ha quedat els 10 pollastres. De la mateixa manera, el fet que l’esperança matemàtica en el cas dels autobusos sigui de 21 minuts només ens diu que si fem la mitjana del que hem tardat dia a dia al llarg d’un o dos mesos, ens donarà 21 minuts. El que sempre continuarà essent una incògnita és el temps que tardaré demà (tot i que puc assegurar que es trobarà entre 20 i 23 minuts).

En el cas de la ruleta, si aquesta no té imperfeccions i com hem dit té 37 compartiments o caselles, és clar que la probabilitat que la bola s’aturi en una casella prefixada és de 1/37. El problema de quan aposto pel vermell és que en total hi ha 18 caselles vermelles i 19 no vermelles perquè cal comptar la verda. Per tant la meva probabilitat de guanyar és 18/37 mentre que la de perdre és 19/37. A la ruleta sempre és més probable perdre que guanyar, encara que la diferència és subtil i per tant engrescadora. Com que el meu benefici si guanyo és un euro i en canvi, quan perdo, perdo l’euro que havia apostat, l’esperança matemàtica és 1*(18/37) + (-1)*(19/37) = 18/37 – 19/37 = -0,027 euros

La ceguesa, els retards i els nostres néts

dimecres, 24/09/2014

Aquests dies he llegit dues noticies que he de dir que m’han deixat realment preocupat. No són pas les úniques, però si parlo d’aquestes dues és perquè tenen base científica i estan relacionades.

Ahir es va celebrar a Nova York la cimera sobre el clima. És una reunió que ha organitzat el secretari general de la ONU en el marc de les reunions de l’Assemblea General. El secretari general demanava mesures clares i valentes, però em temo que no va tenir massa èxit. I la situació és realment preocupant. Els experts de l’IPCC ens diuen que, amb un 95% de probabilitat, l’escalfament és causat bàsicament per les activitats humanes. L’any 2007 establien que la probabilitat era del 90%, mentre que l’any 2001 deien que era del 66%. Cada cop hi ha més consens i cada cop és més clar. De fet, cada cop la situació és més irreversible. Segons en Michael Shermer, el total d’experts científics que accepten que l’escalfament global té causes antropogèniques ja es troba entre el 90 i el 98%. Si ens centrem en les prediccions sobre pluges, els experts diuen que creixerà el contrast entre regions seques i humides, i també entre estacions seques i de pluja. Un dels escenaris que consideren (l’escenari RCP8.5) ens aboca a un increment de sequeres en el sud-est dels Estats Units, sud d’Àfrica i Mediterrani, incloent Catalunya. Si no fem res, quan els nens que ara tenen cinc anys en tinguin setanta-cinc, és bastant probable que visquin en un país sec, desertitzat i completament diferent de l’actual.

D’altra banda, un estudi publicat fa poc a la revista Science diu que si es mantenen les pautes actuals de creixement demogràfic, la població mundial seguirà augmentant fins almenys l’any 2100, quan s’arribarà als 11.000 milions d’habitants. És un estudi fet per la Universitat de Washington i les Nacions Unides. S’ho trobaran els nens que ara tenen cinc anys, si arriben als 90 anys d’edat. L’estudi diu que hi ha un 70% de probabilitats que el creixement demogràfic no s’estabilitzi aquest segle, i dóna una previsió per l’any 2100 que oscil·la entre 9.600 i 12.300 milions, amb una mitjana més probable d’11 mil milions.

Són noticies que ens fan intuir el que veuran i viuran els nostres néts. No deixo de pensar-hi cada cop que soc amb els meus. Tant l’anàlisi de l’IPCC com el del creixement demogràfic són extraordinàriament rigorosos, es basen en eines estadístiques i ens parlen de probabilitats. Però són probabilitats molt preocupants. La teoria de sistemes ens explica que els sistemes dinàmics (i el conjunt humanitat-planeta és un sistema dinàmic), quan es tornen inestables, passen a tenir un comportament exponencial, caòtic i incontrolable…

Creiem que podem créixer i gastar cada cop més energia, i no pensem en els límits. Però en aquest Univers tot té un límit. Nosaltres som finits, com ho són la Terra i el Sol. La quantitat d’energia que podem gastar a la Terra té un límit, de la mateixa manera que el tenen les emissions de diòxid de carboni i el nombre d’habitants de la Terra. Els humans, que emprem la nostra intel·ligència per composar música i per crear dispositius que ens comuniquen instantàniament a través del món, hauríem de ser responsables i saber que el creixement mai pot ser il·limitat. És la responsabilitat que tenim davant els nostres néts. Perquè ens costa tant posar-nos a calcular el valor dels límits? Quina és la màxima població que pot acceptar la Terra de manera sostenible? I Europa? I Catalunya? Quina és el màxim volum d’emissions contaminants que podem emetre si volem deixar un món decent als nostres néts? El problema és que quan els sistemes dinàmics es desestabilitzen i passen a tenir un comportament exponencial, el cost del que cal fer per a controlar-los és cada cop més elevat. El cost dels retards pot arribar a ser elevadíssim, inassumible. És fàcil veure-ho amb un exemple concret i senzill. Imaginem un determinat país tal que la seva població creix un 5% cada any i que té un creixement econòmic de també un 5%. Com que cada any són una mica més de gent i com que cada un d’ells genera una mica més d’emissions, l’increment anual d’emissions serà d’un 10% perquè el resultat de multiplicar 1,05 per 1,05 és aproximadament 1,10. Si fem un senzill càlcul i multipliquem 1,10 per sí mateix set vegades, veurem que aquest país duplicarà el volum de les seves emissions contaminants cada set anys. Podríem pensar en casos de creixement més moderat, però el resultat sempre és el mateix. Tardarà més anys, però al cap de un cert nombre N d’anys, es duplicaran les emissions. Si les pautes de creixement es mantenen, cada N anys tindrem el doble d’emissions i el preu de posar-hi remei serà òbviament el doble, com a mínim. En l’exemple anterior, amb duplicació cada set anys, només cal fer algunes multiplicacions per veure que en un segle, les emissions s’hauran multiplicat per un factor de 16,000. Si calculeu quin seria el creixement en un període de dos segles (28 períodes de set anys), quedareu esgarrifats. En tot cas, cal dir que això només pot arribar a passar si es manté la pauta de creixement, i és clar que aquesta no es mantindrà. Els creixements s’aturaran, a un cost molt elevat, quan la gent ja no suporti les conseqüències. Però llavors serà massa tard per als seus descendents. Quins són els límits que poden assegurar una vida agradable i digna als néts dels nostres néts? No els sabem, però és ben segur que són molt més estrictes que els límits que podem trobar si només pensem en els nostres néts. I si mirem de calcular-los, aquests límits, encara que sigui de manera aproximada? I si fem cas del que ens diuen els experts de l’IPCC i de la ONU?

Per cert, el secretari general de la ONU, Ban Ki-moon, demana propostes audaces per combatre el canvi climàtic. A Nova York, diumenge es van manifestar més de tres-centes mil persones. Al passeig Marítim de Barcelona, malauradament, la marxa va reunir molts menys participants.

Les microvides i el con del nostre futur

dimecres, 10/09/2014

No sabem quan morirem (sort que no ho sabem), i no sabem quan temps ens queda de vida. Però sí que sabem que alguns hàbits ens poden allargar la vida mentre que d’altres és molt probable que ens l’escurcin. La imatge de la dreta, que podeu trobar en aquest article de la revista Scientific American, ens ho explica de manera molt visual. La vida que ens queda és com una llarga punxa de forma cònica, com un con que acabarà el dia de la nostra mort. Els dies i les setmanes ens porten cap a la dreta del con blau de la imatge, cap a regions en les que el con és més estret. No sabem el que ens queda, però sí que podem quantificar en quina mesura els nostres hàbits quotidians ens retallen l’esperança de vida o ens l’allarguen. Els hàbits poc sans (en vermell a la imatge) és com si anessin fent punta al llapis: treuen capes del con i automàticament l’escurcen. Quan fumem sis cigarretes, la nostra esperança de vida es redueix en una hora i mitja (el gràfic ho mostra en unitats de 30 minuts). Les cigarretes fan punta al llapis de la nostra vida i el van fent cada cop més curt. Si fumem 12 cigarretes al dia durant un mes, reduïm la nostra vida en aproximadament 5 dies i mig.  En canvi, si fem 20 minuts d’exercici, la imatge ens mostra que estem allargant la nostra esperança de vida en una hora. Tant l’exercici com el fet de menjar fruites i verdures és beneficiós, són pràctiques saludables que restauren capes del llapis i l’allarguen.

David Spiegelhalter, professor de la Universitat de Cambridge i expert en estadística, ha proposat el concepte de microvida. És un concepte concret per a visualitzar molt gràficament tots aquests riscs que ens són habituals i que ens haurien de preocupar més del que ens amoïnen. La idea de microvida no és res de nou, és només una nova manera, molt gràfica, de mostrar els resultats que estudien i analitzen els estadístics. David Spiegelhalter ho explica en aquest llibre, que ha escrit junt amb el periodista Michael Blastland. Spiegelhalter i Blastland ens mostren com mesurar el grau de perillositat d’allò que pensem que és nociu per la nostra salut, tot explicant-nos que ni és opinable ni és difícilment quantificable. Una microvida, segons David Spiegelhalter, és la unitat de risc que representa un canvi de mitja hora en l’esperança de vida. Fixeu-vos altre cop en la imatge. Enlloc de dir-nos que fumar és perillós, Spiegelhalter ens indica que, amb 12 cigarretes, ens estem fumant una hora de la nostra vida futura, o sigui dues microvides. I que quan mengem 85 grams de carn vermella reduïm la nostra esperança de visa en una microvida (mitja hora). Les microvides quantifiquen quanta punta estem fent avui mateix al llapis del nostre futur. És una manera clara d’explicar, amb mesures “d’aqui i ara” en paraules del mateix Spiegelhalter, el risc del que fem o deixem de fer cada dia. Spiegelhalter explica que el que vol és incidir en el fet que ningú vol envellir més ràpid del compte.

Hem vist que, segons David Spiegelhalter, una microvida és la unitat de risc que representa un canvi de mitja hora en la nostra esperança de vida. Aquí, l’important és la paraula esperança. La microvida és un concepte estadístic. No mesura canvis en la durada de la nostra vida, que no sabem ni podem saber, sinó canvis en la nostra esperança de vida. Diu que si poguéssim fer un experiment amb moltes persones on la meitat d’elles no fossin fumadores i on l’altra meitat fumessin 20 cigarretes al dia durant 14 mesos, veuríem que la mitjana del que viuen les primeres supera en un mes la mitjana del que acaben vivint les segones. És el mateix que quan ens diuen que l’esperança de vida en néixer dels qui vivim a Catalunya és de 79,8 anys pels homes i 85,4 anys per les dones. És la mitjana del que observem que viu la gent, tot i que els casos particulars poden ser molt diversos i “particulars”. Tot plegat, diu Spiegelhalter, es basa en el fet que, per petites proporcions de risc, els canvis en l’esperança de vida en funció de la mida d’un determinat factor de risc, són lineals (en termes matemàtics, diríem que aplica una aproximació de primer ordre).

Per cert, Rosa Regàs diu que la vida de les famílies no consisteix a fer que els fills retornin als pares el que van fer per ells, sinó que, per contra, igual que la vida mira endavant, també els fills estan més pendents dels seus propis fills que de l’esdevenir i de la vida dels seus pares ancians.

Terratrèmols i períodes de retorn

dimecres, 31/10/2012

Una de les noticies preocupants dels darrers dies ha estat la del judici i condemna a científics italians pel terratrèmol de l’Aquila. Perquè ens obsessionem sempre en cercar culpables, i fins i tot gastem temps en cercar culpables dels fenòmens naturals que són fruit de l’atzar? La Mònica López Ferrado cita les declaracions del matemàtic Florin Diacu, que diu que, tal com van dir els científics sentenciats,  “si el nombre de tremolors febles és gran, la probabilitat d’esdeveniments extrems és petita”, però això no vol pas dir impossible, com es va demostrar a L’Aquila.

Diem-ho clar: es impossible predir les catàstrofes naturals. I és impossible construir-nos un entorn que ens garanteixi la seguretat i ens elimini el risc. Les matemàtiques (i un cop més, l’estadística) ens donen eines per a modelar el risc i per poder-nos preparar davant possibles esdeveniments futurs. Les catàstrofes imprevisibles (terratrèmols, huracans, inundacions, erupcions volcàniques, etc.) es poden modelar amb la llei de probabilitats de Poisson. Aquesta llei ens dóna la probabilitat que, en un determinat període de temps, tinguem una d’aquestes catàstrofes en un punt geogràfic concret. Per exemple, si volem estudiar la ciutat de Barcelona en un període de deu anys, la llei de Poisson ens dóna la probabilitat que Barcelona sofreixi un terratrèmol d’intensitat més gran que 6 (per exemple) a l’escala de Richter en algun moment al llarg dels propers deu anys. Aquesta probabilitat no és mai nul·la: això és el risc. Tots nosaltres sofrirem una catàstrofe personal important: la nostra mort. L’estadística ens permet calcular la probabilitat de que aquest fet es produeixi al llarg de, per exemple, els propers dotze mesos. La probabilitat no serà cero ni 1. Ni és segur que morirem al llarg del proper any, ni és segur que no morirem. Ho hem d’acceptar així, és el risc de viure…

Aquest model matemàtic, la llei de Poisson, depèn d’un paràmetre que podem estimar a partir de la nostra experiència passada i que en el cas de les catàstrofes naturals s’anomena període de retorn. El període de retorn és el temps mitjà entre dos fenòmens del tipus que estem estudiant. Si volem saber la probabilitat de que un dels propers deu anys sigui d’extrema sequera, caldrà que analitzem dades dels darrers anys i fem una taula tot apuntant quants anys van passar entre cada dues sequeres consecutives (és clar que com més anys analitzem, millor). La mitjana de tots aquests valors ens donarà una estimació del període de retorn, i llavors la llei de Poisson ens permetrà calcular la probabilitat que volem.

Les obres públiques i les construccions es fan en base a una estimació d’aquest període de retorn. Concretem-nos per un moment en el cas dels terratrèmols. Si el disseny es dimensiona tot pensant en un període de retorn de 150 anys, és que estem considerant que és molt improbable que els propers anys tinguem un terratrèmol. No haurem de gastar gaires diners en la construcció de l’obra o de l’edifici. Si, en canvi, considerem un període de retorn de 10 anys, és que pensem que som a una zona sísmica i perillosa. Haurem de tenir en compte la normativa antisísmica, i l’edifici final serà car però segur. Per això, els terratrèmols destrossen Haití i quasi no fan quasi cap mal al Japó. És molt fàcil. Si volem menys risc, hem de baixar el període de retorn quan dissenyem les obres públiques i edificis. Però baixar el risc és encarir el projecte i la construcció. Els riscos baixos es paguen, com tot. Els científics poden avaluar el risc, la probabilitat. Però són els polítics (i la societat, nosaltres) els qui han de posar el llistó i decidir si volen gastar molts diners per tenir menys risc, o si volen gastar poc i tenir més risc. No podem nedar i guardar la roba. Al poble de L’Aquila havien escollit la segona opció.

En Pere Puigdomènech comenta que, quan hi va haver l’erupció del volcà Eyjafjallajökull a Islàndia fa dos anys, els científics van ser acusats d’exagerar i d’haver crear inútilment una pertorbació del tràfic aeri a Europa. Ara ha estat justament a l’inrevés. Comunicar el risc és una tasca molt difícil, sobretot quan la gent demana missatges clars amb seguretat absoluta, i això és impossible.

Cal acceptar que hem de conviure amb el risc. El risc amb el qual vivien els homes primitius (i el risc amb que viuen actualment molts pobles al continent Africà) és immensament més elevat que el risc amb el qual estem vivint aquí, al nostre confortable primer món. Al llarg dels segles, els descobriments científics i tecnològics han anat reduint el risc a les nostres vides, i ho continuaran fent. Però mai el podrem anular, el risc. Dins de deu segles, si la humanitat encara existeix, haurà de continuar convivint amb el risc. Enlloc de cercar profetes, visionaris o científics que ens garanteixin que demà no ens passarà res, hem d’acceptar que demà pot ser que tinguem un terratrèmol o (més probable), demà pot ser que morim d’un atac de cor. Si acceptem, de mal grat, el risc de la mort en qualsevol moment, perquè no acceptem el risc d’altres catàstrofes?

Els algorismes de traducció automàtica

dimecres, 24/10/2012

GuillemValentina.jpg Entenem els altres, quan parlen? La veritat és que no sempre els entenem, ni tampoc comprenem els seus escrits, perquè molts parlen altres idiomes. Al món parlem moltes llengües diferents, i no podem pas saber-les totes.

Sabem que els ordinadors són màquines versàtils, potencialment capaços de resoldre problemes en camps totalment diversos. Sembla senzill: només cal pensar i escriure el corresponent algorisme, i l’ordinador ens portarà a la solució. L’algorisme és la recepta que explica pas a pas com arribar a bon port. En alguns cassos, això no és difícil. L’algorisme per a fer divisions que ens ensenyen a l’escola és curt i fàcil de recordar (però no oblidem que va caldre esperar segles fins poder dissenyar-lo sobre una base sòlida com és la de la notació aritmètica actual, posicional i en base 10). Hi ha altres problemes (com el de la motxilla) que requereixen algorismes exponencials, massa lents i impracticables, si volem trobar una solució òptima. De fet, l’objectiu sempre és trobar algorismes eficients (que no triguin massa en trobar la solució) i fiables, algorismes que ens portin a una solució acceptable i raonable. Però per alguns problemes com el de la traducció automàtica, la tasca de trobar un algorisme que els resolgui de manera raonablement eficient i fiable ha resultat ser extremadament feixuga.

La història de la traducció automàtica és paral·lela a la de la informàtica. L’any 1954 es va fer el primer intent, conegut com experiment de Georgetown. Tot era optimisme: els autors van poder traduir unes seixanta frases del rus a l’anglès. El camp de la traducció automàtica va atreure molts diners públics, i es va arribar a pensar que que “l’algorisme” es trobaria en un termini de no més de cinc anys. No va pas ser així, i a pesar de molta feina i de molts treballs al llarg dels següents 50 anys, no es va trobar cap algorisme de traducció automàtica que donés resultats acceptables. Els investigadors aplicaven tècniques basades en sintaxi i semàntica, de manera semblant al que fèiem a l’escola. Analitzaven sintàcticament la frase a traduir, intentaven recuperar-ne les idees (semàntica) i finalment tractaven d’expressar aquestes idees en l’idioma objectiu, tot sintetitzant les noves frases. Tot plegat, massa difícil. Les nostres llengües tenen matisos, frases fetes, girs i altres construccions que no són fàcils d’entendre amb regles sintàctiques i semàntiques. La gent del carrer no consulta els llibres de gramàtica, per parlar.

Els algorismes de traducció probabilística o estadística són molt recents. Franz Josef Och va guanyar el concurs DARPA de traducció automàtica l’any 2003 amb un d’aquests algorismes i va decantar els mètodes de traducció cap a aquests nous esquemes probabilístics. Aquests algorismes surten de  tres idees bàsiques: un model probabilístic, un sistema d’aprenentatge i un mètode d’optimització en temps real. Els models probabilístics substitueixen els models gramaticals i sintàctics i es basen en el teorema de Bayes. El teorema de Bayes és fonamental, perquè vincula la probabilitat d’un succés A donat B amb la probabilitat de B donat A. En d’altres paraules, si sabem la probabilitat de tenir mal de coll quan tenim la grip, podem calcular la probabilitat de tenir la grip quan tenim mal de coll (vegeu nota al final). De fet, els models probabilístics dels sistemes actuals de traducció automàtica són més complexes, però inclouen el teorema de Bayes i les idees d’aprenentatge i optimització.

De fet, hi ha a més una quarta idea essencial, que és la que ha donat l’impuls definitiu als algorismes de traducció automàtica eficients i raonablement fiables. És la d’emprar un diccionari de frases enlloc d’un diccionari de paraules. Val a dir que, en el camp de la traducció probabilística, el concepte de frase és un concepte molt més general que el que usem habitualment. Una frase és qualsevol conjunt de paraules que apareix reiteradament. Però no cal que tingui cap significat. Les frases, als algorismes de traducció, no tenen semàntica. Les dues paraules “vaig anar” formen una frase, perquè les trobem tot sovint. Les frases capturen els desordres locals i permeten modelar la traducció de girs i frases fetes. Veiem alguns exemples, amb la nova eina Google Translate. Google Translate utilitza el model probabilístic que hem explicat, amb diccionari de frases. Si demaneu la traducció de la frase “the blue teapot is really cool” al català, us dóna com a resultat “la tetera blau és genial”. L’algorisme ha modelat bé la inversió entre el substantiu i el seu atribut de color, i ha traduit la frase anglesa “really cool” per “genial”. Força bé, no? Com a segon exemple, proveu de traduir la frase “esto es pan comido”, del castellà al català. El resultat us dirà que és “això és bufar i fer ampolles”. Aquí és on es veu clar que l’algorisme de traducció utilitza un diccionari de frases, que incorpora girs, dites i frases fetes. Val a dir que si aneu provant trobareu resultats no tan afortunats, però és clar que l’estat actual dels algorismes probabilístics ja comença a permetre la seva utilització (amb cura i repassant sempre el resultat) i ens fa ser optimistes cara a les seves possibilitats en un futur proper.

Com ja hem comentat, els algorismes probabilístics de traducció necessiten un diccionari de frases, per a poder traduir entre dos idiomes. Els diccionaris de frases estan ordenats alfabèticament i són semblants als nostres diccionaris habituals, però contenen frases enlloc de paraules. I a més, per a cada possible traducció (paraula o frase) guarden el valor de la seva probabilitat. A l’exemple d’abans, al diccionari anglès-català podríem trobar, al costat de la paraula “really”, la frase “really cool” per exemple amb dues possibles traduccions: “genial” i “fantàstic”, amb probabilitats de 0.7 i de 0.3 respectivament. En canvi, al diccionari castellà-català, trobaríem la frase “esto es pan comido” amb una única traducció amb probabilitat 1: “això és bufar i fer ampolles”. Recordeu que les probabilitats es donen en tant per 1 (cal dividir el tant per cent per 100) i que la suma de les probabilitats de totes les possibles traduccions d’una paraula o frase ha de ser la unitat. S’ha comprovat que, per a poder desenvolupar un algorisme estadístic de traducció que sigui fiable i per poder calcular bé les probabilitats de traducció entre frases que es corresponen, cal analitzar moltes parelles de texts (original i la seva traducció). En concret, cal disposar d’una col·lecció paral·lela de més d’un milió de paraules en cada un dels dos idiomes. I a més, cal disposar de dos conjunts de texts monolingües, cada un d’ells amb un mínim de mil milions de paraules, per a poder comprovar si la frase final un cop traduïda és d’ús comú en l’idioma de destí. Els algorismes de Google utilitzen texts de documents oficials de la ONU, perquè es publiquen en totes les sis llengües oficials de les Nacions Unides i són fiables. Però també utilitzen documents oficials de la Unió Europea. El procés d’aprenentatge és lent i feixuc, però es va fent sense presses, en paral·lel a les peticions de traducció que anem fent. Els algorismes d’aprenentatge van actualitzant els diccionaris de frases i les seves probabilitats, tot incorporant i analitzant noves col·leccions paral·leles de parelles de texts. Ho deixen tot preparat per a quan necessitem traduir alguna cosa.

Però el sorprenent, en tot això, és que aquests algorismes de traducció treballen sense tenir en compte ni una sola regla, ni sintàctica ni semàntica. Es basen només en l’anàlisi estadística de parelles de texts o corpus. De fet, s’ha demostrat que els seus resultats són millors que els donats pels actuals models sintàctics i semàntics.

Si aneu a la pàgina del traductor de Google veureu que permet traduir entre moltíssims idiomes. Però de fet, habitualment Google no fa traduccions directes. La traducció de la llengua L1 a L2, normalment requereix dos passos de traducció, el primer de L1 a anglès i el segon d’anglès a L2. Pels texts en català, Google fa tres passos: de català a castellà, de castellà a anglès i d’anglès a l’idioma destí. Això és degut a que existeixen més parelles de documents patró català-castellà que català-anglès. En tot cas, i com ja dèiem, els resultats actuals són molt prometedors.

Serà molt més fàcil de preservar la diversitat de llengües quan sapiguem trencar les barreres de comunicació. No crec pas que tots ho veiem, però penso que al llarg del segle XXI, l’evolució dels actuals algorismes de traducció automàtica permetrà la comunicació en temps real entre persones que parlin llengües diferents. No és ciència ficció, és quelcom que ara es comença a veure factible. Podeu pensar en amplificadors intel·ligents (o telèfons traductors) que faran que puguem escoltar en anglès, pels altaveus, el que una persona va explicant en català davant del micròfon. Seran algorismes i màquines de traducció simultània. Noves eines per a poder entendre els demés, que tant de bo puguin ajudar els nostres néts a comprendre “els altres” i a dialogar enlloc de barallar-se.

Nota: En el cas de la traducció, si volem traduir un tros de text “f”, el que fan els models probabilístics és cercar la frase traduïda “e” tal que la probabilitat p(e/f) sigui màxima. Aquesta probabilitat p(e/f) és la probabilitat de trobar-nos “e” com a resultat de la traducció de “f”. És el que fem nosaltres de manera intuïtiva. Si un text “e” té una probabilitat condicionada (així és com s’anomena) p(e/f) elevada, és que és una traducció “que ens sona bé”. I perquè ens sona bé? Perquè el nostre cervell ens diu que la traducció de “f” a “e” ja l’hem vist altres cops i té sentit. Ens basem en l’experiència. Justament això és el que fan els actuals algorismes. En la fase d’aprenentatge, analitzen molts texts (l’original i la traducció) i n’extreuen les probabilitats, les mesures de si “sonarà bé” o no. El teorema de Bayes ens diu que el producte de p(e/f) per p(f) és igual al producte de p(f/e) per p(e). Com que p(f) no depen del resultat de la traducció, maximitzar p(e/f) és el mateix que maximitzar el producte de p(f/e) per p(e). Si tenim pre-calculades les probabilitats p(f/e) i p(e), el que hem de fer durant la traducció és només una optimització en temps real. Tot plegat és més complex, però podeu pensar que el que fem en temps real és generar una primera llista de texts pre-candidats “e1″, “e2″, … “en”, calcular el valor p(f/e)*p(e) per a cada un d’ells, i quedar-nos amb la frase resultat que maximitzi aquest valor. Aquesta és la traducció. De fet, els models probabilístics dels sistemes actuals de traducció automàtica són més complexes i incorporen tan la probabilitat p(f/e) com la p(e/f) i la p(e). En tot cas, el sistema d’aprenentatge és qui calcula i manté actualitzades aquestes tres probabilitats.

EL PIB, les desigualtats i les matemàtiques

dimecres, 17/10/2012

Gini.png Darrerament, hi ha paraules que no parem d’escoltar: crisi, dèficit, deute, el producte interior brut (PIB), i moltes d’altres de semblants.

Malauradament, la informació molts cops ens arriba massa simplificada. I altres conceptes, també importants, no són tan coneguts. Sabeu què és el coeficient de Gini?

El coeficient de Gini és una mesura de la desigualtat, de les diferències entre els ingressos de la gent. És una mesura que utilitza la ONU, com podeu veure a la imatge i a l’informe de desenvolupament humà. És una mesura de la dispersió dels ingressos, la renda o la riquesa.

L’Estadística (que com sabem és una part de les matemàtiques) ens dona eines i mesures per entendre el comportament de les variables aleatòries. La mitjana és la més coneguda i és la que apareix a moltes noticies. Però és una mesura més aviat pobra, que aporta poca informació, com després veurem. En estadística, diem que la mitjana és un moment de primer ordre. És lineal. En altres paraules, per calcular-la només cal fer sumes i una divisió al final. Les mesures de dispersió (per exemple, la variància) són moments de segon ordre que requereixen fer multiplicacions, i ja no són lineals. De fet, hi ha també moments d’ordres més elevats, que cada cop expliquen més i més els comportaments estadístics.

Quan parlem de mesures com el PIB o la renda mitjana per persona, estem parlant d’això, d’una mitjana, sense dir res de la dispersió de les dades. És com l’acudit dels pollastres. Si tenim cinc persones i quinze pollastres, la mitjana és sempre de tres pollastres per persona, sigui quin sigui el repartiment. La mitjana és de tres tan si tothom té tres pollastres com si una de les persones té tots els 15 pollastres i les altres quatre no en tenen cap. I també ho és si el primer té un pollastre, el segon en té 2, el tercer 3, el quart quatre i el cinquè en té 5. Però les mesures de dispersió, de desigualtat, no són pas les mateixes (vegeu nota al final). Ens fan veure que hi ha situacions més injustes que altres. Quan una única persona té tots els pollastres, tenim la màxima desigualtat possible i el coeficient de Gini és 1. Quan tothom en té 3, no hi ha dispersió i el coeficient de Gini és 0. En el tercer exemple, és fàcil comprovar que el coeficient de Gini val 0.66, tot indicant que la desigualtat té un valor intermedi. La situació d’un país s’explica molt millor si, a més del PIB o de la renda mitjana per persona, podem tenir dades de les corresponents mesures de desigualtat o dispersió. El valor del PIB ens dona una imatge simplista i molts cops optimista. En canvi, la parella de valors PIB + dispersió ens fa comprendre la situació i ens fa paleses moltes injustícies.

El coeficient de Gini ens permet passar dels grisos als colors. Perquè la distribució de riquesa a una determinada societat té punts de semblança amb el color i la llum, encara que pugui semblar estrany. Són dos conceptes complexes. Per tal d’entendre bé l’estructura de la llum, cal estudiar i analitzar el seu espectre (que podem mesurar amb els espectròmetres). L’espectre de la llum ens diu quants fotons tenim, per a cada una de les possibles longituds d’ona. L’espectre de la llum és molt ric en informació. En molts cassos, massa ric. Però si volem simplificar i ens plantegem d’explicar-lo amb un sol valor, ben segur que usarem el seu valor mitjà, tot perdent informació molt significativa sobre la llum. En l’espectre de la llum, la mitjana només mesura si és clar o fosc: desapareix el color i només hi veiem en tons de gris, en blanc i negre. Els nostres ulls, però, perceben la mitjana i la dispersió, a l’espectre. La mitjana és la lluminositat (clar o fosc). La dispersió és el color. Percebem el color gràcies a que podem captar la diversitat de l’espectre lumínic. Però aquest concepte d’espectre el podem aplicar també als països i a les societats. L’espectre, en aquest cas, seria una visió fina on tenim tota la informació i on podem saber la renda de cada una de les persones (hem canviat fotons per persones i intensitat lumínica per renda). Si simplifiquem i ho resumim tot en un sol valor, el PIB o la renda mitjana per persona, serà com si veiéssim el món en tons de gris. El coeficient de Gini, la mesura de dispersió o desigualtat, és la que ens permet tenir més informació i percebre els colors i matisos de la societat i de la seva estructura.

En Joseph Stiglitz (premi Nobel d’economia 2001) és expert en desigualtat i defensor de l’ús del coeficient de Gini. Ens deia, fa tan sols un mes, que l’actual sistema augmenta constantment les desigualtats i va reduint la igualtat d’oportunitats. Diu que hi ha dues maneres d’arribar a ser ric: creant riquesa, o traient-la als demés. La primera, afegeix alguna cosa a la societat. La segona, resta i destrueix. Està demostrat que les societats amb un coeficient de Gini massa elevat són inestables i no sostenibles. És el que ha passat molts anys a Amèrica Llatina. Fixeu-vos quins són els països amb desigualtats més grans, al mapa de la imatge.

Les dades per Catalunya són força significatives. La renda mitjana per persona es va incrementar entre els anys 2004 i 2008, passant de 9064 a 10755 euros. Després, entre 2008 i 2010 (darrer any amb dades de Idescat) s’ha mantingut quasi estable, amb valors entre 10755 i 10605. Aquests valors mitjans no semblen pas preocupants. Ens indiquen que, en mitjana, vam créixer fins l’any 2008 i que després s’ha produït un estancament. Però Idescat ens dona també el valor de l’index de Gini pels mateixos anys. Podem veure que aquest index no ha parat de créixer, tant a Catalunya com a Espanya. A Catalunya hem passat de 0.292 a 0.317, i a Espanya, de 0.307 a 0.339 (tot això, entre 2004 i 2010; encara no hi ha dades del 2011). La crisi no ha pas baixat la riquesa, sinó que ha incrementat les desigualtats i la pobresa, com també comenta en Josep Ramoneda. Hi ha els mateixos diners, la mateixa renda, però cada cop més mal repartida. La renda total, el que cobrem tots els catalans, és el producte de la renda mitjana pel nombre de persones, i hem vist que es manté. Podríem dir, parlant en termes de física, que es conserva el total de la massa monetària. Però és el coeficient de Gini el que ens fa notar que la crisi serveix per enriquir els uns i empobrir els altres. Cada cop hi ha menys gent amb pollastres.

Nota: Una mesura clàssica de dispersió, segons l’estadística, és la variància. La variància és el valor mitjà dels quadrats de les diferències entre cada una de les dades i la mitjana de totes elles. En canvi, per a calcular el coeficient de Gini (que com ja hem dit és la mesura habitual de desigualtat en els ingressos), és bo representar gràficament la corba de Lorenz del grup social que estem estudiant. La corba de Lorenz ens permet representar els ingressos totals del sector més pobre de la societat. Per exemple, si el 30% de gent amb menys ingressos rep en total el 15% de la renda, les coordenades (0.3, 0.15) corresponen a un punt de la corba de Lorenz. El coeficient de Gini mesura l’àrea entre la recta a 45 graus i la corba de Lorenz (també es pot calcular amb una senzilla fórmula a partir de les dades ordenades). D’altra banda, es pot demostrar que, si els logaritmes dels ingressos de les persones segueixen una llei normal de probabilitat, el coeficient de Gini es calcula fàcilment a partir de la desviació estàndard d’aquesta llei normal.