A partir de quina xifra ho donem per vàlid?

Comptar pot ser complicat, però interpretar les dades obtingudes acostuma a ser-ho encara més, i un dels dubtes més habituals és decidir a partir de quin percentatge considerem que un resultat és positiu. Quan els investigadors fan experiments, les coses són molt diferents del que suggereixen els llibres de teoria i els resultats difícilment seran exactes. A la vida real, cada vegada que repetim una mesura (sigui la temperatura corporal, la mida d’un arbre, la resposta a un fàrmac o la distància a una estrella) obtindrem un valor diferent, de manera que el que fem és mesurar les coses moltes vegades i calcular el valor mitjà.

El problema apareix quan volem comparar coses. Un medicament funciona millor que un altre? Els homes són més alts que les dones? Una estrella brilla més que una altra? De nou, el que fem és mesurar les coses moltes vegades i calcular el valor mitjà. Segur que mai ens sortirà exactament el mateix valor en un grup i en un altre, però això pot ser per dos motius. Un és que efectivament hi ha diferències i un dels fàrmacs va millor, els homes són més alts i l’estrella es troba més allunyada. Però també pot ser que les dades ens enganyin i la diferència sigui deguda a l’atzar. (També pot ser un experiment mal dissenyat, com comparar homes pigmeus amb dones massai, però això és una altra història)

Si tirem una moneda, sabem que la probabilitat de treure cara o creu és del cinquanta per cent. Però quan ho probes descobreixes que si fas poques tirades, rarament surten exactament el mateix nombre de cares i de creus. L’atzar fa que de vegades surtin més d’unes i altres vegades més de les altres. Només si repeteixes la tirada milers de vegades descobreixes que la tendència és a apropar-se al teòric cinquanta per cent. Si es tracta d’un experiment mesurant, per exemple, la temperatura de dos grups de rates trobarem que les mitjanes haurien de ser iguals, però que cada rata és lleugerament diferent de la resta. Però l’atzar pot fer que a un grup haguem posat les rates amb temperatura més alta i a l’altre les que tenen la temperatura més baixa. Seria molta casualitat, però pot passar.

Si el que estem estudiant fos un medicament per treure la febre, hi ha la possibilitat que aquest atzar ens porti a enganyar-nos. Que pensem que un medicament ha fet baixar la temperatura quan en realitat només ha sigut la sort la que ha fet que les rates més fredes caiguessin en un dels grups. Per sort, hi ha eines estadístiques que ens permeten calcular la probabilitat que tenim de que això ens passi. Hi ha una xifra, anomenada valor “p” que ens diu quina és la probabilitat d’haver-la cagat. Sí, l’explicació és més sofisticada, però al final el que ens diu aquest valor quina és la probabilitat d’haver obtingut el resultat per mala sort a l’hora de fer els grups.

Aleshores la tria que has de fer és… “a partir de quin valor de “p” considero que els meus resultats són correctes i no fruit de l’atzar?” La llei de Murphy és implacable i mai pots tenir certesa absoluta, però podem decidir a partir de quan estem raonablement segurs de que el que diem és cert. El més habitual és fer servir un valor de p inferior a 0,05 (sobre 1). Això vol dir que el nostre resultat només apareixerà per atzar en un 5% de les vegades que repetim l’experiment i 95 de cada 100 vegades serà correcte. Cal dir que els físics fan servir nivells d’exigència molt superiors. Però és que la física és una ciència fàcil. Tots els protons de l’univers són idèntics. En canvi, no hi ha dues cèl·lules exactament iguals.

Que els meus resultats siguin bons 95 de cada 100 vegades sembla que no està malament, però això suggereix que, actualment, cinc de cada cent articles científics publicats son incorrectes! No perquè estiguin mal fets sinó perquè el punyeter atzar s’ha alineat per enganyar-nos. Podríem pujar el nivell fins al noranta-nou per cent? O fins al noranta nou coma nou? Podem, però cal vigilar, ja que si ens passem potser descartarem coses correctes que ens semblen errònies.

El cas és que en la comunitat científica hi ha un cert nivell de discussió per decidir en quin punt donem un resultat per vàlid. No podem evitar l’atzar, però el podem mesurar i decidir que fem amb ell. La tria serà una mica arbitrària i potser no serà universal però això de definir la fiabilitat d’un estudi és una cosa imprescindible i que sempre cal tenir ben establerta.

3 comentaris

  • enric

    29/09/2017 17:52

    A PARTIR DEL 70 % DE VOTS VALIDS a favor o en contra. Aixi s’ assegura que no hi haurá impugnació per part del bandol perdedor, perque haurá perdut per el 70 % o gran majoria.

  • Gargotaire

    29/09/2017 13:09

    “suggereix que, actualment, cinc de cada cent articles científics publicats son incorrectes!”

    No ben bé, imaginem una situació que hi ha 1000 hipòtesis a verificar, de les quals 50 són correctes. Amb la p del 0.95 donaríem per bones 48 de les correctes (2 de les correctes es donarien per falses) i 48 d’incorrectes es donarien per bones.

    En aquest escenari, hi hauria tantes publicacions incorrectes com de correctes!

  • Pons

    29/09/2017 9:59

    No us avorriu els científics de fer tantes repeticions? Ah calla, que per això teniu els becaris