Entrades amb l'etiqueta ‘mostres aleatòries’

Les mostres aleatòries i el consens

dijous, 19/10/2017

La imatge mostra un petit tros del conjunt de punts que obtenim amb un sistema d’escaneig de tipus LIDAR quan estem capturant i reconstruint una zona urbana. El sistema detecta, genera i ens dona milions de punts a l’espai, cada un d’ells amb les seves coordenades (x,y,z) i el seu color. El que veiem aquí a l’esquerra no és més que una munió de punts 3D (una mena de núvol), que podem analitzar i visualitzar interactivament. Mireu, per exemple, aquest vídeo o bé aquest altre. Els punts d’aquests núvols, però, són aproximats, perquè els sistemes d’escaneig, com tots els sensors, malauradament introdueixen errors. Errors que es fan més grans a mesura que els edificis que volem capturar, com el de la imatge, són més lluny.

Pensem ara en el problema de detectar, de la manera més exacta possible, la façana dels edificis. Només sabem que habitualment, les façanes són planes i verticals. Com la podem reconèixer i detectar, si només tenim punts i tots ells són aproximats? Què hem de fer per eliminar i no considerar tots aquells punts “atípics” (anomenats outliers en anglès) que poden emmascarar el resultat, com per exemple els punts de les fulles dels arbres que són propers a les façanes?

Sortosament, tenim una solució. L’algorisme RANSAC, proposat l’any 1981 per Martin Fischler i Robert Bolles, ens pot resoldre el problema. És un algorisme que cerca el consens a partir de mostres aleatòries. Podem tenir milers o milions de punts, això no importa massa. N’escollim N (per exemple, 50) a l’atzar. Fem la hipòtesi que aquests N punts són de la façana que volem detectar, i calculem un pla vertical F que els aproximi. Això no ha de ser difícil, perquè podem utilitzar tècniques de regressió i perquè només estem utilitzant un conjunt reduït de N punts. I ara ve el pas important: analitzem quin consens té aquest pla F entre tots els altres punts. Això tampoc és complicat. Només necessitem una tolerància que anomenaré T (per exemple, un centímetre). Llavors, per cada un de tots els altres punts del núvol, mirem si la seva distància al pla F és o no més petita que T. Si és més petita, és que aquest punt “accepta” el pla F. A final, acabem tenint una mesura del grau de consens que genera aquest pla F, en base al percentatge de punts que l’accepten. La resta de punts, en canvi, són atípics (outliers) en relació a F. fet això, en aquest moment ja hem aconseguit tenir una primera estimació de la façana. Però ara, l’algorisme RANSAC repeteix tot el procés amb uns altres N punts a l’atzar, troba un nou pla F’, compara el grau de consens de F i F’, i es queda amb el que en té més. I això ho va repetint una i altra vegada, comparant cada vegada el consens del nou pla amb el millor consens de tots els anteriors, fins que decidim que l’aproximació de la solució ja és prou bona.

L’algorisme RANSAC és no determinista, perquè les mostres són aleatòries. A més, només és segur que ens trobarà la millor solució possible si no tenim pressa i el deixem que vagi provant anys i anys. Si, en canvi, l’aturem en un cert moment, només podem afirmar que la solució serà correcta amb una certa probabilitat. En tot cas, l’experiència demostra que en general acaba donant molt bons resultats i separant les dades útils (inliers) de les atípiques (outliers) en un temps raonable. Un cop separats, podem eliminar aquests punts atípics i quedar-nos amb els punts que ens determinen bé la façana, perquè RANSAC ens ha detectat tot allò que ens pertorbava la solució del problema.

Els humans, de fet, no som tan lluny d’aquest consens de mostres aleatòries. Si fem l’exercici de substituir núvols de punts per grups socials i rellegim els paràgrafs de dalt pensant en persones en lloc de punts, l’algorisme RANSAC segurament ens recordarà el nostre comportament quan escollim comissions, votem representants, o bé discutim projectes urbanístics o d’altre tipus que les administracions exposen públicament. En tots els casos, l’objectiu és obtenir el màxim de consens de la resta de la societat. La única diferència amb l’algorisme RANSAC és que nosaltres aviat ens cansem, mentre que ell no. No és fàcil, això de canviar la mostra. Costa canviar i fer refer projectes, costa renovar comissions i revocar representants per tal de millorar el consens. És així. És la condició humana. Per bé i per mal, no som màquines.

———
Per cert, en David Fernàndez diu que segurament, l’única contrarevolució en marxa avui és l’ofensiva autoritària, devastadora i neoliberal que recorre el planeta. Replegaments de la por i una estranya retrotopia, diu, quan en difícils temps de crisi l’extrema ambigüitat de la condició humana es dirimeix sempre, antagònicament, entre la brutalitat i la cooperació.

Hem de preguntar a molta gent?

dimecres, 26/08/2015

Veiem moltes enquestes i sondeigs als mitjans de comunicació. Fins a quin punt ens podem creure el que diuen? Cóm és que hi ha vegades que encerten i altres vegades que no?

Pensem en el cas més senzill de preguntes amb només dues opcions de resposta. Algú fa un sondeig per determinar quanta gent votarà una certa opció política. Al final, el que surt als diaris és que hi ha un 46,3% de futurs votants que pensen votar-la, per exemple. Cóm podem saber el percentatge de gent que vol votar una determinada opció, si no hem preguntat a tothom?

La resposta és que aquesta xifra del 46,3% és només una aproximació. De fet i com sabeu, no estic dient res de nou perquè tots sabem que les estadístiques donen aproximacions: no poden donar valors exactes. En tot cas, el que és menys conegut és que per entendre bé qualsevol resultat d’una enquesta o sondeig hem de saber el valor de l’error i l’interval de confiança. A l’exemple anterior, el correcte seria dir: “amb un error del 1% i un interval de confiança del 95%, podem dir que el 46,3% de futurs votants pensen votar aquesta opció”. Ningú explica tot això per no enfosquir i complicar el missatge comunicatiu, però aquests dos valors, l’error i l’interval de confiança, segur que són ben coneguts pels estadístics que han analitzat les dades de l’enquesta. La idea és senzilla. Ens cal fixar un error  perquè mai podem tenir una certesa absoluta en estimacions que són resultat de sondeigs. Així, quan acceptem un error del 1%, el que estem dient i que podrem afirmar és que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, amb un 1% d’incertesa en els dos sentits. Ara bé, és clar que encara no n’hi ha prou perquè el fet de preguntar a un conjunt de persones mai ens donarà informació precisa sobre el que vol fer la resta, ni tan sols acceptant aquest error del 1%. Però aquí és on arriba l’estadística per ajudar-nos amb els intervals de confiança. Què volem dir quan parlem de què l’interval de confiança és del 95%? Volem dir que si algú ve i ens diu que el percentatge de futurs votants es trobarà entre el 45,3 i el 47,3%, tindrà raó el 95% dels casos.

Aquesta màgica barreja d’error i interval de confiança és el que permet que l’estadística mesuri el que és parcialment desconegut i el que només és probable. No sabem què opina tothom, però podem afirmar que si diem que el percentatge de vots estarà entre el 45,3 i el 47,3%, encertarem el 95% de les vegades.

Mireu la taula manuscrita que he preparat a sota. Ens diu, en el cas més desfavorable i amb un interval de confiança del 95%, si hem de preguntar a molta o poca gent. Aquest nombre de gent als qui haurem de preguntar és el que s’anomena mida mostral. Hi ha formules per calcular-la (si esteu interessats podeu mirar aquesta web o bé aquesta altra) però la taula de sota ens pot donar ja una bona orientació. He inclòs el cas d’un error del 1% (força habitual) però també una segona columna amb el cas que l’error sigui del 4%. El que a mi em sobta és el poc que creix en el cas de la primera columna (en el cas del 4% encara creix menys, tot movent-se entre 536 i 601). Si acceptem un error del 1% i volem saber la intenció de vot en un poble amb 5000 votants potencials, hem de preguntar a 3289 persones, més de la meitat del total. Però si la població total és de 2 milions de persones o més, la mida mostral s’estabilitza i no arriba mai a les deu mil persones. No és una mica sorprenent? La mida mostral necessària en grans poblacions és relativament petita. No cal preguntar massa gent.

Només resta algun petit detall. Un cop sabem la mida mostral, cal triar les persones aleatòriament (amb el cens de població o el cens de votants, segons el que vulguem), i no es pot canviar res. Si li ha “tocat” a una persona, cal preguntar-li a ella i només a ella; si no vol contestar, simplement s’ha d’apuntar aquest fet però no la podem substituir per cap altre. I evidentment, el resultat del sondeig mostra el que la gent ens ha volgut dir, no el que pensen que faran…

Quan veieu els resultats d’un sondeig, penseu que probablement s’ha fet amb un interval de confiança del 95%, i esbrineu el valor de l’error que han considerat. No és el mateix un error de l’1% que un del 4%.

Per cert, en Jorge Wagensberg ens explica que la probabilitat és el grau de versemblança d’un succés abans que aquest es produeixi, mentre que la informació és el canvi d’estat mental que deixa un succés després de produir-se. Diu també que la informació, quan viatja, es vesteix de redundància per a poder resistir el soroll, i que observar és més que mirar perquè inclou la voluntat explícita de separar el soroll de la informació. No es pot parlar de probabilitat de successos que ja s’han produït ni d’informació de successos del futur.