Pitàgores i l’espai de les músiques

Els telèfons mòbils cada cop fan més coses. Els anomenem mòbils enlloc de telèfons perquè ningú dubta de la seva mobilitat, tots nosaltres els portem arreu del món quasi com un apèndix del nostre cos. Entre les seves funcions extra-telefòniques, els darrers anys n’ha sorgit una de nova: La identificació i reconeixement de melodies. Hi ha aplicacions que ens donen tota la informació que desitgem de qualsevol música que estem escoltant. És com màgic, perquè ens ajuden en el que fins ara era impossible. Som al carrer o amb uns amics i escoltem una música que ens atrapa. Voldríem poder tornar-la a escoltar, però moltes vegades no recordem ni el nom, ni l’autor, ni l’artista. Amb aquestes noves apps, només hem de deixar que el micròfon del mòbil capti la melodia i en uns instants, el telèfon ens mostra tot el que volíem saber. En algunes aplicacions, fins i tot podem cantar o xiular la cançó que volem reconèixer. Ens ha arribat el Google de les músiques.

Com funciona, el reconeixement de melodies? De fet, la idea bàsica no és massa complicada. El mòbil envia la melodia que hem registrat a un ordinador central anomenat servidor, aquest servidor l’analitza, la converteix en un conjunt de valors que la identifiquen i la situa en un punt de l’espai de les músiques, espai on cada música és representada per un punt en una posició específica i determinada i on abans ja hem marcat molts punts, els de totes les cançons que prèviament hem identificat. Ara només cal trobar el punt més proper al que acabem de calcular amb l’objectiu de saber, de totes les músiques que ja tenim codificades, quina és la més semblant a la que hem escoltat. El servidor envia aquest resultat al nostre mòbil, i finalment acaba identificant la melodia que havíem escoltat. Hi ha comunicació telefònica entre mòbil i servidor encara que no és de veu sinó de música codificada com a dades.

Tot plegat té dos passos essencials. La conversió de la melodia en un conjunt de valors que la identifiquen, i la cerca de melodies semblants dins l’espai de les músiques. El primer és un pas de transcripció, codificació o representació. Vindria a ser com passar-li una enquesta a la melodia que estem escoltant, per obtenir un conjunt de respostes o valors que la identifiquin. Es podria fer amb lletres o paraules, però habitualment és fa amb valors numèrics. En el projecte Pandora, per exemple, cada melodia es representa amb un conjunt d’uns 450 valors, tots ells entre 1 i 5. Aquesta tira de 450 valors, que els de Pandora anomenen gens perquè codifiquen l’essència de la melodia, és com una immensa paraula identificativa que permet analitzar, comparar i cercar; és el seu nom. Perquè el primer pas per trobar, associar i estudiar és saber el nom de les coses i això és el que necessitem, per exemple, si volem cercar un concepte al diccionari o a internet. La conversió de les melodies en aquest conjunt de valors que les identifiquen és el pas previ imprescindible per poder trobar similituds. En el cas de les melodies musicals, a la majoria d’aplicacions per mòbils el càlcul del conjunt de gens o valors que les codifiquen es fa amb algorismes automàtics que calculen tot tipus de descriptors, encara que en d’altres casos com el del projecte Pandora la codificació és manual, a càrrec d’un grup d’experts en composició musical i amb validacions redundants per al control de qualitat.

Imaginem per un moment que podem caracteritzar una melodia només amb dos valors. Podem agafar un paper, i representar cada música per un punt tal com es fa a les representacions gràfiques: el seu primer valor l’assignem a la coordenada horitzontal o abscissa, i el segon, a la coordenada vertical. Tindrem tants punts al paper com músiques diferents haguem codificat, i si mesurem el grau de semblança o proximitat entre qualsevol parella de punts com el quadrat de la seva distància, el podrem calcular ben fàcilment amb el teorema de Pitàgores. Ara, si en lloc de dos valors les codifiquem amb tres valors o gens, podrem fer el mateix si representem els punts de les músiques a l’espai tridimensional amb tres coordenades x, y, z, i podrem calcular la proximitat o distància al quadrat de la mateixa manera perquè el teorema de Pitàgores es pot estendre a 3D, vegeu la Nota al final. Doncs bé, costa una mica d’imaginar però el que es fa en el cas de les melodies és exactament el mateix però a l’espai de les músiques, l’espai que representa la imatge de dalt i que podeu trobar a aquesta pàgina web. Si pensem que les representem amb 450 valors, cada una d’elles acaba sent un punt en aquest l’espai que no és pla ni tridimensional sinó de dimensió 450. Sembla complicat. Però, encara que Pitàgores mai ho hagués pensat, el seu teorema també es pot aplicar en aquests espais de tantes i tantes dimensions (vegeu un cop més la Nota al final) i ens calcula quina és la música més propera a la que acabem d’escoltar.

Qui li havia de dir a Pitàgores de Samos que, 2500 anys més tard, el seu teorema serviria per identificar músiques amb un petit i estrany giny que tots portem amb nosaltres com una peça més de vestir?. No sabem massa de la seva vida, però sí que sabem el que feien i pensaven els seus seguidors, l’escola dels Pitagòrics. Eren vegetarians, pensaven que l’estructura de l’Univers era aritmètica i geomètrica i deien que “tot són nombres” perquè van quedar marcats per la bellesa numèrica dels intervals musicals. Segons explica Xenòcrates, Pitàgores va descobrir la misteriosa connexió entre les matemàtiques i la música, tot adonant-se que les notes harmòniques, les que agraden al nostre cervell, es creen en dividir una corda vibrant en proporcions 1:2, 2:3, 3:4. I va veure que també surten dels cops de martell dels ferrers quan treballen amb martells amb pesos que segueixen aquestes mateixes proporcions. Imagineu quina seria la seva sorpresa si veiés que les melodies que componem amb les notes que ell va quantificar, les podem reconèixer i identificar amb ajut del seu famós teorema…

Per cert, en Wolfgang Münchau diu que aquest cap de setmana els creditors de Grècia han destruït l’eurozona tal com la coneixem i han ensorrat la idea de la unió monetària com a pas cap a la unió política democràtica. Es pregunta si un programa de reforma econòmica per al qual el govern no té cap mandat, que ha sigut explícitament rebutjat en un referèndum i que ha estat imposat purament per xantatge polític, té alguna possibilitat de funcionar.

—–

NOTA: El teorema de Pitàgores diu, com sabem, que el quadrat de la hipotenusa d’un triangle rectangle és igual a la suma de quadrats dels catets. Això, clar, és en el pla, en dues dimensions. Però una de les coses interessants d’aquest teorema és que serveix per a qualsevol dimensió. Si tenim dos punts P i Q en un mapa i volem calcular la distància que els separa per saber si són propers o llunyans, podem pintar un triangle rectangle i començar calculant la diferència b entre les seves latituds (que correspon a la longitud del catet nord-sud) i la separació c entre les seves longituds (que correspon a la longitud del catet est-oest). Si b i c els expressem en quilòmetres i si no són massa grans, podrem menysprear la curvatura de la Terra, suposar que el triangle és pla, i calcular el quadrat de la distància entre P i Q amb el teorema de Pitàgores, fent b*b+c*c. Ara bé, aquest càlcul només serà cert si som en una comarca plana. Si P és a la vora del mar i Q és dalt d’una muntanya a 1000 metres, el teorema de Pitàgores en tres dimensions ens diu que el quadrat de la distància entre P i Q és b*b+c*c+h*h, on h és la diferència d’alçades entre els dos punts. En tres dimensions, el teorema de Pitàgores té tres termes. I no és difícil veure que això es compleix en qualsevol dimensió. El quadrat de la distància (anomenada Euclidiana) entre els punts que representen dues melodies en l’espai de les músiques (espai que podem suposar, per exemple, de dimensió 450) és el resultat de restar els valors de cada una de les parelles homòlogues de gens a una i altra melodia, elevar totes aquestes diferències al quadrat, i sumar-les. Només amb un petit detall: no totes les diferències “valen igual”, hem de donar més importància a unes que a les altres. És el mateix que passa amb els punts dels mapes. Si veiem que la distància en horitzontal (arrel quadrada de b*b+c*c) entre els nostres punts P i Q és de 10 quilòmetres, és fàcil veure que amb una diferència d’alçades de 1000 metres, la nova distància Euclidiana, arrel de b*b+c*c+h*h és de 10 quilòmetres i 50 metres. La línia recta entre P i Q només s’allarga 50 metres quan el punt Q puja 1000 metres. És el que ens diu la geometria, que no coincideix pas amb el que ens diu el nostre cos perquè la nostra percepció subjectiva de distància és bastant més petita quan P i Q són a una mateixa plana que quan Q és dalt d’una muntanya. Com podem calcular aquestes distàncies subjectives? És fàcil, només cal donar més importància a les alçades. És el que en geometria es diu “canviar la mètrica”. És com si canviéssim l’escala vertical. Podem calcular distàncies subjectives en els mapes si canviem una mica la formula i escrivim b*b+c*c+w*h*h, on w és el pes o importància que volem donar a les alçades. Quan fem el càlcul amb w=1 obtenim la distància Euclidiana mentre que si el fem, per exemple, amb w=100, obtenim un valor molt més proper a la nostra percepció subjectiva. I ara, tornant al cas de les distàncies entre melodies, el que fan els programes de reconeixement va en aquesta línia de donar pesos diferents als diferents “gens” i treballar amb una mètrica no Euclidiana: cal restar els valors de cada una de les parelles homòlogues de gens a una i altra melodia, elevar totes aquestes diferències al quadrat, multiplicar cada un d’aquests quadrats pel seu pes, i sumar-los. Els pesos, positius,  es calculen habitualment amb algorismes d’aprenentatge automàtic, però d’això, si us sembla, en parlarem un altre dia.

1 comentari

  • Jordi Domènech

    23/07/2015 19:49

    El que em costa molt d’imaginar, és quins poden ser els 450 valors que defineixen una melodia.
    D’entrada no crec que puguin ser la freqüència de les diverses notes, ja que una melodia i la mateixa transposada alguns semitons, s’haurien de considerar la mateixa, o sigui que potser és alguna cosa d’intervals, o de cadenes de Markov d’intervals o durades.
    Però tampoc no veig gens clar com quantificar-les a valors enters d’entre 1 i 5.
    També em pregunto per què dins aquest espai de 450 dimensions funciona precisament la mètrica euclidiana. Això coldria dir que els 450 valors són magnituts de la mateixa mena, no li veuria gaire sentit per identificar una persona emprar les coordinades geogràfiques de la seva casa, l’edat, l’alçada, el color dels cabells i la inicial del nom, i veure quina distància euclidiana té el punt resultant amb l’arxiu.
    O sigui que vaig molt peix sobre com es pot parametritzar una cançó.
    Per cert que un dels meus traumes escolars, quan vaig fer el batxillerat antic, sóc de 1952, va ser que cap professor de matemàtiques va ser capaç d’explicar-me un mínim de geometria en espais euclidians de dimensió més gran que tres. I en principi eren llicenciats en matemàtiques o similars. Potser els hi hauria d‘agrair, vaig trigar com dos anys en deduir tots els politops regulars de dimensió 4, però al final ho vaig aconseguir, i crec que vaig aprendre molt més en el camí que no amb el resultat final.
    Independentment de tot això, m’ha tornat al cap la idea d’identificar una melodia que la tinc força clara, al menys els 5 primers compassos, però que mai no he trobat ningú que la sàpiga identificar, per molt que a alguns els hi sona, a mi em sona com de finals del segle XVIII. Hauré de convèncer un dels fills perquè es baixi l’aplicació, perquè no faig servir smatphone, o esbrinar si n’hi ha alguna similar accessible des d’un navegador.

Comenta

*

(*) Camps obligatoris

L'enviament de comentaris implica l'acceptació de les normes d'ús