Entrades amb l'etiqueta ‘Byte’

On és, la informació?

dissabte, 16/12/2017

Els informàtics som cuiners d’informació. La guardem i la processem. La treballem, la preparem i intentem fer-la més digerible. A mi personalment, m’agrada treballar la informació geomètrica que permet modelitzar i representar la forma de tot el que ens envolta, però hi ha companys que són especialistes en camps tant diversos com el de la informació relativa al color i aparença dels objectes, l’anàlisi de dades, l’estudi d’informació textual, la interpretació d’imatges, el tractament de dades de sensors, la interpretació de la informació que donen els escàners mèdics, l’anàlisi de tot el que hi ha a internet, i molts d’altres. La informació es pot obtenir, emmagatzemar, enviar, compactar, des-compactar, filtrar, comparar, transformar, sintetitzar, i fins i tot crear.

Però, com es guarda? Us heu preguntat alguna vegada com és que les targetes externes de memòria dels nostres telèfons, com la de la imatge, poden guardar fotos, vídeos i documents? On són, les fotos? Ens hem acostumat a aquest estrany món màgic en el que podem veure noticies de tot el món pràcticament en temps real ben asseguts al sofà de casa i en el que podem parlar i veure les persones que estimem mentre caminem pel carrer i mirem la pantalla del mòbil, i ja res ens sorprèn. Però, ben mirat, no deixa de ser meravellós. Hem après a fer uns petits objectes, prims i petits com una ungla, minerals i inerts com les pedres, però que, amb la seva sofisticada estructura interna, poden guardar milers de fotos i vídeos. Són plaques minerals que amaguen un immens volum d’informació. La targeta que veieu a la imatge, de 32 GB, té espai per uns 64.000 llibres com el que ara mateix estic llegint.

L’Emilio Lledó ens parla d’aquest invent màgic que va ser l’escriptura. Ens diu que l’escriptura va ser el primer artifici per subjectar el riu del temps, permetent que el “després” no es dissolgués per sempre i que les paraules pronunciades no s’esgotessin en l’oralitat. Només l’escriptura va poder allargar la vida de la memòria, consolidant una cultura que abans, únicament amb la tradició oral, era immensament fràgil. Perquè quan parlem, estem comunicant informacions a travès de vibracions de l’aire, vibracions efímeres que es perden per sempre més si ningú, en aquell lloc i moment, les escolta. En canvi, l’escriptura aconsegueix el miracle de permetre la comunicació entre dos instants diferents de temps, amb marques a tauletes d’argila o marques de tinta a pergamins que perduren anys i anys. Per això, l’Emilio Lledó diu que el llibre és, abans que res, un recipient on reposa el temps, una presència que, paradoxalment, és carregada d’absències de manera que la lectura conjuga dues temporalitats, la de qui el va escriure i la de qui el llegeix. Jo només afegiria un detall: els llibres són recipients on reposa el temps, però també són regals d’informació. Fins el descobriment de la fotografia i el cine, els llibres van ser pràcticament els únics recipients (o contenidors) d’informació que va tenir la humanitat.

La informació és allò que ens permet conèixer, entendre, tenir arguments, decidir amb coneixement de causa. Però no existeix per sí sola. Li cal un substrat, basat en la matèria o en l’energia. I si no el té, desapareix. La matèria ens serveix per guardar-la, l’energia per enviar-la. Les lletres de tinta a les pàgines dels llibres codifiquen la informació del text en base a unes determinades pautes de forma i ordre. Quan llegim, aquest ordre material ens arriba a la retina gràcies a l’energia d’aquests fotons efímers que surten de la pàgina i que justament existeixen gràcies a uns altres fotons, els de la làmpada de casa. Tot és ben subtil. No podem llegir sense fotons, i els fotons, sense ulls que mirin, es perden junt amb la seva informació. Però la conjunció de pàgines escrites, fotons i mirada fa que la informació arribi al nostre cervell i que quedi emmagatzemada a les connexions entre neurones. És la informació dels llibres, cartells, imatges i vídeos, que ens arriba gràcies a la llum i que acaba guardant-se en petites modificacions de la matèria que conforma el nostre cervell.

Guardem informació visual, auditiva i en general sensorial al cervell, i el nostre cos guarda, a la seqüència de nucleòtids de l’ADN, tota la informació genètica que permetria fins i tot clonar-nos. Creem informació amb tots els correus electrònics i missatges que enviem, informació que al menys durant un temps ens queda guardada als nostres mòbils i portàtils. El vent que s’emporta les espores i llavors, ajuda a disseminar informació de les plantes, a la vegada que informa les abelles de les flors que requereixen pol·linització. Fins i tot rebem informació dels estels, codificada en l’espectre dels fotons de la seva llum. Perquè la informació no és cosa nostra. Fa milions d’anys que va repetint aquest cicle de la informació inherent a la matèria, que s’envia, es rep, es torna a guardar segurament una mica modificada, i així successivament.

Quan veig una targeta Micro-SD com la de la imatge no deixo d’admirar-me. Penso en els primers ordinadors de memòria de nuclis de ferrita, amb els que vaig tenir el privilegi de poder treballar. A la imatge de sota teniu una foto d’un tros d’una d’aquestes memòries, amb 2.500 nuclis. Compareu la mida (el meu dit pot servir de referència) amb la de la targeta de la imatge de dalt, on hi caben 32 mil milions de Bytes. En canvi, com que cada nucli podia guardar un bit, el tros de memòria de la foto podia emmagatzemar uns 312 Bytes. En aquesta web podeu veure el seu funcionament.

Però les memòries de ferrita van desaparèixer amb l’aparició dels circuits integrats i la miniaturització. Vam passar pels grans discs durs, pels disquets, pels CD i pels DVD. Els CD són com camps llaurats, amb solcs que marquen els bits individuals d’informació. Ho podeu veure, per exemple, a les imatges d’aquesta web. I, tornant al principi, on és la informació que guardem en un llapis de memòria o en una targeta Micro-SD? Les memòries flash no tenen nuclis de ferrita ni solcs, sino pous. La targeta de la imatge conté un total de 256 mil milions de pous microscòpics de potencial, ben aïllats, cada un dels quals pot atrapar i guardar electrons sense deixar-los sortir. La informació es guarda en pous plens i pous buits, que codifiquen els bits de tot allò que hi posem. Podem deixar la targeta en un calaix i al cap d’uns anys connectar-la via USB a l’ordinador. Comprovarem que la informació és allà, ben guardada. A les targetes flash no hi ha lletres ni píxels; només pous d’electrons.

La informació és etèria, però sabem que necessita una base material on reposar. És la gran paradoxa, que fa que sigui limitada, en temps, en espai i en volum. Pot durar centenars de milions d’anys, en trossos d’ADN que trobem en restes fossilitzades d’antics animals i plantes. O pot ser efímera, quan per error esborrem allò que acabem d’escriure. Aquest límit temporal és dramàtic. Hem perdut la majoria de manuscrits de l’antiguitat i ens hem de conformar amb el poc que ens està arribant. El temps és inexorable, i acabarà escombrant, moltes vegades de manera aleatòria, gran part del que ara ens sembla important. I també és evident que la immensa majoria de les fotos que es fan els joves d’avui en dia no arribaran pas als seus néts. Però a més és limitada en espai perquè és molt rar que no romangui a la Terra. I ho és en quantitat i volum perquè necessita un determinat substrat material que la emmagatzemi. Per tant, el nombre màxim de bits d’informació té un límit, que és de l’ordre del nombre d’àtoms (o partícules) a l’Univers, i que a la seva vegada és de l’ordre de 10 elevat a la potència 82. Un 1 seguit de 82 zeros. És un valor absolutament gegantí, però és un límit. La informació, a cavall entre la matèria i l’energia, és allò tan estrany, eteri i limitat que ens regalen els llibres quan els llegim a l’ombra d’un arbre.
———

Per cert, Vicenç Villatoro cita un acudit dels temps de Franco, que deia: “En España no se persigue a nadie por sus ideas, siempre que se mantengan en su espacio natural, que es el cerebro”.

Els noms de les fotos i dels documents

dimecres, 6/08/2014

Tots sabem que si posem noms clars a les fotos i als documents quan els guardem al nostre ordinador, després ens serà més fàcil trobar-los. Si més no, si ens fa mandra posar nom a totes i cada una de les fotos, sabem que el que sí és recomanable és repartir-les en carpetes o directoris que tinguin noms ben clars i informatius.

Però no tots els noms són bons. Alguns poden ser problemàtics. A molts llocs veureu avisos com aquest, que podeu trobar en una web de la Generalitat: “Es recomana evitar donar noms llargs als fitxers. També és important tenir en compte que els noms dels fitxers no han de contenir accents, caràcters especials (ç, %,…) o espais en blanc”. El problema dels espais en blanc és que no tots els Sistemes Operatius els tracten de la mateixa manera, i quan enviem fotos a d’altres persones (o si ens comprem un nou ordinador) pot ser que aquest nom esdevingui invàlid. I el mateix passa amb les vocals accentuades i amb els caràcters especials (vegeu nota al final).

Podem escriure amb molts caràcters o amb molts pocs, i podem fer-ho amb teclats senzills o complexes. Els primers ordinadors només entenien els dígits numèrics del 0 al 9, les lletres majúscules sense accent i molt pocs caràcters especials. I quasi no ho recordem, però nosaltres, quan només fa deu anys enviàvem missatges de text amb el telèfon mòbil, escrivíem amb teclats molt limitats. Aquí teniu un dels anomenats teclats “t9″ que utilitzàvem. Ho recordeu? Havíem de prémer diverses vegades una mateixa tecla, i així podíem anar seleccionant les lletres una a una. No sé vosaltres, però els meus primers missatges de text van ser en majúscules i sense accents.

La riquesa de caràcters en el conjunt de totes les llengües del món és immensa. Per això, els teclats dels dispositius mòbils es poden adaptar i personalitzar, com podeu veure a la imatge de dalt. En tot cas, és clar que els ordinadors han de poder codificar en bits tots i cada un dels caràcters i símbols que s’escriuen al món. No és una tasca fàcil. Des de l’any 1991 s’ha acordat internacionalment utilitzar la norma Unicode, que actualment ja permet codificar més de cinquanta mil símbols que inclouen tots els alfabets europeus i els ideogrames xinesos, japonesos i coreans junt amb moltes altres formes d’escriptura, així com més d’un miler de símbols especials. L’objectiu final d’Unicode és codificar tots els caràcters utilitzats al món. El Consorci Unicode inclou, amb diferent grau d’implicació, empreses com Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual.

Tornem a la nostra pregunta. Per què no podem posar accents als noms de les fotos i documents? El cert és que tot va començar fa quasi cinquanta anys, l’any 1967. Inicialment els ordinadors treballaven només amb les majúscules de l’alfabet llatí més uns quants símbols auxiliars. Posteriorment s’hi van afegir les minúscules. L’any 1967 tot plegat es va normalitzar en un conjunt de 128 caràcters amb el nom d’American Standard Code for Information Interchange (ASCII), que és el que encara sobreviu. El codi ASCII és el nucli bàsic de caràcters que entenen i saben codificar tots els ordinadors i plataformes informàtiques. Només admet 128 caràcters perquè utilitza un octet o Byte per caràcter, vegeu la nota del final. Per això, si voleu tenir noms de fitxers que pugui entendre i descodificar bé qualsevol ordinador o telèfon mòbil, millor que només utilitzeu caràcters ASCII, aquest subconjunt bàsic de 128 símbols diferents.

Ara bé, fixeu-vos que el nom ja ho diu tot. ASCII són les sigles de “American Standard Code for Information Interchange“. El van implantar els americans, i s’ho van fer a mida. ASCII no codifica vocals accentuades perquè en anglès no hi ha accents. Els 128 caràcters ASCII són suficients per a les majúscules i minúscules de l’alfabet anglès, i més inclouen xifres, signes de puntuació i alguns caràcters de control. Però com podeu veure en aquesta web, ASCII no inclou ni els caràcters accentuats ni el punt volat que s’usa en català, ni molts altres símbols com els signes matemàtics i les lletres gregues.

En resum, és recomanable que els noms dels fitxers no continguin accents, espais en blanc o caràcters especials com els que teniu a la nota del final. De fet, ens ho diu ben clar la lletra “A” de les sigles ASCII. Pel que fa als espais en blanc, una solució pot ser separar les paraules amb el caràcter “_”, tot i que també podeu anar alternant majúscules i minúscules. Així, una foto de l’aniversari de la nostra filla Núria la podem anomenar Nuria_Aniversari_2014.jpg o NuriaAniversari2014.png, però millor que us oblideu de l’accent i dels espais en blanc.

Pot semblar sorprenent, però les nostres fotos i documents porten encara el rastre de l’hegemonia anglosaxona durant les primeres dècades de la història de la informàtica…

Per cert, Zygmunt Bauman diu que, per assolir una convivència pacífica, has de dialogar amb les persones que divergeixen de les teves idees, fins i tot amb les que odies. Continua dientque l’alternativa són les bales.

 

——

NOTA: A més de les lletres amb accent i dels espais en blanc, els caràcters no recomanables són bàsicament aquests: “ç”, “ñ”, “%”, “[“, “]”, “=”, “$”, “+”, “,”, “;”, “<“, “>”, “:”,  “\”, “/”, “|”, “*”, “?”, a més de les mateixes cometes “.

En la codificació ASCII, tots els caràcters ocupen un octet (vuit bits) i això facilita molt la seva manipulació. ASCII no pot codificar més de 128 símbols diferents perquè 128 és el nombre total de diferents configuracions que es poden aconseguir amb 7 dígits binaris o digitals. Això és perquè en ASCII, el vuitè dígit de cada octet, anomenat bit de paritat, es reservava per detectar possibles errors de transmissió.

En canvi, Unicode defineix tres formes de codificació amb el nom UTF (Format de Transformació Unicode, com podeu veure en aquesta web). El problema és que cada caràcter ja no ocupa un sol octet. En la codificació UTF-8, la majoria de caràcters ocupen un octet, però alguns necessiten dos, tres o més octets correlatius (la informació de si el caràcter en qüestió que estem analitzant ocupa només un octet o n’ocupa més d’un, és en el vuitè bit, en el bit que sobra quan codifiquem els 128 possibles caràcters en 7 bits). En la codificació UTF-16, els caràcters ocupen en general dos octets (16 bits) tot permetent representar l’anomenat pla bàsic multilingüe (BMP). Finalment, la UTF-32 codifica cada caràcter en 4 octets (32 bits) de longitud fixa. És la més senzilla de les tres, però qualsevol text acaba ocupant 4 vegades més memòria que la que ocuparia en codificació ASCII.