Codifiche dei caratteri, da ASCII a Unicode

Giuseppe Di Grande Aggiornato il 12/12/2024 08:00

Cos'è una codifica di caratteri (chiamata anche set di caratteri o character set)?

Noi esseri umani scriviamo e leggiamo determinati simboli che chiamiamo grafemi, ai quali abbiamo dato un significato ben preciso, sia utilizzati singolarmente che in Unione ad altri simboli, come per esempio le lettere dell'alfabeto che si utilizzano in gruppi per formare le parole di una Lingua. Quindi abbiamo un significato attribuito a un simbolo grafico.

Con l'avvento dei Computer si è venuto a creare il problema di rappresentare in forma numerica tutti i grafemi utilizzati in una Lingua. Nella Storia dell'Informatica Per necessità sono stati creati svariati elenchi di caratteri, e a ogni Carattere appartenente all'elenco è stato associato un numero. Per esempio si immagini che in una codifica di caratteri la lettera A abbia il valore 1, mentre in un'altra codifica la stessa lettera A abbia il valore 65. Il risultato finale, cioè attribuire a un Carattere un valore numerico, al fine di rappresentarlo univocamente a Schermo, è identico, cambiano solo i valori numerici che ogni codifica associa ai caratteri. Spiegare perché agli albori dell'Informatica siano state create più codifiche è difficile da fare, anche se possiamo intuire che tutti i problemi siano nati dalla mancanza di accordi o di necessità particolari dei vari produttori di Computer. Per esempio, nel 1977 fu creato da Commodore il set di caratteri PETSCII, una versione rivisitata e potenziata del set di caratteri ASCII del 1963, utilizzato solo negli home Computer Commodore.

Uno degli elenchi di caratteri più famoso è il set di caratteri ASCII. ASCII significa American Standard Code for Information Interchange e la sua pubblicazione ufficiale è del 1968. ASCII è una codifica dei caratteri che utilizza numeri a 7 bit, cioè nel suo set può rappresentare o codificare solo 128 caratteri (da 0 a 127). È comprensibile che nel 1968 quando fu ideato 128 caratteri potevano sembrare sufficienti, d'altronde eravamo agli albori dell'Informatica. Gli home Computer non c'erano ancora, ma esistevano solo grandi elaboratori e qualche terminale sparso qua e là. Col diffondersi dei Computer si venne a creare il problema di rappresentare i simboli delle altre lingue utilizzate nel mondo. Se ASCII sarebbe potuta bastare alla Lingua inglese, risultava insufficiente per le altre lingue, quelle che utilizzano anche lettere con svariati tipi di Accento. Quindi l'American National Standards Institute (ANSI) aggiunse un bit al codice ASCII e lo ampliò fino a fargli rappresentare 256 caratteri (da 0 a 255). Ma tutto ciò non bastava. Infatti, sempre utilizzando 8 bit, si vennero a creare tante codifiche ANSI, ognuna rappresentante i simboli di una determinata Lingua. Per esempio, la codifica ANSI per i caratteri latini, per i caratteri greci, per quelli cirillici, per le lingue orientali. Ciò che tutte le codifiche ANSI avevano in comune, erano i primi 7 bit, cioè la codifica ASCII di base.

Oggi con l'avvento di Internet e del Web, le comunicazioni sono in centinaia di lingue e diverse lingue possono convivere in uno stesso Documento, o in uno stesso programma. È per questo che a partire dai primi anni '90 ha cominciato a diffondersi Unicode, una codifica dei caratteri universale, che sfrutta ben 32 bit (anche se oggi quella più diffusa utilizza ancora 16 bit). Oggi Unicode comprende in un solo set di caratteri tutti i caratteri di tutte le lingue del mondo. Viene utilizzato nel Web, attraverso il set Speciale di caratteri denominato UTF8, che pur utilizzando solo 8 bit può rappresentare Unicode grazie alla sua codifica multibyte. Unicode ha uniformato il set di caratteri oggi utilizzato da tutti i sistemi operativi.

Per ulteriore supporto ci si può iscrivere nel Gruppo di Biblos su Facebook o nel Canale di Biblos su Telegram.

DiGrande.it