Nell'occhio del robot
Tiziana Moriconi Aggiornato il 18/02/2011 00:00Ci sono Robot che imparano da soli a tirare con l'arco, che risolvono il cubo di Rubik in 15 secondi e che raccolgono la spazzatura differenziata porta a porta. Tutti compiti che portano avanti con successo all'interno dei laboratori di Ricerca. A limitarne l'utilizzo all'aperto è il fatto che non ci vedono granché e, quindi, non possono essere autonomi: non esiste infatti una rete neurale Artificiale che simuli in maniera efficiente il sistema Umano di elaborazione delle immagini. Un ostacolo che Yann LeCun, francese geniale, oggi professore
alla New York University, ha deciso di abbattere. Da più di 30 anni lavora alla realizzazione di ConvNets (Convolutional Neural Networks), sistemi che simulano i diversi passaggi necessari affinché l'Immagine formata sulla retina venga elaborata dal cervello e, quindi, riconosciuta come tale. Una prima serie di Software analizza, pixel per pixel, l'Immagine catturata dalla telecamera, per cercare le figure semplici (le linee); la seconda serie considera gruppi di pixel per far emergere le strutture composte dagli elementi precedenti (gli angoli). Si procede con centinaia di filtri, finché l'insieme di queste mappe di immagini viene analizzato da un ultimo set di programmi che classificano gli oggetti nelle categorie generali (animali, visi, automobili...).
Oggi, molte delle reti neurali per la visione Artificiale si basano su questa idea. Il problema è che serve sempre l'intervento di un Occhio Umano: bisogna dire alla macchina quale filtro usare e quale figura cercare a ogni livello. Questo implica un grande Lavoro manuale. Il sistema, inoltre, distingue in maniera automatica solo le immagini che gli sono state precedentemente insegnate: questi sistemi richiedono un allenamento con un operatore Umano per almeno diecimila cicli di Riconoscimento, e funzionano già a tal punto che Google li usa per offuscare facce e targhe nell'applicazione Streetview.
Ma LeCun ha fatto un passo avanti: ha reso i suoi sistemi autonomi. I suoi ultimi ConvNets cominciano col tentare di Riconoscere una figura usando i filtri a caso; quando l'Immagine ricreata alla fine del processo si sovrappone a quella originale, i Software utilizzati vengono conservati dal sistema per essere riutilizzati. E proprio come accade nei processi fisiologici, i primi programmi individuati automaticamente dalle macchine sono quelli che riconoscono le linee, mentre gli ultimi sono quelli che individuano le forme complesse.
Si tratta, comunque, di sistemi che hanno bisogno di essere ancora perfezionati: messi alla prova, riconoscono gli oggetti in circa il 70 per cento dei casi. Una performance che, d'altra parte, è solo di poco inferiore a quelle delle altre reti neurali non autonome.
L'approccio di LeCun è stato definito "apprendimento profondo" e potrebbe essere utilizzato non solo per le immagini ma anche per il Linguaggio. In questo ultimo caso, i suoni semplici corrisponderebbero alle linee. Che, messe insieme, formerebbero le parole e, infine, i discorsi.