‘Le macchine vedono’: ecco cosa significa davvero quest’affermazione

Uno dei probabilmente meglio riusciti e più celebri casi di automi evil – antagonisti – della storia del cinema è costituito esclusivamente da un occhio. Hal 9000 è il super computer a bordo della nave spaziale Discovery 2001, che nella Odissea nello Spazio di Kubric (dal romanzo di Clarke) riesce a soggiogare uno dopo l’altro gli astronauti grazie alle sue capacità di visione alternative e differenti da quelle umane.

Un occhio senza pupilla né iride, ma che tutto vede sulla sua nave perché tutto sente. Ed è il replicante Roy Batty, nei suoi ultimi di istanti di vita, a spiegare nel suo celeberrimo monologo in Blade Runner che a distinguere la sua razza dagli umani è innanzitutto una questione di vista – (“ho visto cose che voi umani…”).

Simone Arcagni, professore dell’Università di Palermo, ha da poco scritto per Einaudi L’Occhio della Macchina, un testo denso in cui si prova a raccontare l’importanza che la visione computazionale ha avuto e sta tutt’ora avendo nell’immaginario contemporaneo oltre che nei piani dello sviluppo delle nuove tecnologie.

Un capitolo dedicato per ogni occhio (occhio computazionale, occhio cibernetico, occhio matematico, occhio virtuale…), in ciascuno dei quali si dedica molta attenzione a tessere una genealogia storica dello sviluppo di tecnologie di computer vision, a partire dalla tesi di dottorato di Larry Roberts nel 1960 sulla possibilità di estrazione di informazioni geometriche in 3D a partire da poliedri in 2D. In questi anni, è inutile ribadirlo, l’attenzione verso la computer vision si è fatta cruciale da parte dei mercati del digitale.

Leggi anche Verso una teoria dello sguardo meccanico. Dialogo con simone Arcagni di Andrea Libero Carbone

Basti pensare al suo utilizzo nella progettazione di veicoli a guida autonoma (percorso di ricerca che tuttavia ha subito una dura battuta d’arresto l’anno scorso a seguito dell’incidente Uber), o a usi più tirannici come l’applicazione del riconoscimento facciale nei sistemi di social credit in Cina, o come altro esempio possiamo considerare l’implementazione del riconoscimento immagini nei prodotti di intelligenza artificiale domestica come Alexa o Siri

Ma a che punto stanno queste tecnologie? È possibile per una macchina vedere, nel senso non solo di riconoscere un determinato oggetto o volto, ma anche di comprendere situazioni a partire da immagini? Alcuni ottimi risultati sono sotto gli occhi di tutti e non credo sia necessario mettersi qui a vantare le lodi dei buoni algoritmi che Facebook ha realizzato con tutto il materiale che gli abbiamo fornito. Invece una cosa più interessante, che fa anche Arcagni, è cercare le contraddizioni in quella domanda di “buon funzionamento” andando a scavare in una direzione epistemologica che purtroppo, in nome del famoso mito della fine della teoria, poco spesso si fa.

Proprio partendo da un caso citato nel volume, lo scienziato cognitivo Josh Tenenbaum del MIT ha realizzato un sistema di intelligenza artificiale basato su deep learning per assegnare a un’immagine una didascalia descrittiva. La precisione dell’algoritmo era pure buona, ma gli errori erano spesso ridicoli, come quando una foto di un aereo palesemente in difficoltà, inclinato su un fianco mentre tocca con un’ala un ponte autostradale, viene identificato come “un aereoplano parcheggiato sull’asfalto in aereoporto”. Il problema è allora un problema di modelli, di rappresentazione, di teoria.

Verso una nuova ontologia delle capacità cognitive

La computer vision, oltre a condividere la fase storica, ha molto in comune con lo sviluppo dell’intelligenza artificiale, in quella che Arcagni considera un processo di “riontologizzazione”. Lo Human Brain Project è un tentativo di costruire da zero una simulazione del cervello umano per comprenderne il funzionamento. Un progetto che fin dalla sua nascita ha suscitato critiche e perplessità, essendo contestata la possibilità di ottenere nuove informazioni sul cervello umano partendo da una sua simulazione.

I ‘60, come ricorda Arcagni, sono gli anni in cui si sviluppa il percettrone ideato da Rosenblatt nel ‘57, un algoritmo spesso rappresentato come modello virtuale di un neurone biologico per la presenza di input e output, e che va a costituire la base delle moderne reti neurali artificiali di cui sempre più spesso sentiamo parlare. Ma sarebbe un errore pensare alle reti neurali artificiali come una riproduzione della mente umana, così come un occhio artificiale, per quando possiamo dire che è capace di vedere, non è certamente provvisto di cornea e retina.

Con uno stimolante parallelo allo sviluppo dell’aviazione, Arcagni ricorda gli esperimenti fallimentari di Leonardo da Vinci di costruire velivoli efficienti a somiglianza della ali degli uccelli. Per riuscire a volare, vedere, far pensare la macchina, è necessario allora, citando Floridi con Arcagni, “una trasformazione di natura intrinseca di un sistema o di un artefatto, vale a dire la sua ontologia”. E l’occhio, per il ruolo che riveste nella funzione biologica, è stato un soggetto centrale in questo processo di riontologizzazione.

L’occhio dei data è un occhio globale che vede come vede Hal 9000, non per leggi meccaniche ma come processo di raccolta ed elaborazione dati. Whendy Chun parla di una nuova dimensione umana, una nuova ontologia che ridefinisce anche la nostra identità e il nostro sentire, che oggi diventa un “essere aggiornati”.

La suggestione che proviene da Arcagni fa parte di un dibattito attuale sempre più variegato e ibrido, su come e quanto i modelli immaginati dalla tecnologia plasmino la concezione stessa delle nostre forme di corpo e identità, sovvertendo sempre continuamente, a volte silenziosamente, l’ipotesi di una natura umana.

In copertina elaborazione grafica di un’immagine da Wikimedia Commons