Per osservare il caos, gli algoritmi lottano contro l’entropia

L’intelligenza artificiale e il machine learning hanno un notevole numero di vantaggi. Il primo risiede nell’identificazione di schemi e correlazioni spesso troppo complessi per gli umani da individuare.

Pubblichiamo un estratto dal saggio di Alessandro Vespignani
L’algoritmo e l’oracolo. Come la scienza predice il futuro e ci aiuta a cambiarlo (Il Saggiatore)

Per esempio un algoritmo trova con facilità l’associazione tra le tante variabili che definiscono l’uso degli smartphone (numero di chiamate, localizzazione delle chiamate, connessioni Internet) di migliaia di individui e il tasso di disoccupazione della popolazione. In questo modo è possibile definire una funzione che permette di avere previsioni sul tasso di disoccupazione in una data area geografica basandosi semplicemente sull’uso dei telefoni cellulari.

Il secondo vantaggio nella velocità con cui gli algoritmi possono eseguire questi compiti: l’analisi di milioni di immagini o lo studio della correlazione tra migliaia di punti in uno spazio a due dimensioni può essere eseguito nel tempo di un battito di ciglia. Lo posso testimoniare in prima persona: quando, nel gennaio del 2016, i colleghi del Center for Inference and Dynamics of Infectious Diseases del National Institute of Health mi chiesero di creare un modello per la previsione dell’evoluzione dell’epidemia di Zika in America Latina, la velocità degli algoritmi fu decisiva.

Zika è un virus che si trasmette da individuo a individuo principalmente attraverso un vettore: le zanzare di tipo Aedes. Creare un modello della diffusione di questa epidemia significa quindi avere delle mappe molto dettagliate della presenza e abbondanza delle zanzare, senza le quali qualunque modello di trasmissione della malattia è destinato a fallire miseramente.

La mia reazione iniziale alla richiesta dei colleghi fu piuttosto pessimista, e mi ricordo ancora che risposi dicendo che le zanzare non hanno lo smartphone, e trovare dove e quante erano sarebbe stato impossibile. Mi sbagliavo: il machine learning in realtà aveva già risolto il problema.

Infatti, solo un anno prima, una collaborazione internazionale aveva ottenuto delle previsioni aggiornate sulla distribuzione di questo tipo di zanzare in tutto il mondo.

L’algoritmo, come nella maggior parte delle applicazioni di machine learning, aveva un problema di trasparenza. In altre parole non poteva spiegare il suo pensiero

Queste previsioni si basavano sui dati più aggiornati della presenza geografica di questa specie di zanzare combinati con le relative informazioni sulle condizioni ambientali dei luoghi di osservazione in tutto il mondo. In totale, si trattava di oltre 40 000 rilevazioni di presenza delle zanzare di tipo Aedes Aegypti e Aedes Albopictus, e di centinaia di migliaia di dati relativi ai luoghi di osservazione, quali temperatura, precipitazioni, umidità, indice di vegetazione e urbanizzazione.

Trovare una relazione che lega l’abbondanza delle zanzare a queste variabili è un esercizio impossibile per l’uomo, ma non per un algoritmo di machine learning chiamato Boosted Regression Trees.

Macinando tutti questi dati, l’algoritmo aveva generato delle mappe della presenza delle zanzare Aedes per l’intero mondo a una risoluzione di 5 × 5 km.

Esattamente quello che serviva al mio team per poi costruire un modello che fosse in grado di descrivere l’evoluzione della malattia. Ancora mi ricordo il senso di meraviglia davanti a quelle mappe, estremamente precise e preziose per il nostro lavoro.

Non potevo che provare ammirazione per la capacità di quell’algoritmo di riuscire in qualcosa che nessuno di noi poteva neanche sperare di fare.

Tuttavia, questo senso di ammirazione era misto a un certo disagio.

L’algoritmo, come nella maggior parte delle applicazioni di machine learning, aveva un problema di trasparenza. In altre parole non poteva spiegare il suo pensiero: i calcoli che portavano a quelle bellissime mappe restavano nascosti nei suoi convoluti meccanismi di funzionamento.

Il team internazionale che aveva prodotto quei risultati aveva infatti poi eseguito un’enorme mole di lavoro per spiegare i risultati in modo interpretativo, studiando l’impatto di variabili come la temperatura e l’umidità sul ciclo di vita delle zanzare.

Pochi minuti per calcolare le mappe e un anno di analisi per essere sicuri che fossero corrette.

A questo problema è stato dato il nome di black box, riferendosi al fatto che molti algoritmi prendono un dato in entrata e ne producono uno in uscita, passando attraverso un processo di apprendimento che è una scatola nera non interpretabile dall’esterno. In altre parole, il machine learning ha permesso agli algoritmi di aggirare uno dei loro maggiori ostacoli: il cosiddetto paradosso di Polanyi.

Negli anni cinquanta, infatti, lo scienziato e filosofo Michael Polanyi introdusse il concetto di conoscenza implicita, quel tipo di conoscenza che spesso non siamo consapevoli di avere, e quindi è difficilmente trasferibile a un’altra persona.

Siamo entrati nell’era degli algoritmi, e il mondo si è ritrovato ad adorare degli indovini digitali

Il paradosso di Polanyi può essere riassunto nella frase «Conosciamo di più di quello che possiamo spiegare». Questa frase di buon senso coglie il fatto che, implicitamente, sappiamo molto sul modo in cui funziona il mondo intorno a noi, ma non siamo in grado di esplicitare questa conoscenza. E infatti, per trasferire la conoscenza necessaria a parlare una lingua, andare in bicicletta o riconoscere oggetti diversi, il metodo migliore è attraverso gli esempi e le esperienze pratiche.

Gli algoritmi di machine learning, e in particolare le reti neurali, sono proprio lo strumento con cui i computer acquisiscono un tipo di conoscenza implicita attraverso input esemplificativi, senza però poi essere in grado di esplicitare il perché dei loro risultati.

Questa constatazione apre dei grandi interrogativi sull’uso degli algoritmi, sia per fini scientifici che predittivi. Come possiamo essere sicuri della loro affidabilità? Quanta reale comprensione del fenomeno possiamo raggiungere attraverso l’intelligenza artificiale? Come possiamo classificare i compiti adatti e quelli problematici per il machine learning?

E poi la questione più importante: gli algoritmi producono davvero conoscenza se in realtà non approfondiscono la nostra comprensione di come funziona il mondo?

A queste domande, però, un grande numero di ricercatori e utilizzatori degli algoritmi, soprattutto nel mondo aziendale, risponde dicendo «Siamo pagati perché funzioni, non per capire perché e per come».

Usando le parole di Steven Strogatz, famoso matematico e uno dei padri della scienza delle reti, non ci resterebbe che sederci ai piedi delle macchine e ascoltare attentamente: «Non capiremmo perché l’oracolo abbia sempre ragione, ma potremmo verificare i suoi calcoli e le sue predizioni con esperimenti e osservazioni e confermare le sue rivelazioni».

L’intelligenza artificiale ridurrebbe così il nostro ruolo a quello di spettatori meravigliati. Siamo entrati nell’era degli algoritmi, e il mondo si è ritrovato ad adorare degli indovini digitali.