I limiti linguistici dell'AI, i pulcini e i robot. L'edizione 2024 dell"AAAI Conference on Artificial Intelligence"
Innovazione. Dal 20 al 27 febbraio 2024 si è tenuta a Vancouver la 38ma edizione della AAAI Conference on Artificial Intelligence, una delle due conferenze mondiali più importanti nel campo dell‘intelligenza artificiale intesa nella sua totalità – a complemento di una serie di altre conferenze internazionali di punta per settori più specifici dell’intelligenza artificiale, come NEURIPS e ICML per il machine learning, CVPR per la visione, KR per la rappresentazione della conoscenza, e così via. Sull’onda degli impressionanti risultati ottenuti negli ultimi anni soprattutto nel campo dell’apprendimento automatico e dell’AI generativa, la conferenza che ha recentemente vissuto una velocissima espansione: è passata da circa 1400 articoli inviati nel 2014, per un totale di 400 articoli accettati nel programma, ai vertiginosi numeri di 12100 articoli inviati per 2300 accettati nell’edizione di quest’anno.
Alla conferenza di Vancouver ha partecipato Marco Montali, docente di Data and Process Modelling e vicepreside alla didattica della Facoltà di Ingegneria all’Università di Bolzano che ci ha inviato un report sugli aspetti più interessanti.
Ho avuto modo di partecipare alla conferenza per presentare due articoli nel campo dell’intelligenza artificiale per l’analisi, il monitoraggio, e il ragionamento strategico legato a processi, dati, e vincoli temporali, frutto di collaborazioni tra la Facoltà di Ingegneria di unibz e Instituto Superior Técnico (Lisbona), Technical University of Denmark (Danimarca), Università di Udine. Una grande occasione per avere il polso dello stato attuale della ricerca in un settore in continua trasformazione e per ascoltare presentazioni particolarmente interessanti.
Yann LeCun, Silver Professor presso NYU, vice-presidente e Chief AI Scientist presso Meta, oltre che co-vincitore del Turing Award (il Nobel per l’informatica) per i suoi contributi al deep learning, ha parlato dei limiti intrinseci dei modelli linguistici, alla base di sistemi come GPT, Claude, Llama 2, e simili. Ha spiegato che nei primi quattro anni di vita un bambino ha già acquisito più dati di tutti quelli utilizzati nell’addestramento di questi sistemi, principalmente per il fatto che non interagisce col mondo e con gli altri solo attraverso il parlato, ma con tutti i propri sensi. Questo permette di acquisire ed affinare una competenza fondamentale per l’intelligenza, e che costituisce uno dei più grandi punti deboli dei modelli linguistici, ovvero la capacità di pianificare. Attraverso la pianificazione siamo infatti capaci di immaginare gli effetti a lungo termine delle nostre azioni, e decidendo infine quali sono più promettenti per raggiungere un obiettivo desiderato. Ha quindi proposto un programma di ricerca per cercare di risolvere questo problema chiave. La comunità scientifica sta dibattendo molto se, per rendere le macchine in grado di pianificare, si possa davvero immaginare, come pensa LeCun, che l’unico ingrediente essenziale sia la capacità di apprendere dai dati, oppure se serva anche fornire alla macchina una serie di conoscenze pregresse – tipicamente nella forma di simboli logico-matematici, processati da algoritmi in grado di ragionare esplicitamente su questi simboli mediante inferenza logica.
Attorno a questo punto fondamentale si sono succedute due altre presentazioni invitate. Elizabeth Spelke, Marshall L. Berkman Professor in psicologia presso l’Università di Harvard, ha toccato il tema dell’apprendimento nei bambini, e di come una serie di esperimenti abbiano mostrato la presenza di forme di conoscenza “innata”, ovvero non appresa, bensì raffinata attraverso l’apprendimento. Durante la presentazione ha citato le ricerche del team del Prof. Vallortigara, che hanno in effetti evidenziato la presenza di forme di conoscenza “innata” nei pulcini (come la reazione di fuga quando si avvista una forma in movimento che ricorda l’avvicinamento di un predatore). Leslie Pack Kaelbling, Professor presso il MIT, ha fatto un excursus sulla sua pluridecennale ricerca nel campo della robotica e della pianificazione, mostrando come si possano realizzare robot in grado di risolvere compiti molto difficili, combinando pianificazione simbolica di alto livello (legata, ad esempio, a decidere quali passi devono essere eseguiti per riempire un bicchiere con dell’acqua), con apprendimento automatico legato ad azioni, e sequenze di azioni, per realizzare effettivamente ognuno di questi passi (ad esempio, imparare i movimenti per afferrare una bottiglietta, e rovesciarne il contenuto nel bicchiere).
Questi tre interventi hanno affrontato, con angolature diverse, una delle più grandi sfide aperte nell’intelligenza artificiale: come fare in modo che sistemi di machine learning siano in grado di effettuare forme di ragionamento – nella fattispecie, di pianificare perseguendo un obiettivo. Una sfida aperta con due grandi tesi, tutte da verificare. Da un lato, la tesi che trovando un algoritmo di apprendimento adatto, e una mole sufficiente di dati diversi per poterlo allenare, queste capacità di pianificazione possano emergere spontaneamente. Dall’altro, la tesi alternativa che per ottenere sistemi in grado di pianificare autonomamente, sia necessario che essi contengano una componente in grado di manipolare conoscenza esplicita fornita nel linguaggio logico-matematico, nonché integrare questa capacità con quella dell’apprendimento automatico tipica del machine learning. Questa seconda tesi è ormai nota sotto il nome di “intelligenza artificiale neurosimbolica”. C’è ancora molto da indagare sul tema.
Testo e foto di Marco Montali