L’AI corre, ma noi abbiamo bisogno di tempo
Innovazione. Nel febbraio 2023, poco dopo l’uscita di ChatGPT, Michal Kosinski di Stanford si affretta a depositare su arXiv un articolo molto intrigante. In poche parole, l’articolo conclude (o meglio, sembra concludere) che a differenza dei suoi predecessori, ChatGPT esibisce un comportamento comparabile a quello di un bambino di sei anni nel risolvere problemi di “teoria della mente”. Si tratta di problemi legati alla capacità degli umani di ragionare sugli stati mentali dei propri simili, e sul fatto che punti di vista diversi possono essere associati a credenze, intenzioni, conoscenza differenziate. L’articolo contiene quindi una tesi straordinaria: sistemi statistici che apprendono il linguaggio mediante la predizione di quale parola aggiungere in coda a una frase, allenandosi su enormi molti di testi, sembrano aver appreso capacità assolutamente inattese, legate a forme di ragionamento molto complesse. L’articolo viene ripreso e rilanciato sia in contesti prettamente scientifici che sulla stampa per il grande pubblico.
Non passano nemmeno due settimane, e Tomer Ullman di Harvard pubblica, sempre su arXiv, una sorta di “risposta” all’articolo di Kosinski, risposta che suona più o meno così: prendendo gli stessi test e variandone di poco la formulazione (ad esempio, modificando termini e nomi di persone, o cambiando gli oggetti menzionati nei test ma senza alterarne il significato profondo), ChatGPT esibisce un comportamento di gran lunga peggiore. Sembra che, almeno in parte, questo risultato apparentemente contraddittorio in realtà dipenda dalla violazione, da parte di Kosinski, di un principio fondamentale nella valutazione del comportamento di sistemi di apprendimento automatico: i test su cui vengono valutati questi sistemi non devono sovrapporsi ai test che sono stati utilizzati in fase di apprendimento. In particolare, sembra che Kosinski abbia utilizzato formulazioni standard di test di teoria della mente, presenti pari pari in testi di riferimento con altissima probabilità utilizzati da OpenAI nella fase di apprendimento di ChatGPT, che quindi avrebbe prodotto risposte “a pappagallo” senza in effetti avere nessuna cognizione di causa.Questo breve aneddoto è emblematico di un problema molto più grande: l’AI corre, e spesso a farla correre oggi sono aziende private, ma noi (noi scienziati, ma anche noi utilizzatori finali) abbiamo bisogno di tempo per metabolizzare, validare, comprendere meglio.
Più nello specifico, il botta e risposta tra Kosinski e Ullman ci dice tre cose importanti. Innanzitutto, che è molto difficile formulare test veridici e riproducibili per modelli linguistici di questo tipo, soprattutto quando questi sistemi sono stati programmati e addestrati da aziende private. In secondo luogo, che su queste tematiche la comunità scientifica stessa si affretta a pubblicare risultati: ognuno vuole mettere la classica “bandierina sulla luna” e arrivare a mettere la propria firma sulla prossima grande scoperta legata all’AI. Il risultato è una corsa sempre più malsana e sempre meno fondata su buone pratiche scientifiche. In terza istanza, questa corsa sta portando al collasso del sistema di revisione tra pari, sistema certamente imperfetto ma che continua ad essere il migliore che abbiamo. Si noti infatti che entrambi gli articoli sopra citati siano stati depositati su arXiv, una piattaforma aperta a ospitare “postprint” (ovvero versioni digitali di articoli pubblicati a valle di un processo di revisione fra pari) ma anche “preprint” (ovvero articoli non ancora sottoposti a revisione tra pari). Nella fattispecie, sia l’articolo di Kosinski che quello di Ullman sono preprint, e quindi contengono tesi, esperimenti, spiegazioni che non sono state revisionate da nessun altro. Per avere il polso di quanto questo possa essere un problema: ci sono ad oggi decine di migliaia di articoli sul tema “large language models”, pubblicati negli ultimi 4-5 anni con un ritmo che cresce esponenzialmente. Articoli mai sottoposti a revisori tra pari, però riferiti, letti, rilanciati, riutilizzati per produrre nuovi risultati poggiati su fondamenta traballanti.
C’è chi il tempo per scrutinare quello che sta accadendo in intelligenza artificiale, e in particolare nell’area in fortissima espansione dell’apprendimento automatico, se l’è preso, e sta osservando che i problemi qui esposti sono molto più profondi e diffusi di quanto ci si possa aspettare. Ne parleremo nel prossimo articolo, perché essere consci dei limiti di questi sistemi e dei processi con cui vengono progettati e studiati è condizione necessaria per poterli utilizzare con cognizione di causa.
Marco Montali