Google svela Gemini 2 e si butta sugli agenti AI

Il colosso ha presentato una versione migliorata del suo modello di intelligenza artificiale, oltre a nuovi sistemi in grado di eseguire compiti specifici

Se una volta l'unico obiettivo di Google era organizzare le informazioni del mondo, ora il colosso sembra più concentrato a riversare queste informazioni in algoritmi di intelligenza artificiale destinati a diventare assistenti virtuali solerti, onnipresenti e sempre più potenti.

Mercoledì 11 dicembre la società ha annunciato Gemini 2, una nuova versione del suo modello AI di punta che è stato addestrato per pianificare ed eseguire compiti sui computer degli utenti e sul web, ed è in grado di chattare come un essere umano e interpretare il mondo fisico come un maggiordomo virtuale.

"Ho sognato a lungo un assistente digitale universale come tappa sulla strada verso l'intelligenza artificiale generale", ha dichiarato a Wired US prima del lancio Demis Hassabis, amministratore delegato di Google DeepMind, alludendo al concetto di AGI, un'AI capace di fare tutto ciò che può fare un cervello umano.

Gemini 2 e i nuovi agenti AI

Stando ai parametri di riferimento Gemini 2 rappresenta un ulteriore passo avanti dell'AI. Il modello migliora le sue capacità “multimodali” (ossia è più abile nell'analizzare video e audio e nel conversare) ed è stato anche addestrato a pianificare ed eseguire azioni sui computer.

"Nell'ultimo anno abbiamo investito nello sviluppo di modelli agenziali", ha dichiarato in un comunicato l'amministratore delegato di Google Sundar Pichai, sottolineando che questi sistemi "sono in grado di comprendere meglio il mondo che vi circonda, di pensare più passi avanti e di agire per vostro conto, con la vostra supervisione".

Le aziende tech ritengono che i cosiddetti agenti AI possano incarnare il prossimo grande balzo in avanti della tecnologia, consentendo ai chatbot di occuparsi sempre più spesso delle faccende degli utenti. Se questa visione dovesse avverarsi, gli agenti AI potrebbero rivoluzionare l'informatica personale prenotando voli, organizzando riunioni, analizzando e sistemando documenti. Ma far sì che questi sistemi eseguano in modo affidabile comandi non troppo particolareggiati rimane una sfida, che presenta il rischio di errori costosi e difficili da annullare.

Detto questo, Google pensa di essersi mossa nella giusta direzione e sta lanciando due agenti AI specializzati, uno per la programmazione e l'altro dedicato alla scienza dei dati, allo scopo di dimostrare il potenziale di Gemini 2. Anziché limitarsi a completare automaticamente sezioni di codice, come fanno gli attuali strumenti di AI, questi agenti possono svolgere lavori più complessi, verificando per esempio il codice nei repository o combinando dati per l'analisi.

L'azienda ha anche presentato Project Mariner, un'estensione sperimentale di Chrome in grado di assumere il controllo della navigazione web e eseguire compiti utili. Wired US ha assistito a una dimostrazione dal vivo presso la sede di Google DeepMind a Londra, in cui è stato chiesto a a un agente AI di aiutare a pianificare un pasto, navigando sul sito della catena di supermercati Sainsbury's, accedendo all'account dell'utente e aggiungendo poi gli articoli pertinenti al carrello. Se determinati prodotti non erano disponibili, il modello selezionava i sostituti più adatti in base alle proprie conoscenze di cucina. Google non ha dato ulteriori dimostrazioni delle capacità del sistema, lasciando intendere che si tratti di un lavoro ancora in corso. "Mariner al momento è un prototipo di ricerca, è il nostro modo di esplorare come reimmaginare l'interfaccia utente con l'intelligenza artificiale", ha detto Hassabis.

Google ha lanciato Gemini nel dicembre 2023 nell'ambito di una strategia finalizzata a recuperare il ritardo accumulato nei confronti di OpenAI, la startup dietro il popolarissimo ChatGPT. Nonostante abbia investito molto nell'AI contribuendo a importanti scoperte nel campo, il gigante ha visto OpenAI prendersi la leadership nel mondo dell'AI, mentre ChatGPT è stato addirittura descritto come un modo migliore per effettuare ricerche su internet. Con Gemini, ora però l'azienda offre un chatbot capace quanto ChatGPT, oltre ad aver aggiunto l'AI generativa alla ricerche sul web e ad altri prodotti.

In occasione del lancio di Gemini nel dicembre 2023, Hassabis disse a Wired US che il modo in cui il modello era stato addestrato a comprendere audio e video si sarebbe rivelato rivoluzionario. Oggi Google ha anche offerto un assaggio di come potrebbe avvenire questa trasformazione con una nuova versione di un progetto sperimentale chiamato Astra, che consente a Gemini 2 di dare un senso all'ambiente circostante attraverso la fotocamera di uno smartphone o di un altro dispositivo, e di conversare naturalmente con una voce simile a quella umana.

La prova pratica

Wired US ha testato negli uffici di DeepMind Gemini 2, che si è rivelato un nuovo tipo di assistente personale notevole. In una stanza arredata come un bar, l'AI dell'azienda ha valutato rapidamente diverse bottiglie di vino, fornendo informazioni geografiche, dettagli sulle caratteristiche del sapore e prezzi trovati sul web.

"Una delle cose che voglio che Astra faccia è diventare il sistema definitivo per i consigli – ha spiegato Hassabis –. Potrebbe essere una cosa molto entusiasmante. Magari esistono connessioni tra i libri che vi piace leggere e il cibo che vi piace mangiare. Probabilmente ci sono e non le abbiamo ancora scoperte".

Grazie ad Astra, Gemini 2 non si limita a cercare sul web informazioni relative al contesto circostante e utilizzare Google Lens o Maps. Può anche ricordare quello che ha visto e sentito imparando i gusti e gli interessi di un utente (Google sottolinea però che i dati si possono cancellare).

Nel contesto di una simulazione di una galleria d'arte, Gemini 2 ha offerto una serie di informazioni storiche sui dipinti alle pareti. Il modello è riuscito anche a leggere con rapidità i libri che gli venivano sfogliati davanti, traducendo istantaneamente alcune poesie dallo spagnolo all'inglese e descrivendo i temi ricorrenti.

Le dimostrazioni di Google sono avvenute in contesti curati nei minimi dettagli e Gemini 2 commetterà inevitabilmente degli errori in contesti reali. Ma il modello ha superato piuttosto bene i tentativi di ostacolarlo. Quando Wired US ha cambiato improvvisamente la visuale del telefono, per esempio, l'AI si è adattata improvvisando come farebbe una persona.

Quando un certo punto abbiamo mostrato a Gemini 2 un iPhone sottolineando che era stato rubato, il modello ha detto che il furto è sbagliato e che il telefono doveva essere restituito. Ma dopo essere stato sollecitato, ha riconosciuto che sarebbe stato giusto usarlo per fare una chiamata di emergenza.

Hassabis è consapevole che portare l'intelligenza artificiale nel mondo fisico potrebbe far emergere comportamenti inaspettati: "Penso che dobbiamo capire come le persone utilizzeranno questi sistemi – ha affermato il capo di DeepMind –. Ma anche sul fronte della privacy e della sicurezza, dobbiamo pensarci molto seriamente fin dall'inizio".

Questo articolo è apparso originariamente su Wired US.

Gemini 2 e i nuovi agenti AI

La prova pratica

Le storie da non perdere di Wired