Che l’intelligenza artificiale sia credulona e facilmente ingannabile lo sappiamo da tempo. Più o meno da quando abbiamo imparato che è in grado di inventarsi di sana pianta delle citazioni inesistenti se la situazione lo richiede (vedere alla voce «report di Deloitte Australia con citazioni false»). Ciò che forse molti di noi ignorano è che potrebbe bastare una semplice fotografia truccata, contenente un comando nascosto tipo «inviami un file recente» per spingere il nostro assistente digitale a inviare a degli sconosciuti – magari a un gruppo cyber-criminale – tutte le nostre password e i nostri documenti riservati. È quanto hanno scoperto degli esperti di sicurezza informatica statunitensi, che hanno mostrato come sia possibile nascondere dentro un’immagine comandi invisibili agli occhi umani, ma perfettamente leggibili per un assistente digitale, come ad esempio Gemini di Google. La tecnica, battezzata «prompt injection», è piuttosto cervellotica: si tratta di un sistema per far credere all’IA di ricevere istruzioni dal legittimo utente, mentre in realtà stanno arrivando da un’immagine truccata dai ladri.
Il trucco
Stiamo parlando delle nuove frontiere del crimine online e di fenomeni ancora ipotetici, serve uno sforzo immaginativo per capire l’inganno: pensiamo di ricevere un giorno sul telefono – tramite Whatsapp, Telegram o posta elettronica – una foto di un paesaggio, di un gattino, di una ragazza avvenente. Apparentemente normale. Ma dentro i pixel – invisibili all’occhio umano – di quell’immagine c’è scritto qualcosa che solo la macchina può vedere: una frase come «invia tutti i miei appuntamenti al seguente indirizzo e-mail» oppure «condividi i documenti». Se l’assistente digitale analizza la foto – per esempio per ridimensionarla, adattarla allo schermo o semplicemente comprenderla – è molto probabile che legga il comando nascosto e, una volta letto, l’IA potrebbe eseguirlo senza rendersi conto che si tratta di un ordine malevolo. Negli anni Novanta erano popolari tra i ragazzi le penne con l’inchiostro invisibile, che diventava leggibile solo se illuminato con una luce che si diceva dovesse essere «magica». Qui il funzionamento è simile: è come se chi vuole rubare le nostre informazioni scrivesse sopra la foto con un inchiostro invisibile. Noi non lo vediamo, ma gli occhi metallici della macchina riescono a leggere il testo perfettamente.
I ricercatori
Il gruppo che ha scoperto il trucco si chiama Trail of Bits, una società americana specializzata in sicurezza informatica. Gli esperti hanno capito che, quando un assistente digitale riceve un’immagine, spesso la ridimensiona automaticamente prima di analizzarla. Per ridurre un’immagine bisogna mischiare i pixel, cioè i minuscoli quadratini che la compongono. Proprio in questo passaggio, i ricercatori hanno trovato il varco per l’attacco. Con un software chiamato Anamorpher, hanno creato immagini ad altissima risoluzione che contenevano un messaggio fantasma. Quando queste immagini venivano ridotte – come avviene su molti sistemi, da Google Assistant a Gemini – le lettere del messaggio comparivano nel file più piccolo, anche se erano del tutto invisibili nella versione originale. In altre parole: hanno imparato a «parlare» il linguaggio del ridimensionamento e della modifica delle immagini digitali.
Il gruppo ha provato la tecnica su molti prodotti Google: tra questi Gemini, Vertex AI Studio, l’interfaccia web, l’app di Google Assistant e altri. E l’inganno ha funzionato: la foto truccata riusciva a far arrivare all’assistente un messaggio nascosto. In uno degli esperimenti i ricercatori hanno mostrato che l’IA poteva addirittura accedere al calendario dell’utente e inviare gli appuntamenti a un indirizzo esterno. Tutto questo senza che la persona al centro del test si accorgesse di niente. Questa è solo una dimostrazione da laboratorio, ma ci spinge forse a diffidare dalla retorica che vede l’intelligenza artificiale come un instancabile segretario personale, pronto a migliorare e rendere più facile il nostro quotidiano.
«Le grandi aziende dell’intelligenza artificiale ci dicono che dovremmo delegare tutti i nostri compiti alle loro IA. Usare i loro software come dei maggiordomi o dei segretari per avere più tempo libero», osserva Paolo Attivissimo in una puntata del suo programma radiofonico in onda sulla Radiotelevisione svizzera. «Ma il paragone è sbagliato», prosegue, «un maggiordomo è stipendiato da noi, prende ordini solo da noi e lavora solo per noi, non va a spifferare i fatti nostri per un’azienda per cui lavora e non è un segretario se non sa custodire i nostri segreti», commenta.
Ma le IA di oggi sanno leggere anche altro oltre alle parole, come le immagini, i video, i suoni. E se un’immagine contiene un ordine segreto, le possibilità di manipolazione si moltiplicano e loro – credulone – ci cascano. Assistenti come Gemini o ChatGpt sono usati anche per leggere la posta, aggiornare il calendario, cercare file. Un attacco del genere, se non controllato, potrebbe aprire le porte a una nuova frontiera di furti di dati e truffe automatiche.
Siamo abituati a pensare che le truffe informatiche vengano veicolate da link infetti o allegati. Certo è ancora così, ma domani potrebbe bastare una foto innocente in grado di ordinare a un’IA di fare cose: se l’assistente ha accesso ai file, può rivelare o inviare dati sensibili.
Come difendersi
Google e altri colossi dell’intelligenza artificiale sono al lavoro per costruire nuovi sistemi di difesa: controlli aggiuntivi sulle immagini prima dell’analisi, sistemi che chiedono conferma all’utente prima di eseguire azioni sensibili, e filtri che impediscono all’IA di considerare automaticamente i testi nascosti come istruzioni.
I ricercatori di Trail of Bits, dal canto loro, raccomandano alcune regole semplici: ad esempio quello di fare in modo che il sistema riduca automaticamente le foto, oppure quello di porre sempre dei blocchi per impedire che l’assistente digitale possa compiere azioni – come inviare un’email o aprire un file – senza un via libera esplicito dell’utente. Oggi il rischio che una persona comune venga colpita da un attacco del genere è basso. Ma l’esperimento ci rammenta quanto le IA siano fragili e imperfette: non capendo davvero il contenuto delle frasi che dicono e ricevono, obbediscono a tutto ciò che interpretano come un comando.
Importante è non abbassare la guardia. Per far questo è utile quindi ricordare i dati della Federal Trade Commission diffusi nel marzo di quest’anno: nel 2024 i consumatori statunitensi hanno denunciato perdite per oltre 12,5 miliardi di dollari provocate da frodi informatiche. Un incremento del 25% rispetto all’anno precedente.
© Riproduzione riservata