Una startup di sicurezza informatica, Robust Intelligence, che sviluppa modi per proteggere i sistemi di intelligenza artificiale dai potenziali attacchi, ha collaborato con ricercatori dell’Università di Yale per sviluppare un metodo che utilizza modelli di IA “avversari” per scoprire i prompt in grado di aggirare le protezioni dei modelli linguistici di grandi dimensioni (Llm), inclusi quelli di OpenAI come GPT-4. Questo approccio ha dimostrato che tali modelli possono essere indotti a comportamenti pericolosi.
Robust Intelligence ha segnalato la vulnerabilità, ma OpenAI non ricevuto molte risposte. La startup sostiene che c’è un problema sistemico di sicurezza che richiede maggiore attenzione. “Questo dimostra che c’è un problema di sicurezza sistematico, che non viene affrontato e non viene preso in considerazione”, ha spiegato Yaron Singer, amministratore delegato di Robust Intelligence e professore di informatica all’Università di Harvard. “Quello che abbiamo scoperto è un approccio sistematico per attaccare qualsiasi modello linguistico di grandi dimensioni”.
Questo nuovo metodo rappresenta solo l’ultimo di una serie di attacchi che evidenziano le debolezze dei modelli linguistici di grandi dimensioni e che i modelli attuali per proteggerli non sono all’altezza.
Negli ultimi tempi, i modelli linguistici di grandi dimensioni sono emersi come una tecnologia innovativa e potenzialmente rivoluzionaria. L’attenzione mediatica si è intensificata con l’introduzione di ChatGPT, un chatbot sorprendente lanciato da OpenAI solo un anno fa.
Questa crescente notorietà ha portato a un aumento dell’interesse nella ricerca di nuovi metodi per “craccare” gli algoritmi di intelligenza artificiale, diventando un passatempo popolare tra gli utenti e coloro che si interessano alla sicurezza e all’affidabilità dell’IA. Numerose startup stanno sviluppando prototipi e prodotti completi basati sulle API dei modelli linguistici. A novembre, OpenAI ha annunciato che oltre due milioni di sviluppatori stanno utilizzando le sue interfacce di programmazione delle applicazioni.
Gli Llm operano prevedendo il testo successivo in base a un input specifico. Sono addestrati su enormi quantità di testi provenienti dal web e altre fonti digitali utilizzando un vasto numero di chip, durante settimane o addirittura mesi. Con un adeguato addestramento, questi modelli sono in grado di rispondere a una vasta gamma di input con informazioni coerenti e pertinenti.
Tuttavia, questi modelli possono riprodurre i pregiudizi presenti nei dati di addestramento e tendono a fornire informazioni false quando le richieste degli utenti diventano più complesse. In assenza di adeguate misure di sicurezza, potrebbero persino offrire consigli su attività illecite. Per controllare tali comportamenti, le aziende ricorrono a metodi per rendere le risposte più coerenti e accurate, facendo valutare i risultati dell’IA da esseri umani. I feedback umani vengono poi utilizzati per ottimizzare il modello e ridurre le probabilità di comportamenti indesiderati.
Robust Intelligence ha presentato a Wired US vari esempi di metodi in grado di eludere le protezioni. Alcuni di questi tentativi, sebbene non tutti, hanno avuto successo su ChatGPT, inducendolo a generare messaggi di phishing e a suggerire idee per favorire un malintenzionato nel nascondersi in una rete informatica governativa.
Robust Intelligence e i ricercatori hanno dimostrato che alcuni metodi possono eludere queste protezioni, influenzando il comportamento di modelli come ChatGPT. La loro scoperta solleva dubbi sulla completa affidabilità dei metodi basati sui feedback umani per proteggere gli algoritmi da attacchi.
Brendan Dolan-Gavitt, professore della New York University che si occupa di sicurezza informatica e apprendimento automatico, ha affermato che la nuova tecnica rivelata da Robust Intelligence dimostra che i metodi basati sui feedback umani non sono infallibili per proteggere i modelli dagli attacchi. Secondo il docente, le aziende che sviluppano sistemi basati su modelli linguistici di grandi dimensioni come GPT-4 dovrebbero adottare ulteriori misure di sicurezza: “Dobbiamo assicurarci di progettare i sistemi che utilizzano gli Llm in modo che le violazioni non permettano a utenti malintenzionati di accedere a cose a cui non dovrebbero accedere”.
“Sono decisamente preoccupato per l’apparente facilità con cui è possibile violare questi modelli”, ha affermato Zico Kolter, un professore della Carnegie Mellon University che ad agosto ha rivelato un’altra vulnerabilità nascosta negli Llm. Kolter ha sottolineato che oggi ci sono modelli dotati di protezioni in grado di bloccare alcuni attacchi, ma aggiunge che le vulnerabilità rappresentano un aspetto intrinseco al modo in cui funzionano gli Llm e che per questo è difficile adottare contromisure.
Il portavoce di OpenAI Niko Felix ha dichiarato che l’azienda è “grata” ai ricercatori per aver condiviso le loro scoperte: “Lavoriamo sempre per rendere i nostri modelli più sicuri e robusti contro gli attacchi, pur mantenendo la loro utilità e le loro prestazioni”, ha detto Felix.
https://www.wired.it/article/chatgpt-craccato-intelligenza-artificiale-robust-intelligence/