Il premio “Innovare la sicurezza delle Informazioni” che Clusit riserva alle tesi universitarie più innovative in materia di sicurezza informatica, ha lo scopo di promuovere una collaborazione tra le aziende, le Università e gli studenti che si occupano di sicurezza informatica in Italia.

Durante l’ultima edizione del Security Summit, a novembre 2021, si è tenuta la presentazione e premiazione delle migliori tesi di laurea sulla Sicurezza delle Informazioni di persone laureate presso una Università italiana nel corso del 2020.

Il primo premio della 16a Edizione (Tesi del 2020) è stato assegnato a Laura Nardi del Dipartimento di Ingegneria – Università degli Studi del Sannio per la tesi: “Realization of an engine for GAN-driven malware manipulation”.

«Il Machine Learning è ampiamente utilizzato per rilevare e classificare malware. Sfortunatamente, il machine learning è vulnerabile agli attacchi avversariali (Adversarial Attacks). In questo articolo, esaminiamo come approcci generativi avversariali potrebbero influenzare le prestazioni di un sistema di rilevamento basato sull’apprendimento automatico.

Applicate alla creazione di malware, le GAN (Generative Adversarial Network) sono in grado di generare una nuova istanza di una famiglia di malware senza conoscere un modello esplicito della distribuzione iniziale dei dati. Quindi, un utente malintenzionato potrebbe utilizzare le GAN per ingannare i sistemi di rilevamento semplicemente campionando i dati forniti. D’altra parte, le GAN sono anche utili per costruire modelli di apprendimento automatico più robusti che aiutano nello sviluppo di un training set migliore.

Il progetto sviluppato è di grande interesse scientifico e consiste nella realizzazione di un generatore di malware basato su tecniche di Intelligenza Artificiale. Tale “motore” è in grado di implementare attacchi avversariali a classificatori di malware basati su Machine Learning. Il sistema, dunque, acquisendo i vettori di feature prodotti da una GAN, modifica malware esistenti in modo che espongano tali vettori di feature. Grazie a questo, i malware verranno classificati come goodware e dunque non più riconosciuti.

Nella valutazione, sono state addestrate diverse reti neurali per il rilevamento di malware sul dataset EMBER e quindi costruita una GAN (Generative Adversarial Network) per la generazione di sample avversariali. Si sono poi valutate le prestazioni della GAN, in uno scenario grey-box, calcolando il tasso di evasione (Evasion Rate) raggiunto dai sample avversariali generati.

L’Evasion Rate, rappresenta la capacità del generatore di malware nel produrre adversarial samples che vengono misclassificati e viene definito come il rapporto fra il numero di Falsi Negativi degli adversarial sample (numero di malware che viene classificato come goodware), e il numero totale di adversarial sample generati. Tale valore è pari a 98.8% e indica che il motore riesce a modificare correttamente le feature del malware all’interno dei vettori in input. Ciò significa che i rilevatori di malware basati su machine e deep learning potrebbero essere ingannati da sample avversariali malevoli con un evasion rate di circa il 99% fornendo ulteriori opportunità di attacco.

Il progetto rappresenta un significativo avanzamento nello stato dell’arte che aprirà all’esplorazione di nuovi strumenti per il riconoscimento e la classificazione del malware. Si consideri che in letteratura non esistono lavori scientifici che generano malware (funzionante) a partire dai vettori prodotti dalle GAN».

“Applicati alla creazione di malware, i GAN (Generative Adversarial Networks) sono in grado di generare una nuova istanza di una famiglia di malware senza conoscere un modello esplicito della distribuzione iniziale dei dati. Quindi un utente malintenzionato potrebbe utilizzare i GAN per ingannare i sistemi di rilevamento, semplicemente campionando i dati forniti. D’altra parte, i GAN sono utili anche per costruire modelli di machine learning più robusti che aiutano nello sviluppo di un set di formazione migliore. Le vere tecnologie di difesa come AV o EDR devono tenere conto di un compromesso accettabile tra l’accuratezza del rilevamento, tempi di apprendimento brevi e limitare la dimensione dei dati ottenibili selezionando una comoda combinazione della caratteristica sensibile. L’efficacia di un attacco al modello ML dipende anche dalla conoscenza del sistema da parte dell’attaccante. In questo caso di studio abbiamo condotto un attacco grey-box in cui sono note le caratteristiche del training set: questo ci permette di raggiungere un tasso di evasione molto elevato (circa il 99%)”.

 

https://github.com/LauraNardi/MasterThesis

https://womenforsecurity.it/dettaglio/51

https://tesi.clusit.it/bacheca.php?ed=16

Twitter
Visit Us
LinkedIn
Share
YOUTUBE