La società di intelligence S2W ha ideato e addestrato sul dark web DarkBERT, un’IA di codificazione, per analizzare e comprendere meglio il linguaggio complesso del dark web e per svelare nuovi metodi di lotta contro il cybercrimine.
I modelli di codifica trasformano il testo in linguaggio naturale in vettori di rappresentazione semantica, impiegabili per svariati compiti. DarkBERT supera i modelli similari, come ChatGPT, nel monitoraggio o nell’interpretazione dei contenuti del dark web, grazie all’addestramento sui dati del deep web.
DarkBERT deriva dal modello RoBERTa, che è stato addestrato su un numero maggiore di dati e per un periodo di tempo più lungo rispetto a BERT. L’architettura di RoBERTa consente a DarkBERT di apprendere una vasta quantità di informazioni in poco tempo, sviluppando così la forma di comunicazione più efficace per integrarsi nel dark web e scoprire qualsiasi informazione nascosta.
DarkBERT ha analizzato oltre 1,2 miliardi di parole, attraverso l’uso del browser Tor, migliorando così le sue prestazioni e la sua capacità di generare contenuti per indagare ulteriormente più a fondo nelle parti più nascoste del web.
Le capacità di S2W nella raccolta di dati hanno permesso di catturare una grande quantità di testi dal dark web. Aquisire il corpus di addestramento per la creazione di un modello linguistico pre-addestrato (PLM) è una sfida notevole. Gli esperti hanno collegato il loro modello di IA alla rete Tor, che permette l’accesso a parti del dark web, rendendo il software più efficace nel “decifrare il dark web” rispetto ai modelli simili.
S2W ha utilizzato le proprie ricerche precedenti sul linguaggio del dark web per identificare le parti dei dati inadatte all’addestramento. Hanno filtrato il corpus, eliminando le pagine con contenuto informativo scarso, bilanciandolo in base alla categoria e rimuovendo le pagine duplicate. Hanno anche implementato una pre-elaborazione per rendere anonimi gli identificatori comuni e le informazioni sensibili e, infine, hanno ottenuto un corpus non elaborato di 5,83 GB e un corpus elaborato di 5,20 GB. L’addestramento di DarkBERT sul dark web ha richiesto circa 15 giorni utilizzando 8 GPU NVIDIA A100.
I ricercatori hanno sviluppato DarkBERT intorno al 2019, tuttavia il suo miglioramento richiede un costante aggiornamento nel tempo. Grazie a DarkBERT sarà possibile intercettare e scoprire transazioni e operazioni di cyber criminali, hacker e altre tipologie di criminali, svolgendo potenzialmente un ruolo cruciale nell’interrompere la maggior parte delle loro operazioni illegali.
Perché addestrare un’IA sul dark web?
Sebbene i modelli linguistici precostituiti (PLM) siano potenti, la loro efficacia sul dark web è dubbia a causa della differenza tra il linguaggio del dark web e del surface web. Secondo gli esperti, DarkBERT può essere utilizzato per molteplici attività di sicurezza informatica, come la rilevazione di siti che puybblicizzano ransomware o rivelano dati sensibili. Questa IA può fungere anche da “ispettore” dei forum del dark web, monitorando quotidianamente lo scambio di informazioni illegali.
https://sicurezza.net/cyber-security/ia-addestrata-dark-web-darkbert/