- Home
- Cybersecurity
- Tecniche di Machine Learning per la lotta al phishing
Tecniche di Machine Learning per la lotta al phishing
| Michele Petito | cybersecurity
#CybersecurityCafé
di Michele Petito e Massimiliano Rossi, AgID CERT
Negli ultimi anni sono stati sviluppati diversi metodi per combattere il phishing tra cui troviamo gli approcci basati su blacklisting/whitelisting, sulla visual similarity, sull’euristica, sui motori di ricerca e più recentemente sul machine learning (ML).
In questo articolo ci concentreremo principalmente su quest’ultimo metodo e sui possibili vantaggi derivanti dall’utilizzo del ML rispetto al più classico e diffuso uso delle blacklist all’interno di browser, firewall e antivirus. Tale approccio sta diventando infatti oramai sempre meno efficace, poiché queste liste derivano dalla raccolta e dall’analisi di varie fonti esterne e richiedono un continuo aggiornamento e revisione da parte degli esperti di sicurezza. Questa attività di tempestivo aggiornamento e verifica risulta sempre più difficoltosa a causa della breve durata delle pagine di phishing: infatti dagli ultimi monitoraggi effettuati il 71,9% delle pagine non durano più di due giorni e la maggior parte di queste rimane attiva solo qualche ora. Inoltre, le blacklist non consentono di rilevare e bloccare attacchi che sfruttano domini appena registrati e pertanto, nonostante la loro lunghezza sia in continuo aumento, gli attacchi di phishing non tendono a diminuire.
La ricerca scientifica nel settore del rilevamento del phishing basato su ML ha una lunga storia che parte da almeno il 2007 con il tool CANTINA [1], un approccio basato sull’analisi dei contenuti delle pagine html. Di seguito viene fornita una breve disamina su alcuni dei più recenti approcci.
Sistemi basati su macchine a vettori di supporto (SVM)
Le macchine a vettori di supporto (SVM, dall’inglese support-vector machines) sono dei modelli di apprendimento supervisionato associati ad algoritmi di apprendimento per la regressione e la classificazione. Questi sistemi utilizzano un campione di dati composto da un insieme di record, costituito per metà da URL di phishing e per l’altra metà da URL legittime. Per il riconoscimento vengono analizzate una serie di caratteristiche dell’URL, come la sua dimensione, il numero di occorrenze di trattini, di punti, di caratteri numerici, la presenza dell’IP ecc.
Sistemi basati su reti neurali
Nel campo del deep learning esistono diversi tipi di reti neurali e ogni giorno vengono pubblicati e discussi nuovi metodi o modifiche ai modelli esistenti. Nel settore Phishing URL detection, le pubblicazioni ricadono per lo più in 2 classi di reti neurali artificiali, le reti neurali ricorrenti e quelle convoluzionali.Reti neurali ricorrenti (RNN)
In questi sistemi, le URL vengono analizzate direttamente, anziché estrarre ed analizzare le caratteristiche dell’URL. Le RNN infatti permettono di analizzare fenomeni temporali e nel caso dei sistemi anti-phishing vengono usate per analizzare in modo sequenziale i caratteri contenuti nell’URL.
Reti neurali convoluzionali (CNN)
Le reti appartenenti a tale famiglia sono utilizzate prevalentemente nelle applicazioni per il riconoscimento di immagini e video. Una CNN ampiamente utilizzata è stata LeNet 5 del 1998 che fu applicata da svariate banche per il riconoscimento dei numeri scritti a mano sugli assegni. Un esempio di rete CNN moderna progettata per il riconoscimento del phishing è quella sviluppata nel 2020 dai ricercatori Xi’an University [3]: essa tratta l’URL come un’immagine definita da un vettore di punti sparsi. Il sistema, una volta addestrato consentirebbe il controllo dell’URL intorno ai 2 millisecondi senza richiedere risorse computazionali elevate tale da consentire l’utilizzo anche sui dispositivi mobili più recenti dotati di chipset ottimizzati per i calcoli legati al machine learning.
La maggior parte di questi approcci è in grado di ottenere un’accuratezza molto elevata con un bassissimo tasso di falsi positivi. Questi risultati rendono sistemi di phishing detector basati su ML una valida integrazione a supporto delle classiche black/white list.
Per saperne di più
CANTINA: A Content-Based Approach to Detecting Phishing Web Sites
Wei, Wei & Ke, Qiao & Nowak, Jakub & Korytkowski, Marcin & Scherer, Rafal & Woźniak, Marcin. (2020)
Dai un voto da 1 a 5, ne terremo conto per scrivere i prossimi articoli.
Voto attuale:
Valutazione attuale: 5 / 5
-
il filo - inverno 2021Editoriale
-
Officine artistiche in retecaffè scientifico
-
Tradizione e innovazione si incontrano in retecaffè scientifico
-
GARRLab: la community dell’innovazioneservizi alla comunità
-
Com’è cambiata la formazione GARRservizi alla comunità
-
MindBot: innovazione tecnologica al servizio dei lavoratorila voce della comunità
-
Future Labs e strumenti di didattica innovativa: la scuola va oltre la teoriala voce della comunità
-
Pronti alla sfida della Exascale Science?osservatorio della rete
-
L’evoluzione del data centre viaggia su IPosservatorio della rete
-
Mobile security: l’(in)sicurezza è nell’ariacybersecurity
-
Proteggi la tua rete. Connessioni VPN: perché sono importanti per i dipendenti delle reti della ricerca?cybersecurity
-
Tecniche di Machine Learning per la lotta al phishingcybersecurity
-
Visione per il futuro (del cloud)la nuvola della ricerca e istruzione
-
In nome del cloud sovranola nuvola della ricerca e istruzione
-
Capacità su misura con lo Spectrum Connection Serviceinternazionale
-
Nuove rotte per superare il digital divideinternazionale
-
Le EOSC task force al viainternazionale
-
Horizon Europe stavolta è andatainternazionale
-
Forum sulla governance di Internet: al centro c’è la personainternazionale
-
Howard Davies un vero british gentleman al servizio delle reti della ricercaieri, oggi, domani
-
Cnr, nuovo portale informativo sull’Open sciencela voce della comunità
-
Beni culturali: rivive in 3D la più antica farmacia d’Europala voce della comunità
-
Accesso al futuro con la rete GARRcaffè scientifico
-
Bollettino della Rete GARRosservatorio della rete
-
In Italia l’appuntamento con l’innovazione nelle reti della ricercala voce della comunità
Articoli nella rubrica
-
di Simona Venuti
-
di Michele Petito
Archivio GARR NEWS
- Numero 29 - anno 2023
- Numero 28 - anno 2023
- Numero 27 - anno 2022
- Numero 26 - anno 2022
- Numero 25 - anno 2021
- Numero 24 - anno 2021
- Numero 23 - anno 2020
- Numero 22 - anno 2020
- Numero 21 - anno 2019
- Numero 20 - anno 2019
- Numero 19 - anno 2018
- Numero 18 - anno 2018
- Numero 17 - anno 2017
- Numero 16 - anno 2017
- Numero 15 - anno 2016
- Numero 14 - anno 2016
- Numero 13 - anno 2015
- Numero 12 - anno 2015
- Numero 11 - anno 2014
- Numero 10 - anno 2014
- Numero 9 - anno 2013
- Numero 8 - anno 2013
- Numero 7 - anno 2012
- Numero 6 - anno 2012
- Numero 5 - anno 2011
- Numero 4 - anno 2011
- Numero 3 - anno 2010
- Numero 2 - anno 2010
- Numero 1 - anno 2009
- Numero 0 - anno 2009