Comparación de técnicas de machine learning para detección de sitios web de phishing
Resumen
El phishing es el robo de datos personales a través de páginas web falsas. La víctima de este robo es dirigida a esta página falsa, donde se le solicita ingresar sus datos para validar su identidad. Es en ese momento que se realiza el robo, ya que al ingresar sus datos, estos son almacenados y usados por el hacker responsable de dicho ataque para venderlos o ingresar a las entidades y realizar robos o estafas. Para este trabajo se ha investigado sobre distintos métodos de detección de páginas web phishing utilizando técnicas de machine learning. Así, el propósito de este trabajo es realizar una comparación de dichas técnicas que han demostrado ser las más efectivas en la detección de los sitios web phishing. Los resultados obtenidos demuestran que los clasificadores de árboles, denominados Árbol de Decisión y Bosque Aleatorio, han alcanzado las mayores tasas de precisión y efectividad, con valores de entre 97 % y 99 % en la detección de este tipo de páginas.
Descargas
Citas
Abdelhamid, N., Thabtah, F. y Abdel-jaber, H. (2017). Phishing Detection: A Recent Intelligent machine learning Comparison based on Models Content and Features. IEEE Explorer, 6. doi:10.1109/ISI.2017.8004877
Abu-Nimeh, S., Nappa, D., Wang, X. y Nair, S. (2007). A Comparison of machine learning Techniques for Phishing Detection. ACM Digital Library, 10. doi:10,.1145/1299015.1299021
Al-Janabi, M., De Quincey, E. y Andras, P. (2017). Using Supervised Machine Learning Algorithms to Detect Suspicious URLs in Online Social Networks. ACM Digital Library, 8. doi:10.1145/3110025.3116201
Bulakh, V. y Gupta, M. (2016). Countering Phishing from Brands’ Vantage Point. ACM Digital Library, 8. doi:10.1145/2875475,2875478 Campo, D. (20 de noviembre de 2017). MachineLearningPhishing. GitHub. Recuperado de https://github.com/diegoocampoh/MachineLearningPhishing
Chen, T.-C., Dick, S. y Miller, J. (2010). Detecting Visually Similar Web Pages: Application to Phishing Detection. ACM Digital Library, 38. doi:10.1145/3282373.3282422
Chiew, K. L., Tan, C. L., Wong, K. S., Yong, K. S. y Tiong, W. K. (2019). A New Hybrid Ensemble Feature Selection Framework for Machine Learning-Based Phishing Detection System. Science Direct, 14. doi:10.1016/j.ins2019.01.064
Cuzzocrea, A., Martinelli, F., y Mercaldo, F. (2018). Applying Machine Learning Techniques to Detect and Analyze Web Phishing Attacks. ACM Digital Library, 5. doi:10,1145/3282373,3282422
ESET Security Report Latinoamérica 2017. (2017). Recuperado de https://www.welivesecurity.com/wpcontent/uploads/2017/04/eset-security-report-2017.pdf
Hota, H. S., Shrivas, A. K. y Hota, R. (2018). An Ensemble Model for Detecting Phishing Attack with Proposed Remove-Replace Feature Selection Technique. Science Direct, 8. doi:10.1016/j.procs.2018.05.103
Islam Mamun, M. S., Rathore, M. A., Lashkari, A. H., Stakhanova, N. y Ghorbani, A. A. (2016). Detecting Malicious URLs Using Lexical Analysis. Springer Link, 16. doi:10,1007/978-3-319-46298-1_30
Jain, A. K. y Gupta, B. B. (2016). A novel Approach to Protect against Phishing Attacks at Client Side Using Auto-Updated White-List. Springer Open, 11. doi:10.1186/ s13635-016-0034-3
Mao, J., Bian, J., Tian, W., Zhu, S., Wei, T., Li, A., y Liang, Z, (2018), Detecting Phishing Websites via Aggregation Analysis of Page Layouts. Science Direct, 7, doi:10,1016/j,procs,2018,03,053
Medvet, E., Kirda, E. y Kruegel, C. (2008). Visual-Similarity-Based Phishing Detection. ACM Digital Library, 6. doi:10.1145/1460877.1460905
Mitchell, T. M. (1997). Machine Learning. New York: McGraw-Hill Science.
Mourtaji, Y., Bouhorma, P. y Alghazzawi, P. (2017). Perception of a New Framework for Detecting Phishing Web Pages. ACM Digital Library, 6. doi:10.1145/3175628.3175633
Rajab, M. (2018). An Anti-Phishing Method based on Feature Analysis. ACM Digital Library, 7. doi:10.1145/3184066.3184082
Sanglerdsinlapachai, N. y Rungsawang, A. (2010). Web Phishing Detection Using Classifier Ensemble. ACM Digital Library, 6. doi:10.1145/1967486,1967521
Tan, C. L. (2018). Phishing Dataset for Machine Learning: Feature Evaluation. Mendeley. doi:10.17632/h3cgnj8hft.1
URL dataset (ISCX-URL-2016). (2016). UNB. Recuperado de https://www.unb.ca/cic/datasets/url-2016.html
Derechos de autor 2020 Revista Interfases
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-SinObrasDerivadas 4.0.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Última actualización: 03/05/21