Comparativa entre RESNET-50, VGG-16, Vision Transformer y Swin Transformer para el reconocimiento facial con oclusión de una mascarilla
Resumen
En la búsqueda de soluciones sin contacto físico en espacios cerrados para la verificación de identidad en el contexto de la pandemia por el SARS-CoV-2, el reconocimiento facial ha tomado relevancia. Uno de los retos en este ámbito es la oclusión por mascarilla, ya que oculta más del 50 % del rostro. La presente investigación evaluó cuatro modelos preentrenados por aprendizaje por transferencia: VGG-16, RESNET-50, Vision Transformer (ViT) y Swin Transformer, los cuales se entrenaron en sus capas superiores con un conjunto de datos propio. Para el entrenamiento sin mascarilla, se obtuvo un accuracy de 24 % (RESNET-50), 25 % (VGG-16), 96 % (ViT) y 91 % (Swin). En cambio, con mascarilla se obtuvo un accuracy de 32 % (RESNET-50), 53 % (VGG-16), 87 % (ViT) y 61 % (Swin). Estos porcentajes de testing accuracy indican que las arquitecturas más modernas como los transformers arrojan mejores resultados en el reconocimiento con mascarilla que las CNN (VGG-16 y RESNET-50). El aporte de la investigación recae en la experimentación con dos tipos de arquitecturas: CNN y transformers, así como en la creación del conjunto de datos público que se comparte a la comunidad científica. Este trabajo robustece el estado del arte de la visión computacional en el reconocimiento facial por oclusión de una mascarilla, ya que ilustra con experimentos la variación del accuracy con distintos escenarios y arquitecturas.
Descargas
Citas
Cheng, P., & Pan, S. (2022). Learning from face recognition under occlusion. En 2022 International Conference on Big Data, Information and Computer Network (BDICN) (pp. 721-727). IEEE. https://doi.org/10.1109/BDICN55575.2022.00140
Damer, N., Grebe, J. H., Chen, C., Boutros, F., Kirchbuchner, F., & Kuijper, A. (2020). The effect of wearing a mask on face recognition performance: An exploratory study. BIOSIG 2020 - Proceedings of the 19th International Conference of the Biometrics Special Interest Group, agosto. https://dl.gi.de/server/api/core/bitstreams/c3e8ae49-dde1-4b80-ad18-3d3536b1897b/content
Hariri, W. (2022). Efficient masked face recognition method during the COVID-19 pandemic. Signal, Image and Video Processing, 16(3), 605-612. https://doi.org/10.1007/s11760-021-02050-w
Laxminarayanamma, K., Deepthi, V., Ahmed, M. F., & Sowmya, G. (2021). A real time robust facial recognition model for masked face images using machine learning model. En 2021 5th International Conference on Electronics, Communication and Aerospace Technology (ICECA) (pp. 769-774). IEEE. https://doi.org/10.1109/ICECA52323.2021.9675936
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. En Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022). IEEE. https://doi.org/10.1109/ICCV48922.2021.00986
Mandal, B., Okeukwu, A., & Theis, Y. (2021). Masked face recognition using RESNET-50. arXiv:2104.08997. https://doi.org/10.48550/arXiv.2104.08997
Meena, M. K., & Meena, H. K. (2022). A literature survey of face recognition under different occlusion conditions. En 2022 IEEE Region 10 Symposium (TENSYMP) (pp. 1-6). IEEE. https://doi.org/10.1109/TENSYMP54529.2022.9864502
Sáez Trigueros, D. S., Meng, L., & Hartnett, M. (2018). Enhancing convolutional neural networks for face recognition with occlusion maps and batch triplet loss. Image and Vision Computing, 79, 99-108. https://doi.org/10.1016/j.imavis.2018.09.011
Tran, C. P., Vu, A. K. N., & Nguyen, V. T. (2022). Baby learning with vision transformer for face recognition. En 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR) (pp. 1-6). IEEE. https://doi.org/10.1109/MAPR56351.2022.9924795
Wang, Z., Huang, B., Wang, G., Yi, P., & Jiang, K. (2023). Masked face recognition dataset and application. IEEE Transactions on Biometrics, Behavior, and Identity Science, 5(2), 298-304. https://doi.org/10.1109/TBIOM.2023.3242085
Wu, Z., Shen, C., & Van Den Hengel, A. (2019). Wider or deeper: Revisiting the RESNET model for visual recognition. Pattern Recognition, 90, 119-133. https://doi.org/10.1016/j.patcog.2019.01.006
Yanai, K., & Kawano, Y. (2015). Food image recognition using deep convolutional network with pre-training and fine-tuning. En 2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW) (pp. 1-6). IEEE. https://doi.org/10.1109/ICMEW.2015.7169816
Zhong, Y., & Deng, W. (2021). Face transformer for recognition. arXiv:2103.14803. https://doi.org/10.48550/arXiv.2103.14803
Esta obra está bajo licencia internacional Creative Commons Reconocimiento 4.0.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
Se permite y recomienda a los autores/as a publicar su trabajo en Internet (por ejemplo en páginas institucionales o personales) antes y durante el proceso de revisión y publicación, ya que puede conducir a intercambios productivos y a una mayor y más rápida difusión del trabajo publicado (vea The Effect of Open Access).
Última actualización: 03/05/21