Comparativa entre RESNET-50, VGG-16, Vision Transformer y Swin Transformer para el reconocimiento facial con oclusión de una mascarilla

Palabras clave: reconocimiento facial, RESNET-50, VGG-16, Vision Transformer, Swin Transformer

Resumen

En la búsqueda de soluciones sin contacto físico en espacios cerrados para la verificación de identidad en el contexto de la pandemia por el SARS-CoV-2, el reconocimiento facial ha tomado relevancia. Uno de los retos en este ámbito es la oclusión por mascarilla, ya que oculta más del 50 % del rostro. La presente investigación evaluó cuatro modelos preentrenados por aprendizaje por transferencia: VGG-16, RESNET-50, Vision Transformer (ViT) y Swin Transformer, los cuales se entrenaron en sus capas superiores con un conjunto de datos propio. Para el entrenamiento sin mascarilla, se obtuvo un accuracy de 24 % (RESNET-50), 25 % (VGG-16), 96 % (ViT) y 91 % (Swin). En cambio, con mascarilla se obtuvo un accuracy de 32 % (RESNET-50), 53 % (VGG-16), 87 % (ViT) y 61 % (Swin). Estos porcentajes de testing accuracy indican que las arquitecturas más modernas como los transformers arrojan mejores resultados en el reconocimiento con mascarilla que las CNN (VGG-16 y RESNET-50). El aporte de la investigación recae en la experimentación con dos tipos de arquitecturas: CNN y transformers, así como en la creación del conjunto de datos público que se comparte a la comunidad científica. Este trabajo robustece el estado del arte de la visión computacional en el reconocimiento facial por oclusión de una mascarilla, ya que ilustra con experimentos la variación del accuracy con distintos escenarios y arquitecturas.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Brenda Xiomara Tafur Acenjo, Universidad de Lima, Lima, Perú

Bachiller en Ingeniería de Sistemas por la Universidad de Lima, especializada en sistemas de información y estrategia de contenidos. Ha realizado investigación en el extranjero en temas de machine learning y lenguaje de señas peruano. Su interés de investigación se centra en visión computacional y nuevas formas de uso de la inteligencia artificial para un impacto positivo en la sociedad.

Martin Alexis Tello Pariona, Universidad de Lima, Lima, Perú

Egresado de la Carrera de Ingeniería de Sistemas por la Universidad de Lima, cuenta con una especialización en Sistemas de Información. En esta casa de estudios, destacó por ser fundador del círculo de estudios CEADA, con el que ha participado en eventos internacionales de programación competitiva. Tiene experiencia laboral como RPA Developer en EY. Su interés como investigador se centra en la inteligencia artificial y la ciberseguridad.

Edwin Jhonatan Escobedo Cárdenas, Universidad de Lima, Lima, Perú

Magíster y doctorado en Ciencia de la Computación por la Universidade Federal de Ouro Preto, Brasil. Bachiller en Ciencias de la Computación e Ingeniería Informática por la Universidad Nacional de Trujillo. Actualmente, es docente en la Universidad de Lima en la Carrera de Ingeniería de Sistemas. Investigador RENACYT. Sus áreas de interés son la visión computacional, el machine learning y la ciencia de datos.

Citas

Cheng, P., & Pan, S. (2022). Learning from face recognition under occlusion. En 2022 International Conference on Big Data, Information and Computer Network (BDICN) (pp. 721-727). IEEE.

Damer, N., Grebe, J. H., Chen, C., Boutros, F., Kirchbuchner, F., & Kuijper, A. (2020). The effect of wearing a mask on face recognition performance: An exploratory study. BIOSIG 2020 - Proceedings of the 19th International Conference of the Biometrics Special Interest Group, agosto.

Hariri, W. (2022). Efficient masked face recognition method during the COVID-19 pandemic. Signal, Image and Video Processing, 16(3), 605-612.

Laxminarayanamma, K., Deepthi, V., Ahmed, M. F., & Sowmya, G. (2021). A real time robust facial recognition model for masked face images using machine learning model. En 2021 5th International Conference on Electronics, Communication and Aerospace Technology (ICECA) (pp. 769-774). IEEE.

Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. En Proceedings of the IEEE/CVF nternational Conference on Computer Vision (pp. 10012-10022). IEEE.

Mandal, B., Okeukwu, A., & Theis, Y. (2021). Masked face recognition using RESNET-50. arXiv:2104.08997.

Meena, M. K., & Meena, H. K. (2022). A literature survey of face recognition under different occlusion conditions. En 2022 IEEE Region 10 Symposium (TENSYMP) (pp. 1-6). IEEE.

Sáez Trigueros, D. S., Meng, L., & Hartnett, M. (2018). Enhancing convolutional neural networks for face recognition with occlusion maps and batch triplet loss. Image and Vision Computing, 79, 99-108.

Tran, C. P., Vu, A. K. N., & Nguyen, V. T. (2022). Baby learning with vision transformer for face ecognition. En 2022 International Conference on Multimedia Analysis and Pattern Recognition (MAPR) (pp. 1-6). IEEE.

Wang, Z., Huang, B., Wang, G., Yi, P., & Jiang, K. (2023). Masked face recognition dataset and application. IEEE Transactions on Biometrics, Behavior, and Identity Science, 5(2), 298-304.

Wu, Z., Shen, C., & Van Den Hengel, A. (2019). Wider or deeper: Revisiting the RESNET model for visual recognition. Pattern Recognition, 90, 119-133.

Yanai, K., & Kawano, Y. (2015). Food image recognition using deep convolutional network with pre-training and fine-tuning. En 2015 IEEE International Conference on Multimedia & Expo Workshops (ICMEW) (pp. 1-6). IEEE.

Zhong, Y., & Deng, W. (2021). Face transformer for recognition. arXiv:2103.14803

Publicado
2023-07-31
Cómo citar
Tafur Acenjo, B. X., Tello Pariona, M. A., & Escobedo Cárdenas, E. J. (2023). Comparativa entre RESNET-50, VGG-16, Vision Transformer y Swin Transformer para el reconocimiento facial con oclusión de una mascarilla. Interfases, 17(017), 56-78. https://doi.org/10.26439/interfases2023.n017.6361
Sección
Artículos de investigación