Desafíos del aprendizaje profundo en la visión por computador

Palabras clave: visión por computador, aprendizaje profundo

Resumen

La visión por computador es un área de estudio en la inteligencia artificial que se enfoca en el desarrollo de técnicas computacionales para percibir el mundo a través de entradas visuales, como videos o imágenes. El aprendizaje profundo ha demostrado ser una técnica eficiente para el análisis e interpretación de datos visuales. Sin embargo, afronta innumerables desafíos según su aplicación en las diferentes tareas de la visión por computador. Este panel reúne un grupo de expertos en aprendizaje profundo, quienes ofrecerán información sobre su aplicación y los desafíos en sus respectivas áreas de investigación con relación a la visión por computador.

Descargas

La descarga de datos todavía no está disponible.

Biografía del autor/a

Víctor Hugo Ayma Quirita, Universidad de Lima, Perú

Doctor en Ingeniería por la Pontificia Universidad Católica del Perú (PUCP). Magíster en Procesamiento de Señales, Automatización y Control por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Graduado y titulado en Ingeniería Electrónica por la Universidad Nacional de San Antonio Abad del Cusco, Perú. Miembro investigador del Grupo de Inteligencia Artificial (IA-PUCP) y presidente del Capítulo de Ingeniería Electrónica del CIP-CD Cusco. Docente en la Universidad del Pacífico (UP) y de la Escuela de Posgrado de la PUCP (Maestría en Informática). Asimismo, es consultor internacional en análisis de datos, procesamiento de imágenes y asesor e investigador en proyectos de I+D+I. Desde el 2016, sirve como revisor en diferentes revistas indexadas de alto impacto; actualmente, tiene la calificación de investigador nivel I del grupo María Rostworowski del Renacyt.

Pedro Marco Achanccaray Díaz, Institute of Geodesy and Photogrammetry Technical University of Braunschweig, Alemania

Doctor y máster en Ingeniería Eléctrica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Egresado de la Universidad Nacional de Ingeniería, Perú. Cuenta con experiencia en proyectos de investigación, desarrollo e innovación (I+D+i) usando teledetección, inteligencia artificial y aprendizaje profundo en las áreas de agricultura, petróleo y gas, y preservación de patrimonio cultural. Actualmente, se desempeña como investigador posdoctoral en el Institute of Geodesy and Photogrammetry (IGP) de la Universidad Técnica de Brunswick, Alemania.

Smith Washington Arauco Canchumuni, Pontifical Catholic University of Rio de Janeiro, Brasil

Doctor en Ingeniería Eléctrica y máster en Ingeniería Mecánica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Egresado de la Universidad Nacional de Ingeniería, Perú, en Ingeniería Mecatrónica. Cuenta con años de experiencia en proyectos de investigación, desarrollo e innovación (I+D+i) usando inteligencia artificial, aprendizaje automático, aprendizaje profundo y modelos generativos en las áreas de petróleo y gas. Actualmente, se desempeña como investigador y profesor en el laboratorio de inteligencia computacional de la PUC-Rio.

Pedro Juan Soto Vega, Institut Français de Recherche pour l’Exploitation de la Mer, Francia

Doctor en Ingeniería Eléctrica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Máster en Ingeniería Eléctrica por la misma casa de estudios. Graduado en Ingeniería en Telecomunicaciones y Electrónica por la Universidad de Oriente, Cuba. Tiene artículos publicados en varias revistas y congresos internacionales. Ha participado de varios proyectos de investigación e innovación, la mayoría en el Laboratorio de Visión por Computador (LVC) de la PUC-Rio. Actualmente, desarrolla investigación en las áreas de visión artificial, aprendizaje automático, aprendizaje profundo, teledetección y biometría. Es miembro de la International Society of Photogrammetry and Remote Sensing (ISPRS) y del Capítulo Brasileño de la IEEE Geoscience and Remote Sensing Society (GRSS). Cuenta con experiencia en el área de ingeniería eléctrica, con énfasis en telecomunicaciones.

Citas

Bajaj, K., Singh, D. K., & Ansari, M. A. (2020). Autoencoders based deep learner for image denoising. Procedia Computer Science, 171, 1535-1541. https://doi.org/10.1016/j.procs.2020.04.164

Cao, Z., Hidalgo, G., Simon, T., Wei, S., & Sheikh, Y. (2021). OpenPose: Realtime multiperson 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(01), 172-286. https://doi.org/10.1109/TPAMI.2019.2929257

Carbune, V., Gonnet, P., Deselaers, T., Rowley, H. A., Daryin, A., Calvo, M., Wang, L.-L., Keysers, D., Feuz, S., & Gervais, P. (2020). Fast multi-language LSTM-based online handwriting recognition. International Journal on Document Analysis and Recognition, 23, 89-102. https://doi.org/10.1007/s10032-020-00350-4

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing, 25, 1-9.

Long, X., Deng, K., Wang, G., Zhang, Y., Dang, Q., Gao, Y., Shen, H., Ren, J., Han, S., Ding, E., & Wen, S. (2020). PP-YOLO: An effective and efficient implementation of object detector. ArXiv e-prints. https://doi.org/10.48550/arXiv.2007.12099

Lu, Y., Wu, S., Tai, YW., & Tang, CK. (2018). Image generation from sketch constraint using contextual GAN. En V. Ferrari, M. Hebert, C. Sminchisescu & Y. Weiss (Eds.), Computer Vision – ECCV 2018. ECCV 2018. Lecture notes in computer science (vol. 11220, pp. 213-228). https://doi.org/10.1007/978-3-030-01270-0_13

Prince, S. (2012). Computer vision: Models, learning, and inference. Cambridge University Press.

Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). Generative adversarial text to image synthesis. En Proceedings of the 33rd International Conference on Machine Learning, 48, 1060-1069.

Singh, D., Merdivan, E., Psychoula, I., Kropf, J., Hanke, S., Geist, M., & Holzinger, A. (2017). Human activity recognition using recurrent neural networks. En A. Holzinger, P. Kieseberg, A. Tjoa & E. Weippl (Eds.), Machine Learning and Knowledge Extraction.

CD-MAKE 2017. Lecture notes in computer science (vol. 10410, pp. 267-274). https://doi.org/10.1007/978-3-319-66808-6_18

Yu, J., Wang, Z., Vasudevan, V., Yeung, L., Seyedhosseini, M., & Wu, Y. (2022). CoCa: Contrastive captioners are image-text foundation models. ArXiv e-prints. https://doi.org/10.48550/arXiv.2205.01917

Zoph, B., Ghiasi, G., Lin, TY., Cui, Y., Liu, H., Cubuk, E. D., & Le, Q. (2020). Rethinking pre-training and self-training. Advances in Neural Information Processing, 33, 1-13.

Publicado
2022-12-26
Cómo citar
Ayma Quirita, V. H., Achanccaray Díaz, P. M., Arauco Canchumuni, S. W., & Soto Vega, P. J. (2022). Desafíos del aprendizaje profundo en la visión por computador. Actas Del Congreso Internacional De Ingeniería De Sistemas, 49-53. https://doi.org/10.26439/ciis2022.6070