Challenges of deep learning in computer vision

Authors

DOI:

https://doi.org/10.26439/ciis2022.6070

Keywords:

computer vision, deep learning

Abstract

Computer vision is a field of study within artificial intelligence that focuses on developing computational techniques to perceive the world through visual data, such as video or images. Deep learning has proven to be efficient in visual data analysis and interpretation. Nevertheless, it faces countless challenges, given its application in several computer vision tasks. This panel brings together deep learning experts, who will share information about deep learning applications and challenges to overcome in their research fields regarding computer vision.

Downloads

Download data is not yet available.

Author Biographies

  • Víctor Hugo Ayma Quirita, Universidad de Lima, Peru

    Doctor en Ingeniería por la Pontificia Universidad Católica del Perú (PUCP). Magíster en Procesamiento de Señales, Automatización y Control por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Graduado y titulado en Ingeniería Electrónica por la Universidad Nacional de San Antonio Abad del Cusco, Perú. Miembro investigador del Grupo de Inteligencia Artificial (IA-PUCP) y presidente del Capítulo de Ingeniería Electrónica del CIP-CD Cusco. Docente en la Universidad del Pacífico (UP) y de la Escuela de Posgrado de la PUCP (Maestría en Informática). Asimismo, es consultor internacional en análisis de datos, procesamiento de imágenes y asesor e investigador en proyectos de I+D+I. Desde el 2016, sirve como revisor en diferentes revistas indexadas de alto impacto; actualmente, tiene la calificación de investigador nivel I del grupo María Rostworowski del Renacyt.

  • Pedro Marco Achanccaray Díaz, Institute of Geodesy and Photogrammetry Technical University of Braunschweig, Germany

    Doctor y máster en Ingeniería Eléctrica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Egresado de la Universidad Nacional de Ingeniería, Perú. Cuenta con experiencia en proyectos de investigación, desarrollo e innovación (I+D+i) usando teledetección, inteligencia artificial y aprendizaje profundo en las áreas de agricultura, petróleo y gas, y preservación de patrimonio cultural. Actualmente, se desempeña como investigador posdoctoral en el Institute of Geodesy and Photogrammetry (IGP) de la Universidad Técnica de Brunswick, Alemania.

  • Smith Washington Arauco Canchumuni, Pontifical Catholic University of Rio de Janeiro, Brasil

    Doctor en Ingeniería Eléctrica y máster en Ingeniería Mecánica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Egresado de la Universidad Nacional de Ingeniería, Perú, en Ingeniería Mecatrónica. Cuenta con años de experiencia en proyectos de investigación, desarrollo e innovación (I+D+i) usando inteligencia artificial, aprendizaje automático, aprendizaje profundo y modelos generativos en las áreas de petróleo y gas. Actualmente, se desempeña como investigador y profesor en el laboratorio de inteligencia computacional de la PUC-Rio.

  • Pedro Juan Soto Vega, Institut Français de Recherche pour l’Exploitation de la Mer, France

    Doctor en Ingeniería Eléctrica por la Pontificia Universidade Católica do Rio de Janeiro, Brasil. Máster en Ingeniería Eléctrica por la misma casa de estudios. Graduado en Ingeniería en Telecomunicaciones y Electrónica por la Universidad de Oriente, Cuba. Tiene artículos publicados en varias revistas y congresos internacionales. Ha participado de varios proyectos de investigación e innovación, la mayoría en el Laboratorio de Visión por Computador (LVC) de la PUC-Rio. Actualmente, desarrolla investigación en las áreas de visión artificial, aprendizaje automático, aprendizaje profundo, teledetección y biometría. Es miembro de la International Society of Photogrammetry and Remote Sensing (ISPRS) y del Capítulo Brasileño de la IEEE Geoscience and Remote Sensing Society (GRSS). Cuenta con experiencia en el área de ingeniería eléctrica, con énfasis en telecomunicaciones.

References

Bajaj, K., Singh, D. K., & Ansari, M. A. (2020). Autoencoders based deep learner for image denoising. Procedia Computer Science, 171, 1535-1541. https://doi.org/10.1016/j.procs.2020.04.164

Cao, Z., Hidalgo, G., Simon, T., Wei, S., & Sheikh, Y. (2021). OpenPose: Realtime multiperson 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(01), 172-286. https://doi.org/10.1109/TPAMI.2019.2929257

Carbune, V., Gonnet, P., Deselaers, T., Rowley, H. A., Daryin, A., Calvo, M., Wang, L.-L., Keysers, D., Feuz, S., & Gervais, P. (2020). Fast multi-language LSTM-based online handwriting recognition. International Journal on Document Analysis and Recognition, 23, 89-102. https://doi.org/10.1007/s10032-020-00350-4

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing, 25, 1-9.

Long, X., Deng, K., Wang, G., Zhang, Y., Dang, Q., Gao, Y., Shen, H., Ren, J., Han, S., Ding, E., & Wen, S. (2020). PP-YOLO: An effective and efficient implementation of object detector. ArXiv e-prints. https://doi.org/10.48550/arXiv.2007.12099

Lu, Y., Wu, S., Tai, YW., & Tang, CK. (2018). Image generation from sketch constraint using contextual GAN. En V. Ferrari, M. Hebert, C. Sminchisescu & Y. Weiss (Eds.), Computer Vision – ECCV 2018. ECCV 2018. Lecture notes in computer science (vol. 11220, pp. 213-228). https://doi.org/10.1007/978-3-030-01270-0_13

Prince, S. (2012). Computer vision: Models, learning, and inference. Cambridge University Press.

Reed, S., Akata, Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). Generative adversarial text to image synthesis. En Proceedings of the 33rd International Conference on Machine Learning, 48, 1060-1069.

Singh, D., Merdivan, E., Psychoula, I., Kropf, J., Hanke, S., Geist, M., & Holzinger, A. (2017). Human activity recognition using recurrent neural networks. En A. Holzinger, P. Kieseberg, A. Tjoa & E. Weippl (Eds.), Machine Learning and Knowledge Extraction.

CD-MAKE 2017. Lecture notes in computer science (vol. 10410, pp. 267-274). https://doi.org/10.1007/978-3-319-66808-6_18

Yu, J., Wang, Z., Vasudevan, V., Yeung, L., Seyedhosseini, M., & Wu, Y. (2022). CoCa: Contrastive captioners are image-text foundation models. ArXiv e-prints. https://doi.org/10.48550/arXiv.2205.01917

Zoph, B., Ghiasi, G., Lin, TY., Cui, Y., Liu, H., Cubuk, E. D., & Le, Q. (2020). Rethinking pre-training and self-training. Advances in Neural Information Processing, 33, 1-13.

Downloads

Published

2022-12-26

How to Cite

Challenges of deep learning in computer vision. (2022). Actas Del Congreso Internacional De Ingeniería De Sistemas, 49-53. https://doi.org/10.26439/ciis2022.6070