IA generativa profunda basada en modelos de difusión de desenfoque probabilístico para aplicaciones en procesamiento de imágenes

Palabras clave: aprendizaje automático, reconstrucción, segmentación, reconocimiento facial y gestual, teledetección


Los denoising diffusion probabilistic models (DDPMs) han mostrado un potencial significativo en la resolución de problemas complejos de procesamiento de imágenes. Este estudio explora el uso de DDPMs en tres aplicaciones diferentes, incluyendo la reconstrucción de imágenes de teledetección en zonas con nubosidad, la reconstrucción de imágenes faciales con regiones ocluidas y la segmentación de masas de agua a partir de imágenes de teledetección. El inpainting consiste en rellenar las regiones omitidas en las imágenes, mientras que los DDPM actúan como generadores de datos capaces de sintetizar información coherente con el contexto de los datos originales. En este contexto, tomando la técnica de inpainting como inspiración, se adaptó el enfoque RePaint y se aplicó a tareas de reconstrucción. Para la tarea de segmentación se utilizó la técnica WaterSegDiff, que también utiliza un modelo de difusión como backbonner. Para ilustrar el comportamiento del modelo y ejemplificar las tareas, se realizaron experimentos cuya performance se evaluó cualitativa y cuantitativamente. Los resultados de las evaluaciones cualitativas muestran la capacidad del modelo para generar datos para la reconstrucción y la segmentación. Cuantitativamente, las métricas MSE, PSNR, SSIM, IoU, PA y F1-Score indican un hábil desempeño de los modelos en tareas de procesamiento de imágenes. En este escenario, los DDPMs han demostrado ser una herramienta prometedora para la reconstrucción de datos de alta calidad, permitiendo la alucinación de regiones de imágenes con alta coherencia visual y aplicaciones en diversas áreas, tales como monitoreo ambiental, reconocimiento facial, mapeo de recursos hídricos, entre otros.



La descarga de datos todavía no está disponible.


Bezerra, E. S., Leher, Q. O., Alves, U. D. da S., Paixão, T., & Alvarez, A. B. (2024). IA generativa profunda basada en modelos de difusión de desenfoque probabilístico para aplicaciones en procesamiento de imágenes. Interfases, (020), 69-91. https://doi.org/10.26439/interfases2024.n020.7389
