Clasificación no estándar en problemas de clasificación automática de imágenes

  1. Rubio Perona, Fernando
Dirigida por:
  1. José Miguel Puerta Callejón Director/a
  2. Maria Julia Flores Gallego Codirector/a

Universidad de defensa: Universidad de Castilla-La Mancha

Fecha de defensa: 17 de diciembre de 2021

Tribunal:
  1. Luis de la Ossa Presidente/a
  2. Juan Ignacio Alonso Barba Secretario/a
  3. Lidia Sánchez González Vocal

Tipo: Tesis

Resumen

En la actualidad, la visión artificial es una de las áreas de investigación más importantes de la inteligencia artificial. La evolución de los algoritmos y el hardware ha hecho que las tareas de visión artificial cobren una especial relevancia en los últimos años en ámbitos como la seguridad, la robótica o la medicina. Además, hemos visto el gran auge y la revolución que han supuesto las técnicas de Deep Learning en muchas áreas, y cómo actualmente son una tendencia indudable en prácticamente todos los campos donde se utilice Machine Learning. En esta tesis se han analizado diferentes tareas de clasificación en el área de la visión artificial, donde se han propuesto alternativas a los métodos estándar para mejorar los resultados y ofrecer aplicaciones útiles a los usuarios. Además, esta tesis constituye una revisión del campo de la visión artificial. Los trabajos iniciales muestran un enfoque más tradicional basado tanto en la obtención de descriptores de la imagen como en su uso en modelos de clasificación. Finalmente, esta tesis concluye con el estudio del comportamiento de modelos de Deep Learning en las tareas abordadas. El objetivo de este trabajo ha sido realizar aportaciones en ambas metodologías, tanto en el enfoque tradicional como en el uso de modelos de Deep Learning. Por eso, hemos trabajado en dos tareas diferentes relativas a la visión artificial. La primera de ellas es conocida como localización semántica en robótica, donde las soluciones propuestas hasta la fecha de nuestras publicaciones se basaban en la extracción de descriptores de la imagen. Sobre esta tarea hemos llevado a cabo, con bastante éxito, experimentos para la integración de la información contextual de la imagen, así como para el uso de modelos probabilísticos. En el momento de la publicación de estos trabajos, fue cuando las técnicas de Deep Learning empezaban a coger fuerza, pero aún no eran nada en comparación con la importancia que tienen en la actualidad. Aun así, se vio un gran potencial en esta tecnología y fue un punto de inflexión para realizar el cambio a tareas más complejas del campo de la visión artificial que estaban surgiendo gracias a estos algoritmos. Por eso, las publicaciones más recientes se centran en la segunda tarea, la asignación automática de la calidad estética. Este problema es uno de los más complejos dentro de la visión artificial, ya que el aprendizaje de los modelos se realiza a partir de las valoraciones de múltiples usuarios con opiniones muy diferentes. La calidad estética es una área de gran incertidumbre que presenta una alta subjetividad en su clase, por eso la metodología tradicional no ofrecía buenos resultados. La experimentación realizada en este campo incluye el uso de métodos tradicionales, el uso de técnicas de Deep Learning con un enfoque de descriptor de la imagen mediante las ConvNet features y el aprendizaje de modelos de clasificación mediante finetuning. Todo este trabajo ha dado lugar a dos aplicaciones. También hemos realizado propuestas relativas a la interpretación de los modelos de Deep Learning, un campo que está en plena expansión. De todo el trabajo realizado en la asignación de la calidad estética, hemos identificado una importante limitación en los modelos evaluados de la literatura relacionada y de las implementaciones propias: el uso de la media de las valoraciones de los usuarios como valor de calidad estética. Por ello, la última aportación de este trabajo ha sido el desarrollo de nuevas métricas basadas en rankings a partir de las valoraciones para sintetizar la información de la clasificación realizada en este problema.