Applications of scene text spotting to the darknet and industry 4.0
- Enrique Alegre Gutiérrez Director
- Eduardo Fidalgo Fernández Director
Universidad de defensa: Universidad de León
Fecha de defensa: 11 de diciembre de 2023
- David Martín Gómez Presidente/a
- Laura Fernández Robles Secretaria
- Noelia Vállez Enano Vocal
Tipo: Tesis
Resumen
En esta tesis, proponemos nuevos algoritmos, métodos y conjuntos de datos que pueden ser utilizados para detectar, reconocer y mejorar secuencias de caracteres de texto encontradas dentro de imágenes, basándonos en la necesidad de recuperación de información en sistemas que no pueden rastrear o acceder a dicha información por otro medio que no sea una representación gráfica.Motivados por nuestro trabajo junto al Instituto Nacional de Ciberseguridad (INCIBE), nuestra investigación recupera secuencias de caracteres localizadas dentro de medios visuales tanto de Darknets como de sistemas industriales. Con ello, pretendemos dar soporte a los productos y servicios relacionados con la ciberseguridad, para monitorizar posibles actividades ilegales e infraestructuras críticas. Para mejorar el rendimiento del reconocimiento de texto, analizamos las imágenes en función de su irregularidad, ya que los métodos suelen afirmar ser robustos en conjuntos de datos irregulares, cuando estos contienen una gran cantidad de texto regular. Después de construir un modelo de clasificación para estas categorías, creamos un nuevo conjunto de datos, el conjunto Texto Totalmente Irregular (FIT-Text en Inglés), compuesto exclusivamente por imágenes irregulares, que los métodos de la literatura pueden utilizar para mejorar sus resultados en este tipo de imágenes. Proponemos una nueva métrica de rendimiento, la precisión Contained-Levenshtein (C-Lev), que utilizamos en reconocimiento de texto. Tradicionalmente, los reconocedores de texto de la literatura informan tanto de su precisión como de la distancia de edición normalizada (edit distance) en conjuntos de datos como principales métricas de rendimiento, pero nunca han combinado ambas en una métrica singular y eficaz, que pueda ayudar a discernir entre errores leves y graves. C-Lev también funciona como herramienta de comprobación del etiquetado de los conjuntos de datos, lo cual ayuda a los métodos a mantenerse robustos frente a errores humanos de etiquetado. En tercer lugar, para aumentar la métrica de precisión en reconocimiento de texto, proponemos la integración de medidas de distancia entre cadenas de caracteres como componentes de las funciones de pérdida. Consideramos que la distancia deHamming es la más beneficiosa en el entrenamiento de estosmétodos, con una mejora total registrada de más de 6% de precisión en conjuntos de datos de la literatura. Para los detectores de texto, proponemos una nueva métrica que asigna valor a las imágenes según sus regiones documentadas, la Distribución de Densidad de Texto (TDD en inglés), que clasifica los medios visuales según su cantidad y distribución espacial de regiones. Proponemos utilizar esta métrica para seleccionar conjuntos reducidos de datos con los que entrenar detectores de texto, reduciendo su coste computacional y preservando su rendimiento. Observamos que la F1 score de la detección sólo disminuye en un 4% cuando se utiliza menos del 30% del conjunto de datos de entrenamiento, reduciendo el coste computacional a menos de la mitad y poniendo de manifiesto que los detectores de texto pueden funcionar de forma similar con datos reducidos. En nuestra última contribución, implementamos capas de operaciones morfológicas en los sistemas de detección de texto para hacer que regiones erróneamente descartadas sean más visibles para los métodos, así como reducir la cantidad de falsos negativos en detección de texto.Dado que estas operaciones pueden afectar negativamente a la fase de reconocimiento de los sistemas que combinan ambas tareas, combinamos estas técnicas con nuestras contribuciones en el campo de reconocimiento,mejorando su rendimiento global. Algunas de nuestras contribuciones ya han sido incorporadas en herramientas y servicios desarrollados por INCIBE, que ayudan al Equipo de Respuesta a Emergencias Informáticas de INCIBE (INCIBE-CERT) y a las Fuerzas y Cuerpos de Seguridad del Estado (FFCCSE) a recuperar textos contenidos en darknets como Tor, y a clasificar capturas de pantalla de entornos industriales en tipos preestablecidos antes de aplicar técnicas de postprocesado en sistemas de toma de decisiones.Nuestras propuestas se centran en técnicas de visión por ordenador, aprendizaje automático, análisis y minería de datos, dando como resultado la creación de cuatro conjuntos de datos: TOICO-1K, relacionado con la darknet Tor, CRINF-300 y CRINF-Text para imágenes relacionadas con el ámbito de la Industria 4.0, y FIT-Text para textos exclusivamente irregulares. Utilizando TOICO-1K, evaluamos el rendimiento de detectores, reconocedores y sistemas de reconocimiento óptico de caracteres (OCR). Destacamos las áreas en las que cada enfoque puede aprovecharse mejor y las imágenes y contextos con los que tienen más dificultades, proponiendo mejoras como técnicas de rectificación, resolución y búsqueda de caracteres similares. CRINF-300 y CRINF-Text proporcionan un contexto para la clasificación de imágenes de sistemas industriales de capturas de pantalla, tanto para la detección y el reconocimiento de extremo a extremo que se encuentran en los sistemas de registro, como mediante técnicas de clasificación utilizando fine tuning y transfer learning para generar clasificadores de imágenes industriales. Por último, proponemos FIT-Text para ayudar a los reconocedores a discernir su verdadero rendimiento frente a imágenes irregulares, tras detectar una elevada presencia de texto regular dentro de conjuntos de datos descritos a menudo como irregulares.