Estudios para clasificación con datos con ruido
- Sáez Muñoz, José Antonio
- Julián Luengo Martín Zuzendaria
- Francisco Herrera Triguero Zuzendaria
Defentsa unibertsitatea: Universidad de Granada
Fecha de defensa: 2014(e)ko urria-(a)k 10
- Nicolás García-Pedrajas Presidentea
- José Manuel Benítez Sánchez Idazkaria
- Jorge Casillas Barranquero Kidea
- Juan José Rodríguez Diez Kidea
- Mikel Galar Idoate Kidea
Mota: Tesia
Laburpena
Resumen En esta tesis se han abordado varios problemas relacionados con la presencia de ruido en los datos en tareas de clasificación. Dos líneas principales de investigación, vinculadas con las dos propuestas clásicas para tratar el ruido, constituyen su contenido: estudios y propuestas para el tratamiento de datos con ruido tanto a nivel de algoritmos como a nivel de preprocesamiento de datos. Los objetivos llevados a cabo fueron: 1. Proponer y analizar alternativas para hacer que los clasificadores funcionen mejor con datos con ruido, con independencia del clasificador seleccionado y las características de los datos. 2. Profundizar en el problema del ruido de atributos, que usualmente ha sido menos estudiado que el problema de ruido de clases en la literatura. 3. Analizar la necesidad de la aplicación de las técnicas de preprocesamiento del ruido basándonos en las propiedades de los datos y diseñar nuevos métodos de preprocesamiento del ruido. 4. Estudiar y proponer medidas de evaluación del comportamiento de los clasificadores con datos con ruido. Con estos objetivos en mente, se han aplicado sistemas de clasificación basados en múltiples clasificadores para tratar con datos con ruido, obteniendo buenos resultados. Igualmente, se ha propuesto un esquema de ponderación de características basado en métodos de imputación y test estadísticos. Esta combinación permite reducir el impacto del ruido de atributos y ha mostrado superar a otros métodos de tratamiento del ruido de atributos del estado del arte. También se ha estudiado la relación entre las características de los datos, analizando sus medias de complejidad, y la eficiencia de los filtros del ruido, llegando a la conclusión de que el filtrado del ruido es beneficioso cuando se trata con problemas con un alto grado de solapamiento entre las clases. Además, se han propuesto varios métodos de preprocesamiento de ruido, principalmente basados en el uso de múltiples clasificadores y filtros, que han mostrado buenos resultados al tratar con datos con ruido. Finalmente, se han planteado varias medidas de evaluación del comportamiento de los clasificadores con datos con ruido. Se han analizado las propiedades de cada una de ellas, llegando a la conclusión de que es necesario considerar el rendimiento y la robustez en dichas medidas si se desea obtener un buen estimador del comportamiento de los clasificadores al entrenar en problemas con ruido. -- Summary This thesis has addressed several problems related to the presence of noisy data in classification tasks. Two main research lines, related to the two classic proposals to deal with noisy data, compose its content: studies and proposals for the treatment of noisy data at the algorithm level and data level. The pursued objectives were: 1. To propose and analyze alternatives to make the classifiers perform better with noisy data, with independence of the classifier selected and the characteristics of the noise. 2. To deepen in the attribute noise problem, which is usually less studied than the class noise problem in the literature. 3. To analyze the necessity of the application of noise preprocessing techniques based on the properties of the data and to design new competitive noise preprocessing methods. 4. To study and propose evaluation metrics of the behavior of classifiers with noisy data. With these objectives in mind, systems based on multiple classifiers have been applied to deal with noisy data obtaining good results. Furthermore, we have proposed a feature weighting scheme based on imputation methods and statistical tests. This combination reduces the impact of attribute noise, outperforming other state-of-the-art methods. We have also studied the relationship between the characteristics of the data, analyzing their data complexity metrics, and the efficacy of noise filters. We have reached the conclusion that noise filtering is beneficial when dealing with problems with a high degree of overlapping among the classes. Moreover, several noise preprocessing methods, mainly based on using multiple classifiers and filters, have been proposed showing good results when dealing with noisy data. Finally, we have proposed several measures for evaluating the behavior of classifiers with noisy data. We analyzed the properties of each one, concluding that it is necessary to consider both performance and robustness in these metrics to obtain a good estimator of the behavior of classifiers with noisy data.