Recombining observations in cluster analysisthe SAGRA method
- Álvarez Pinto, Adolfo Andrés
- Daniel Peña Sánchez de Rivera Director/a
Universidad de defensa: Universidad Carlos III de Madrid
Fecha de defensa: 27 de junio de 2014
- Juan José Romo Urroz Presidente/a
- Julio Rodríguez Puerta Secretario/a
- Alfonso Gordaliza Ramos Vocal
Tipo: Tesis
Resumen
El objetivo de esta tesis es discutir y desarrollar métodos de partición y recombinación de conjuntos de datos para encontrar su estructura subyacente. En base a esta definición, los métodos cubiertos aquí pueden clasificarse como de aprendizaje no supervisado, o de análisis cluster, dado que no se dispone de información previa de pertenencia de los datos a grupo alguno. Además, en cuanto al problema de fijar el número de grupos, nuestras propuestas están basadas en métodos que no necesitan conocer de antemano este parámetro. La idea original que motiva esta investigación viene de algoritmos de análisis cluster como el SAR, propuesto por Peña, Rodriguez y Tiao (2004), el cual divide la muestra en pequeños grupos altamente homogéneos para luego recombinar las observaciones y formar la configuración definitiva de los datos (ver Capítulo 1). Sin embargo, cuando se desea recombinar grupos en lugar de observaciones se tiene el problema de que los grupos conforman particiones disjuntas, y por tanto dependientes entre si, por lo que no pueden aplicarse contrastes tradicionales de igualdad de media o varianzas para su recombinación. Específicamente, esta tesis doctoral quiere contribuir al problema de recombinar pequeños grupos homogéneos para reconstruir la estructura del conjunto de datos. La tesis está estructurada como sigue: En el capítulo 1 comenzamos estableciendo el marco del problema bajo los métodos de heterogeneidad de modelos y de análisis cluster, revisando alguna de las principales publicaciones en el área. En la segunda parte del capítulo, revisamos el método SAR propuesto por Peña, Rodríguez y Tiao (2004), remarcando algunas definiciones importantes, ejemplos de aplicación y apuntando potenciales mejoras que serán abordadas más tarde. En el capítulo 2, resumiremos la teoría de los estadísticos de orden, presentaremos nuevos resultados acerca de la distribución triangular y como esta puede ser usada para aproximar una distribución normal. También, abordaremos la combinación lineal de estadísticos de orden para desarrollar un método de recombinación. Finalmente, consideramos utilizar medidas de profundidad como una extensión natural de los estadísticos de orden. El capítulo 3 está dedicado a presentar un método univariante para combinar grupos basado en la detección de modas. Comenzamos el capítulo con una breve revisión bibliográfica para luego proponer una metodología de recombinación utilizando el "test dip" elaborado por Hartigan y Hartigan (1985). Posteriormente, se discuten y proponen alternativas para aplicar esta recombinación a estructuras de datos multivariantes. En el capítulo 4 enfrentaremos el problema de la recombinación en datos multivariantes. Presentaremos un algoritmo basado en el proceso de partición del SAR, mientras que la recombinación se realiza iterativamente utilizando un Factor Bayes, en el que se comparan dos modelos que explican la distribución de los datos dependiendo de las particiones obtenidas. Para finalizar, en el capítulo 5 resumimos las principales conclusiones de esta tesis, además de presentar algunas líneas abiertas en las cuales basar futuras investigaciones. Las contribuciones principales de la tesis son las siguientes: Un nuevo algoritmo de clustering llamado SAGRA (Splitting And Group Recombining Algorithm), basado en una estrategia de partir y recombinar, usando la función discriminador y un método de detección y limpieza de datos atípicos para partir los datos y luego factores de Bayes para recombinar los grupos. Formulación de la esperanza exacta y aproximada de estadísticos de orden para la distribución triangular. Estos resultados pueden ser usados para aproximar las esperanzas de estadísticos de orden para una distribución normal. Un procedimiento basado en el bootstrap para recombinar particiones univariantes basado en combinaciones lineales de estadísticos de orden. Un enfoque basado en medidas de profundidad para recombinar particiones multivariantes. Un método para recombinar particiones por pares, usando tests de unimodalidad tanto en datos univariantes como multivariantes, incluyendo una herramienta gráfica para visualizar la evolución de la recombinación.