Análisis Sparse de tensores multidimensionales

  1. GONZÁLEZ GARCÍA, NEREA
Zuzendaria:
  1. Purificación Galindo Villardón Zuzendaria
  2. Ana Belén Nieto Librero Zuzendarikidea

Defentsa unibertsitatea: Universidad de Salamanca

Fecha de defensa: 2019(e)ko abendua-(a)k 20

Epaimahaia:
  1. Luis Antonio Sarabia Peinador Presidentea
  2. José Luis Vicente Villardón Idazkaria
  3. Guilherme Castela Kidea

Mota: Tesia

Laburpena

Una de las áreas más importantes de la investigación actual en el análisis de datos multivariantes se centra en el desarrollo de técnicas eficientes para el estudio matrices de datos de altas dimensiones. En disciplinas como la genética o el procesamiento de imágenes, las bases de datos están formadas por miles de variables. Para su análisis, se requieren técnicas que las simplifiquen y que no pierdan la información clave de la muestra. El análisis de componentes principales, mediante la descomposición en valores singulares, es la técnica más implementada para la reducción de la dimensión de matrices de datos y extracción de variables características, lo que se logra a través de la extracción de nuevas variables latentes conocidas como componentes principales. Sin embargo, presenta el inconveniente de que cada componente principal es una combinación lineal de todas las variables originales y esto dificulta su interpretación. A lo largo de los años se han desarrollado distintos enfoques para paliar su principal desventaja, pero es en la última década en la que este método se ha modificado para producir componentes principales sparse; es decir, componentes que envuelvan únicamente un pequeño subconjunto de las variables originales más importantes. Todo ello ha dado lugar a la aparición del análisis de componentes principales sparse, un método de selección automática de variables características extremadamente útil en las aplicaciones modernas donde el número de variables originales es enorme. El proyecto aquí propuesto investiga y propone una nueva herramienta de análisis aplicable a un tipo especial de datos, conocidos en estadística como datos multivía o, más recientemente en minería de datos, como tensores. Hasta ahora, los estudios recogían la información en matrices bidimensionales, pero en la actualidad existen ocasiones en las que es interesante y necesario englobar dicha información en bloques de más vías, incluyéndose más cantidad de información en el estudio. Analizándose estos tensores mediante los métodos de descomposición pertinentes se obtendrían respuestas de manera más eficaz (en términos de solución, tiempo y área de aplicación) que si dichas matrices se analizasen por separado. Estos métodos, como los modelos Tucker o el método STATIS, aplicados en diversas áreas, basan su fundamento teórico en el análisis de componentes principales clásico, cuya deficiencia es bien conocida, y en la descomposición en valores singulares, que no tiene una definición única en el caso de tensores. Nuestro trabajo se enfoca en una línea de investigación que acaba de comenzar: el desarrollo de un método sparse generalizado, adaptado al análisis de datos multidimensionales. Para ello, se desarrolla una nueva formulación matemática de la descomposición en valores singulares, CenetSVD, restringida para la obtención de vectores singulares ortogonales y sparse al mismo tiempo mediante la penalización Elastic net. Dicha implementación es extendida al análisis de dos vías, proponiendo CenetPCA, análisis de componentes principales restringido, sparse y ortogonal, y CenetBiplot, métodos Biplot con componentes sparse y ortogonales. Finalmente, la formulación se generalizará a los modelos Tucker de tres vías, para producir matrices de componentes sparse y ortogonales en el conocido como CenetTucker. Las metodologías propuestas serán aplicadas en distintos campos de conocimiento, examinando así su utilidad en disciplinas tan diversas como psicología y genética. Gracias a las herramientas matemáticas, se abre así un nuevo camino en la estadística multivariante, con importantes aplicaciones prácticas en cualquier área de la actividad humana.