Statistical methodology and software to analyse oscillatory signals with applications to biology

  1. Larriba, Yolanda
unter der Leitung von:
  1. Cristina Rueda Sabater Doktormutter
  2. Miguel Alejandro Fernández Temprano Co-Doktorvater

Universität der Verteidigung: Universidad de Valladolid

Fecha de defensa: 23 von Juni von 2020

Gericht:
  1. Bonifacio Salvador González Präsident/in
  2. Oscar Manuel Rueda Palacio Sekretär/in
  3. Inmaculada Arostegui Madariaga Vocal

Art: Dissertation

Zusammenfassung

Numerosos procesos biológicos, como por ejemplo el ciclo menstrual, la actividad reproductora, el ciclo celular o el ciclo circadiano exhiben un comportamiento rítmico que se manifiesta en señales con patrones oscilatorios que se repiten de forma periódica. El estudio de estas señales temporales rítmicas y su variación a lo largo del tiempo se conoce como cronobiología. Desde un punto de vista estadístico, el análisis de datos en cronobiología presenta ciertos retos: (a) la señal puede adoptar una gran variedad de patrones rítmicos; (b) con mucha frecuencia se dispone de información de pocos periodos y el número de observaciones por periodo es bajo; (c) en este tipo de datos subyace una estructura circular; (d) diversas fuentes de variabilidad afectan a las observaciones; (e) en ocasiones se desconocen los instantes de tiempo en los que se tomaron las muestras. Por todo ello, los modelos estándar de series de tiempo, o los modelos de Fourier no son adecuados para el análisis de este tipo de datos. Es habitual encontrar en la literatura modelos paramétricos clásicos, basados en funciones sinusoidales, como Cosinor. Sin embargo, estas funciones sinusoidales en ocasiones son demasiado rígidas, ya que en la mayoría de procesos biológicos se observan patrones temporales rítmicos asimétricos. Varios son los problemas estadísticos que se plantean en cronobiología. Quizás el problema más clásico sea el de la identificación de señales con patrones temporales rítmicos; ya que es habitual encontrar múltiples señales asociadas a estos procesos, algunas de las cuales no son rítmicas. Este problema ha sido muy estudiado en la literatura y existen diferentes procedimientos para la detección de señales rítmicas. Por su uso extendido entre los biólogos destacamos los algoritmos JTK_Cycle (JTK) y RAIN, basados en el test de Jonckheere-Terpstra y la correlación Tau de Kendall. Pese a ser dos de los procedimientos de detección de ritmicidad más utilizados en la práctica, ambos presentan una alta tasa de clasificación errónea en patrones rítmicos asimétricos. En la mayoría de aplicaciones, se asume que se conocen los instantes de tiempo en los que se toman las muestras. Sin embargo, hay casos, como por ejemplo en el análisis de datos de biopsias humanas o de datos de expresiones de genes en cadáveres, en los que se desconocen esos instantes de tiempo y deben estimarse previamente a cualquier análisis de ritmicidad. Dicho problema de estimación se conoce en cronobiología como estimación del orden temporal. Algunos de los procedimientos propuestos recientemente en la literatura para abordar este problema son Oscope y CYCLOPS. Oscope se diseñó específicamente para la reconstrucción de la dinámica del ciclo celular y su aplicabilidad se reduce únicamente a experimentos scRNA-Seq. CYCLOPS, lejos de dar una formulación matemática del problema, propone una solución basada en redes neuronales, lo que dificulta la evaluación e interpretación de los resultados, y requiere de información adicional que no siempre está disponible. Además de los dos problemas principales, mencionados anteriormente, existen otras muchas cuestiones interesantes planteadas relacionadas con el análisis de señales rítmicas, como la estimación del momento de máxima expresión y/o la comparación y clasificación de señales rítmicas. La motivación fundamental de esta tesis es resolver problemas asociados al análisis de expresiones de genes, cuya actividad está gobernada por el ciclo circadiano. A estos genes se los conoce como genes circadianos porque presentan patrones de expresión sincronizados con dicho ciclo. En concreto, el problema que supuso el inicio de esta tesis, fue el de la identificación, entre las miles de señales que encontramos en un estudio genético, aquellos genes con patrones de expresión rítmicos. En esta tesis se propone un marco estadístico teórico, basado principalmente en metodología de Inferencia con Restricciones de Orden (ORI), que supone un nuevo paradigma donde formular una gran variedad de problemas en cronobiología. Todos los procedimientos desarrollados han sido implementados en el software estadístico R, para hacerlos accesibles en la práctica. La metodología ORI se caracteriza por la incorporación de información que se conoce a priori en términos de restricciones sobre los parámetros del modelo. Los procedimientos de inferencia resultan más eficaces y las soluciones son biológicamente interpretables. Esta metodología surgió en la primera mitad de los años 50. A partir de los primeros trabajos teóricos, se desarrollaron algoritmos que permitieron implementar dichas teorías en la práctica; y se extendieron algunos de los procedimientos clásicos de la metodología ORI al espacio circular. En la actualidad, la metodología ORI aparece en numerosas investigaciones en estadística aplicada. La clave fundamental de la que arranca el desarrollo metodológico ORI presentado en esta tesis es la representación matemática de señal oscilatoria mediante restricciones up-down-up, entre los paramentos en el espacio Euclídeo, y la formulación equivalente de orden circular, entre los parámetros en el espacio circular. Esta tesis, que se presenta como compendio de publicaciones, consta de cuatro contribuciones científicas; tres artículos y un capítulo de libro, existiendo entre todos ellos una cohesión temática. La exposición sigue el orden cronológico en el que se desarrollaron. En Larriba et al. (2016) se aborda el problema específico de la detección de ritmicidad para datos de expresión de genes derivados de la tecnología de microarrays. Se establece, por primera vez, una definición de señal rítmica en el espacio Euclídeo usando restricciones de orden y se diseña ORIOS, un algoritmo basado en tests de hipótesis anidados que involucran restricciones, para detectar y clasificar señales rítmicas. Para resolver estos contrastes de hipótesis los autores proponen el uso de test condicionales. Los resultados derivados de este trabajo muestran que ORIOS presenta mayor potencia en la detección de genes rítmicos que sus principales competidores (JTK y RAIN), controlando la tasa de falsos positivos. Además, ORIOS identifica posibles nuevos genes circadianos que pueden ser relevantes para los biólogos. Larriba et al. (2018) surgió a raíz de la constatación de que los datos de expresión de genes derivados de microarrays están sujetos a distintas fuentes de variabilidad y que la elección del método de normalización (preprocesado para eliminar/reducir el ruido sistemático de los datos) podía afectar sustancialmente en la detección de ritmicidad. Con el objeto de cuantificar y eliminar dicha dependencia, en este trabajo se introduce una medida de ritmicidad, basada en metodología bootstrap, que identifica genes rítmicos de forma robusta frente a la elección de la estrategia de normalización. Además, la metodología bootstrap desarrollada se presenta como una herramienta útil para simular datos de expresiones de genes. Se demuestra que la nueva medida de ritmicidad es eficaz para la detección de genes rítmicos independientemente de la normalización utilizada. En particular, se obtienen correlaciones muy altas entre los rankings de ritmicidad de los genes obtenidos a partir de esta nueva medida para todas las normalizaciones consideradas en el trabajo. En Larriba et al. (2019) se propone una extensión de este trabajo. En concreto, dicha metodología bootstrap se aplica para el análisis de ritmicidad de las líneas celulares humanas U2OS, incluyendo detalles computacionales y extendiendo los resultados iniciales obtenidos en Larriba et al. (2018). Finalmente, Larriba et al. (2020) presenta el marco teórico general, basado en metodología ORI, para el análisis de datos en cronobiología, y puede considerarse la contribución más importante de la tesis. En concreto, se establece la definición rigurosa de señal circular, utilizando restricciones de orden tanto en el espacio Euclídeo como en el espacio circular y se propone un modelo estadístico de señal circular más ruido para el análisis de señales rítmicas. Esta formulación equivalente de ritmicidad entre ambos espacios sustenta la metodología desarrollada en este trabajo. En primer lugar, en el marco de este modelo con restricciones, se resuelve el problema de la estimación de señal circular como un problema de Regresión Isotónica (IR). En segundo lugar, se formula el problema de la detección de ritmicidad como un problema de contraste de hipótesis con restricciones. En tercer lugar, se plantea el problema de la estimación del orden temporal como un problema de optimización que busca el orden entre los instantes de tiempo que minimiza la distancia entre el estimador de IR bajo ese orden y los datos. Este problema de minimización que incorpora restricciones inicialmente no tiene solución directa (NP-hard). Sin embargo, se puede abordar el problema considerando su representación en un grafo, donde los nodos son las observaciones y el objetivo es buscar la ruta más corta que recorra todas las observaciones exactamente una vez, empezando y acabando en la misma observación, lo que se corresponde con un orden circular. La formulación equivalente de ritmicidad entre los espacios Euclídeo y circular, traduce dicho orden circular en un orden up-down-up entre las observaciones euclídeas. Así, el problema de optimización puede resolverse como un problema del viajante (TSP), muy estudiado en investigación operativa. Aunque el problema TSP no tiene solución exacta, existen numerosas heurísticas, algunas de ellas implementadas en R, que llevan a soluciones aproximadas. Por último, en este trabajo, se definen varias medidas que son útiles para validar la bondad de este procedimiento frente a otras alternativas en la literatura y de uso muy extendido entre los biólogos. Los resultados arrojados de este trabajo se concretan en que la nueva metodología para la detección de ritmicidad mejora las tasas de error de JTK; y en que la reconstrucción del orden temporal con la nueva propuesta proporciona resultados más verosímiles que CYCLOPS para las medidas de validación mencionadas anteriormente. Esta tesis supone una sólida aportación metodológica en el campo de la Estadística con Restricciones y un avance importante en la resolución de diversos problemas reales. La metodología ORI recogida en este trabajo permite una mejor interpretación de muchos de los problemas clásicos de cronobiología y mejora los resultados de sus competidores en los problemas estudiados. La versatilidad, simplicidad e interpretabilidad biológica de los elementos y procedimientos estadísticos desarrollados en esta tesis, y el éxito de su aplicación en la solución de muy diversos problemas han supuesto el nacimiento de una nueva metodología para el análisis de señales oscilatorias que está teniendo un avance vertiginoso y que cuenta con aplicaciones no solo en el campo de la cronobiología, sino también en otras áreas tan dispares como la astrofísica. Una aplicación particularmente interesante, en la que estamos trabajando arduamente en este momento, está relacionada con la electrofisiología del corazón. Los resultados de este trabajo pueden ser de gran repercusión para la salud, ya que esperamos avances significativos en el diagnóstico automático de enfermedades cardiovasculares, lo que podría significar una posible reducción en la tasa de mortalidad por esas causas. Referencias: Y. Larriba, C. Rueda, M. Fernández, and S. Peddada. Order restricted inference for oscillatory systems for detecting rhythmic signals. Nucleic Acids Research, 44(22):e163, 2016. doi: 10.1093/nar/gkw771. Y. Larriba, C. Rueda, M. Fernández, and S. Peddada. A bootstrap based measure robust to the choice of normalization methods for detecting rhythmic features in high dimensional data. Frontiers in Genetics, 9:24, 2018. doi:10.3389/fgene.2018.00024. Y. Larriba, C. Rueda, M. Fernández, and S. Peddada. Microarray data normalization and robust detection of rhythmic features. In V. Bolón-Canedo and A. Alonso-Betanzos, editors, Microarray Bioinformatics, pages 207-225. Springer New York, 2019. ISBN 978-1-4939-9442-7. Y. Larriba, C. Rueda, M. Fernández, and S. Peddada. Order restricted inference in chronobiology. Statistics in Medicine, 39(3):265-278, 2020. doi: 10.1002/sim.8397.