Artículos técnicos

Control guiado por datos para la reprogramación celular con MATLAB

Por Dra. Indika Rajapakse


“MATLAB es el mejor entorno que tenemos para explorar las redes que definen cómo funciona la reprogramación celular y cómo podemos aprovecharla para ayudar a transformar el tratamiento del cáncer y la medicina regenerativa”.

La quimioterapia es una de nuestras armas más poderosas en la lucha contra la leucemia y otros tipos de cáncer, pero puede ser un arma de doble filo. En el proceso de destrucción de las células cancerosas, con frecuencia también se elimina el sistema inmunológico. Después de administrar esta terapia, los médicos a menudo necesitan “tratar el tratamiento”, realizando un trasplante de médula ósea para ayudar a los pacientes a recuperarse reconstruyendo el sistema inmunológico. Estos trasplantes presentan sus propios desafíos porque encontrar un donante compatible no es fácil, e incluso cuando se encuentra una compatibilidad, pueden surgir complicaciones graves como la enfermedad de injerto contra huésped. 

Ahora imagina un camino diferente. ¿Qué pasaría si pudiéramos transformar algunas de las células de la piel del propio paciente en las células de la médula ósea que necesitan? El doble desafío de encontrar un donante y el rechazo del tejido del donante se eliminarían de inmediato. Esa es la promesa de la reprogramación celular y está en el centro del trabajo de mi grupo de investigación en la Universidad de Michigan. Estamos desarrollando métodos para convertir un tipo de célula directamente en otro, utilizando moléculas llamadas factores de transcripción (proteínas que ayudan a activar o desactivar los genes) para restablecer la identidad de una célula. 

Desde una perspectiva de ingeniería, esto puede formularse como un problema de control clásico. Si el estado actual del sistema es una célula de la piel y el objetivo es una célula de la médula ósea, ¿cómo guiamos el sistema hacia el objetivo? Lo modelamos como ẋ = f(x, u), dónde x es el estado de la célula y u representa la cantidad y el momento de los factores de transcripción que aplicamos. Para encontrar el conjunto correcto de factores y cuándo aplicarlos, realizamos experimentos que generan cantidades significativas de datos sin procesar, incluidos datos de secuenciación de ARN (RNA-Seq), datos de organización del genoma en 3D y datos sobre la unión de factores de transcripción. 

El éxito de nuestra investigación depende de nuestra capacidad para procesar y analizar los complejos conjuntos de datos biológicos que recopilamos, a menudo grandes, basados en matrices y de alta dimensión. También depende de nuestra capacidad para interpretr las redes que subyacen a la regulación genética y a la organización del genoma. En nuestro trabajo, los genes y las regiones genómicas son nodos de la red; sus interacciones (contactos físicos, influencia reguladora, coexpresión) forman los bordes. Estas redes pueden ser gráficos simples o hipergráficos más complejos, y ambos se representan naturalmente como matrices. Estas matrices son las estructuras de datos centrales que se pasan a algoritmos y modelos, muchos de los cuales se basan en la descomposición de valores propios, la descomposición en valores singulares (SVD) y otras operaciones de álgebra lineal, todas las cuales se manejan de forma natural y eficiente en MATLAB®. Hemos confiado en MATLAB durante años para crear los flujos de trabajo que forman la base de nuestro trabajo y, más recientemente, hemos comenzado a utilizar la app Biopipeline Designer para definir y ejecutar partes de estos como canales de bioinformática.

Una breve historia de la reprogramación celular y el surgimiento del control guiado por datos

Aunque la idea de reprogramar células existía desde hacía décadas, el campo de la reprogramación celular dio un salto espectacular en 2006 cuando Shinya Yamanaka demostró que sólo cuatro factores de transcripción podían revertir una célula cutánea madura a un estado pluripotente, similar a una célula madre. Su descubrimiento de las células madre pluripotentes inducidas le valió un Premio Nobel y, en mi opinión, cambió por completo el paradigma de la biología. Curiosamente, aunque el trabajo de Yamanaka captó la atención mundial, esta no fue la primera demostración de que las células podían cambiar fundamentalmente su identidad y función. Unos veinte años antes, Harold Weintraub, que trabajaba en el Centro de Investigación del Cáncer Fred Hutchinson, donde más tarde completé mi beca postdoctoral en Biología Celular del Genoma, había demostrado que una célula madura se podía convertir directamente de un tipo a otro, pasando por alto por completo el estado pluripotente. Publicó ese trabajo en 1987, pero en ese momento el campo no estaba del todo preparado para absorber lo que había descubierto y la brillantez de su trabajo.

Basándonos en la visión de estos pioneros, nuestro laboratorio ha centrado nuestros esfuerzos en la reprogramación directa y, en particular, en cómo hacerla más confiable y predecible. Entre nuestras principales contribuciones se encuentra un marco denominado control guiado por datos (Figura 1). Este enfoque optimiza el uso de factores de transcripción en la reprogramación celular empleando principios de la teoría de control matemático. 

Un diagrama que muestra cómo los factores de transcripción guían la reprogramación celular utilizando la teoría de control y redes de expresión genética.

Figura 1. Una descripción general del control guiado por datos, que incluye un resumen de las variables de la ecuación de control (A), la representación de dominios de asociación topológica (TAD) como nodos en una red dinámica con bordes determinados a partir de datos de ARN-Seq de series temporales (B), una ilustración conceptual de la identificación de un conjunto de TF que empujan el estado celular de una cuenca a otra (C).

En el control guiado por datos, construimos modelos para la evolución natural de las poblaciones celulares mediante el muestreo de la expresión genética en múltiples puntos temporales a lo largo del ciclo celular. Para gestionar la complejidad, agrupamos la expresión genética en función de dominios de asociación topológica (TAD) y modelamos la dinámica de sus niveles de expresión. (Los TAD son regiones del genoma que interactúan físicamente dentro de sí mismas con mayor frecuencia que con regiones externas, formando unidades estructurales tridimensionales discretas). Para construir estos modelos dinámicos, integramos datos de Hi-C (que mapean las interacciones físicas entre diferentes regiones del genoma) con datos de RNA-Seq que rastrean cómo cambia la expresión genética a lo largo del tiempo (Figura 2). Los modelos, combinados con datos sobre los sitios de unión y la actividad de los factores de transcripción, nos permiten identificar sistemáticamente los candidatos a factores de transcripción más prometedores para tareas de reprogramación específicas. 

Una combinación visual de la estructura del genoma en 3D y datos de expresión genética para respaldar el análisis de reprogramación celular.

Figura 2. La reprogramación celular requiere la integración de diferentes tipos de datos (Hi-C para la estructura del genoma 3D y RNA-Seq para la expresión genética) para comprender tanto la organización estructural (TAD) como los aspectos funcionales del genoma.

Utilizando el control guiado por datos, hemos identificado con éxito factores previamente validados en experimentos de reprogramación. Lo más importante es que lo hemos utilizado para identificar nuevas combinaciones potencialmente poderosas. Las capacidades de matriz y visualización en MATLAB han demostrado ser valiosas en este trabajo, permitiéndonos procesar eficientemente las complejas operaciones matemáticas subyacentes a nuestros algoritmos de control e interpretar los datos biológicos de alta dimensión resultantes.

Optimización del análisis de hipergrafos y los procesos bioinformáticos

Si bien el control guiado por datos nos brinda una manera de modelar la dinámica de la expresión genética, explicar esa dinámica a menudo requiere capturar interacciones regulatorias que van más allá de los simples modelos de pares. Muchas interacciones biológicas involucran no sólo dos, sino muchos componentes celulares simultáneamente. Por ejemplo, la regulación genética a menudo requiere la unión coordinada de varios factores de transcripción y coactivadores a regiones potenciadoras y promotoras del genoma. Los modelos de red estándar, que representan las relaciones como conexiones entre pares de elementos, no pueden capturar adecuadamente estas interacciones multidireccionales. Para abordar esta complejidad, nuestro laboratorio desarrolló el Caja de herramientas de análisis de hipergrafos (HAT), una caja de herramientas disponible públicamente para analizar y visualizar estructuras de orden superior en MATLAB. HAT permite a los investigadores construir, visualizar y analizar hipergrafos: estructuras matemáticas donde una única conexión (hiperángulo) puede unir múltiples nodos, representando con precisión interacciones multidireccionales en sistemas biológicos complejos. Esta capacidad es particularmente valiosa en la reprogramación celular, donde comprender la dinámica intrincada de las redes reguladoras de genes y las interacciones de la cromatina puede revelar puntos de intervención óptimos para convertir un tipo de célula en otro. HAT nos ayuda a identificar módulos reguladores críticos y puntos de control que serían invisibles para los modelos de redes por pares, mejorando nuestra capacidad para diseñar estrategias de reprogramación efectivas.

El análisis de hipergrafos a menudo se realiza dentro del contexto de un proceso o canalización de varios pasos. Nuestras líneas experimentales generalmente implican la recopilación de datos sin procesar de plataformas de secuenciación, la alineación con genomas de referencia, el filtrado y otros pasos posteriores. La app Biopipeline Designer nos permite agilizar estos procesos (Figura 3). Podemos, por ejemplo, construir un proceso que comience con datos de secuenciación, los alinee, cuantifique la expresión genética, realice el filtrado y la normalización, y luego extraiga características biológicamente significativas (una firma) que se pueda usar para identificar o clasificar células, rastrear el progreso de la reprogramación o guiar intervenciones. Podemos crear y ejecutar flujos de trabajo bioinformáticos de extremo a extremo de forma interactiva, conectando herramientas bioinformáticas establecidas y código desarrollado a medida en canales analíticos cohesivos. Además, podemos crear bloques personalizados para representar cualquier función de MATLAB (incluidas nuestras funciones HAT) e integrarlos con bloques prediseñados para operaciones bioinformáticas comunes. 

Una captura de pantalla de la app Biopipeline Designer en MATLAB que muestra un flujo de trabajo de bioinformática modular.

Figura 3. La app Biopipeline Designer

Este enfoque es particularmente poderoso al procesar nuestros datos de ARN-Seq para el análisis de la expresión genética. Estos datos son fundamentales para mejorar nuestra comprensión del estado celular y la dinámica de reprogramación. La app Biopipeline Designer nos ahorra tiempo y garantiza la reproducibilidad, ya que las canalizaciones completadas se pueden compartir o adaptar para diferentes tipos de datos con una modificación mínima. Para la investigación de reprogramación celular, donde la experimentación y el análisis iterativos son esenciales, confiamos en la capacidad de ajustar y volver a ejecutar rápidamente los análisis con diferentes parámetros para refinar nuestros modelos computacionales y estrategias de control.

MATLAB y Biología Matemática en el Aula

En nuestro laboratorio, utilizamos MATLAB en prácticamente todo lo que hacemos. Esta filosofía se extiende a mi instrucción de posgrado, donde enseño los cursos Matemáticas de redes biológicas y Matemáticas de datos. Estos cursos cubren conceptos esenciales como teoría de gráficos espectrales, controlabilidad de redes, SVD, modelado probabilístico y redes neuronales, todos aplicados a conjuntos de datos biológicos utilizando MATLAB. 

Cuando es posible, contamos con conferencias de Cleve Moler, cofundador de MathWorks y creador de MATLAB, cuya charla “Cómo la SVD salvó el universo ” inspira a mis estudiantes y demuestra el profundo impacto del álgebra lineal en la computación científica.

Desarrollos actuales y futuros 

Si bien nuestro enfoque actual se ha basado principalmente en datos de Hi-C para el mapeo por pares interacciones de la cromatina e identificación de TAD, nuestro laboratorio ahora está trabajando en la integración de la tecnología de secuenciación de lectura larga de Oxford Nanopore Technologies para mejorar nuestra comprensión de la arquitectura de la cromatina (la forma en que el ADN se empaqueta con proteínas en el núcleo celular). A diferencia de la secuenciación de lectura corta tradicional, el método Pore-C de la empresa captura nteracciones de la cromatina multidireccional y modificaciones epigenéticas, proporcionando una visión más completa de la estructura del genoma en 3D (Figura 4). Este avance requerirá adaptaciones en nuestros flujos de trabajo de procesamiento de datos, y planeamos utilizar Biopipeline Designer para administrar y analizar los conjuntos de datos más complejos involucrados. 

Comparación visual de los mapas de contacto de la cromatina utilizando Hi-C y Pore-C. El panel Hi-C muestra un mapa de calor de interacciones por pares y límites de TAD en el cromosoma 4. El panel Pore-C representa un flujo de trabajo de secuenciación y contactos multidireccionales basados en hipergráficos en una región genómica.

Figura 4. Comparación de mapas de contacto de todo el genoma generados utilizando tecnologías Hi-C y Pore-C. 

También estamos ampliando nuestro marco de control guiado por datos para incorporar representaciones de hipergrafos, lo que nos permite modelar de manera más efectiva interacciones reguladoras de genes de orden superior. Además, estamos planeando ir más allá de la reprogramación a nivel poblacional e incorporar la reprogramación de células individuales, con el objetivo de mejorar las tasas de éxito de la reprogramación. También estamos considerando la fabricación de tejidos, explorando el potencial de ensamblar tejidos funcionales a partir de células reprogramadas. Para apoyar estos esfuerzos, nuestra visión a largo plazo incluye el desarrollo de sistemas de laboratorio totalmente automatizados, en los que se modelarán y simularán gemelos digitales de los sistemas robóticos necesarios en Simulink®. ​

Cuando los investigadores hablan de tomar una célula de la piel, reprogramarla y reintroducirla en un paciente, puede parecer ciencia ficción. Como señaló el famoso autor de ciencia ficción Arthur C. Clarke: “Cualquier tecnología suficientemente avanzada es indistinguible de la magia”. En este espíritu, creo que las herramientas de MATLAB son cruciales para permitirnos convertir esta “magia” en realidad.

Perfil profesional

El Dr. Rajapakse es profesor de medicina computacional y bioinformática en la Facultad de Medicina de la Universidad de Michigan y profesor de matemáticas en la Facultad de Literatura, Ciencias y Artes de la Universidad de Michigan. Completó su beca postdoctoral en biología celular del genoma en el Centro de Investigación del Cáncer Fred Hutchinson en 2012. También es miembro del Instituto Smale y director científico y cofundador de iReprogram, Inc. Sus intereses de investigación incluyen la reprogramación celular, la biología digital, el aprendizaje guiado por datos y el control de estructuras de orden superior y las matemáticas de la sincronización.

Publicado en 2025

Productos utilizados

Más información

Artículos sobre prestaciones afines

Artículos sobre industrias afines