Por Adriana López-Doriga, Chief Data Quality Nennisiwok

Cuando la gente escucha la palabra estadística suele comentarme que era la asignatura negra en su carrera y que cómo se me ocurrió estudiar tal cosa. La verdad es que fue por casualidad. Me convenció la charla que nos hicieron en las puertas abiertas de la facultad, donde nos hablaron de los múltiples ámbitos en los que se aplica la estadística, y donde me quedé fascinada por los modelos y predicciones meteorológicas que se podían hacer. Cabe decir que la obsesión por la temperatura en cada lugar y hora del día me viene de familia. Aunque, al final, la vida me ha llevado a estudiar y a usar la estadística en otro ámbito, la bioinformática.

La bioinformática, que se define como la aplicación de tecnologías computacionales y la estadística a la gestión y análisis de datos biológicos, se aplica, entre otros campos, a la predicción de la estructura de las proteínas, a la predicción en el rol de determinados genes, en estudios de evolución, en el descubrimiento de nuevas terapias, en el desarrollo de vacunas o en el manejo de gran cantidad de datos genómicos.

Cada una de estas aplicaciones es muy extensa por lo que en este breve artículo me centraré en cómo podemos detectar variantes dentro de un gen mediante algoritmos bioinformáticos, y cómo el resultado da pie a usar algoritmos de Inteligencia Artificial (IA), en especial deep learning para hacer una medicina personalizada.

Se intentarán definir los pasos principales en la detección de variantes genéticas, que llevan implícitos muchos conceptos estadísticos, y cómo el resultado permite aplicar IA para ayudar en medicina.

Voy a intentar explicar los pasos principales del proceso con un ejemplo de un/a paciente oncológico/a, porque es el ámbito de investigación donde tengo más experiencia. Remarco de nuevo que es un área científica muy extensa y una enfermedad muy compleja, por lo que en este escrito sólo pretendo dar una idea generalizada, sin comentar partes relevantes, para que se entienda mejor y llegue a un público más amplio.

Nos ponemos en contexto: una vez se ha diagnosticado a un paciente de cáncer de pulmón, por ejemplo, se le pauta un tratamiento determinado según unos protocolos establecidos y en función de las características de la enfermedad. Pero, en algunos casos, el/la oncólogo/a duda o el tratamiento pautado no tiene los resultados esperados, entonces, se decide secuenciar el ADN del tumor. Actualmente, lo más común es secuenciar un panel de genes que incluye los genes que se han asociado al diagnóstico o pronóstico de determinados tipos de cáncer y en el caso de encontrar alguna mutación hay tratamientos disponibles. Una vez se tiene la muestra de ADN procesada, lo cual requiere un trabajo meticuloso de técnicos de laboratorio especialistas, se secuencia la muestra en uno de los secuenciadores que están en el mercado (“Illumina”, por ejemplo, tiene varios secuenciadores para hacer secuenciación masiva y, según las características y demanda de los centros, usan uno u otro). Cuando la secuenciación termina, se obtienen millones de imágenes que corresponden a los nucleótidos (ATCG) en cada una de las lecturas (trocitos de los genes secuenciados). Es aquí donde se empiezan a usar algoritmos bioinformáticos para seguir con el proceso de análisis.

Los pasos principales son:

1. Lectura de las imágenes con distintos colores e intensidades (formato bcl) y transformación a formato fastq (formato texto con los nucleótidos de cada lectura). En este paso, el papel de la estadística es el cálculo de medias de las intensidades por ciclos y fases de la secuenciación, para reportar la base con la máxima precisión posible. También se calcula la calidad de la base, que será clave para los pasos posteriores.

2. Alineamiento de las lecturas (trocitos cortos de ADN) en el genoma de referencia. Este paso es crítico y costoso. Los algoritmos cada vez son más precisos, pero es importante hacer un tratamiento de datos previo y escoger los parámetros adecuados. En este paso, cada alineamiento de cada lectura se determina por un score de concordancia, y la significación estadística del score lleva asociado un p-valor. Estos p-valores son clave para determinar el alineamiento final de una lectura.

3. Detección de variantes. Este paso consiste en detectar las diferencias entre el genoma de referencia y las lecturas de la muestra secuenciada. Esto también es complejo, ya que depende de las calidades y p-valores de los pasos anteriores para que una variante se considere válida. Igualmente, a cada variante se le asocia un p-valor de que sea cierta, calculado principalmente mediante inferencia Bayesiana, aunque hay gran cantidad de métodos y algoritmos.

4. Anotación de las variantes. Este paso consiste en anotar la posición y el cambio de nucleótido/s detectado/s en el gen que corresponde, y predecir si este cambio puede afectar a la proteína que se transcribe y, por tanto, si puede tener un impacto en el desarrollo del tumor, siendo una diana terapéutica con relevancia clínica.

Es a partir de aquí donde empieza a jugar un papel importante la Inteligencia Artificial, ya que se hará una predicción de la patogenicidad de la variante y del tratamiento que puede ser más beneficioso para el/la paciente, en función de todos los casos estudiados, sus características moleculares y clínicas, y todo el conocimiento retrospectivo. La Inteligencia Artificial permite hacer una medicina personalizada más beneficiosa y coste-efectiva.

La Inteligencia Artificial permite hacer una medicina personalizada más beneficiosa y coste-efectiva. El resultado de la aplicación del tratamiento será recogido de nuevo en las bases de datos para enriquecer a los modelos y que hagan predicciones cada vez más precisas.

Si algún lector ha llegado hasta aquí, espero haber transmitido una visión global del papel de la estadística en algoritmos bioinformáticos para la detección de variantes genéticas en el ADN, y la consiguiente implicación de la Inteligencia Artificial para realizar una medicina personalizada de calidad.

 

*En la figura 1 se representan los pasos principales en la detección de variantes genéticas.

Nennisiwok AI Lab Blog

Descubre cómo la Inteligencia Artificial puede liberar el poder de tus ideas.