martes, 12 de julio de 2016

Botas, batas y bits

La verdad es que hace no tanto tiempo que si alguien decía -soy bióloga- lo primero que se pensaba era, ¡de bota! y se podía imaginar a la intrépida investigadora, amiga de los animales y las plantas, recorriendo el monte, identificando, clasificando y recogiendo muestras de todo tipo. Hacia la última década del siglo XX algunos biólogos comenzaron a matizar -eh que yo soy de bata, no de bota- y se les podía ver cuán jóvenes CSI captando la pequeña muestra en el escenario adecuado que en el laboratorio llevaría hasta el ADN y de ahí a la prueba o identificación certera... Lo cierto es que, ya en pleno siglo XXI, los biólogos seguimos, por supuesto, siendo amigos de plantas y animales, pero ya no sólo somos de bota o de bata. Este es el siglo de la tercera B biológica: de bota, de bata y... ¡de bit!



Como en tantos otros campos los ordenadores han supuesto una revolución también en la biología. Pero esta es más profunda de lo que muchos piensan. Al hablar de biología e informática, quizás el término bioinformática nos viene a la mente. Este es un concepto actualmente muy ligado a la genética y el análisis molecular del ADN. Los ordenadores permitieron en primera instancia mejorar muchísimo la eficiencia del proceso de secuenciación. En consecuencia la cantidad de datos disponibles de ADN de muchas especies, poblaciones e individuos pertenecientes a ellas es actualmente enorme, y sigue creciendo. Cuando hablamos de ADN sabemos que estamos tratando con moléculas de ácido desoxirribonucleico en las que subyace la información genética de los organismos. Una de las informaciones más interesantes que podemos extraer de estas moléculas es la secuencia de bases nitrogenadas (Adenina, Citosina, Guanina y Timina) que caracterizan los diferentes genes y que pueden variar entre especies, poblaciones e incluso, a veces, entre individuos de la misma población. Para representar estas moléculas una vez secuenciadas sólo necesitaríamos papel y lápiz, o un editor de texto en un ordenador, y anotar la secuencia de bases nitrogenadas. Por ejemplo, si hemos secuenciado un fragmento de 5 bases, esta secuencia podría ser AATCA. Pero si en vez de una secuencia de 5 bases hablamos de varias secuencias con muchos miles, cientos de miles o incluso millones de bases entonces los investigadores necesitan utilizar pequeños programas (scripts) para manejarlas de modo que las pueden copiar de unos ficheros a otros, contar el número de bases de un determinado tipo, buscar una secuencia o patrón concreto de bases, comparar unas secuencias con otras, etcétera.

Créditos de la imagen: Flickr/CC BY-SA 2.0, www.yourgenome.org, 
 www.jax.org, en.wikipedia.org, www.foodsafetynews.com
                                                 
Sin embargo, como ya dijimos, la revolución del bit en biología, es más profunda y por tanto no sólo se trata de los programas y bases de datos para manejar las secuencias. A comienzos del siglo XX, cuando la integración de la genética mendeliana y la teoría evolutiva dio lugar a la disciplina conocida como genética de poblaciones, ello incentivó importantes desarrollos estadísticos para la resolución de los problemas que la nueva disciplina planteaba. Actualmente, en vez de tratar con unos pocos genes tratamos con los genomas enteros. La integración de estos datos genómicos con los modelos poblacionales y ecológicos, plantea nuevos problemas y requiere el desarrollo de nuevos métodos y modelos.

Si estudiamos un proceso biológico que cambia a lo largo del tiempo (dinámico) podemos considerar al menos 3 tipos de modelos. En primer lugar, modelos de tipo biológico (por ejemplo, datos de apareamientos entre dos poblaciones vecinas de una especie),  que consisten en información (datos, mediciones,…) que está sometida a ruido. Este ruido proviene del muestreo, errores de medida o simplemente de eventos aleatorios de la naturaleza. El segundo tipo, el modelo matemático, sería una representación formal del modelo biológico en la cual se establecen relaciones entre las características de interés. En estos modelos los números no están sometidos a ruido. Si iteramos el modelo matemático podríamos resolver las variables fundamentales y obtener soluciones predictivas para el mismo. Si el ajuste entre el modelo matemático y el biológico es aceptablemente bueno entonces estas predicciones podrán ser muy útiles. En nuestro ejemplo, podríamos relacionar frecuencias de apareamiento con determinadas características de los individuos y de estos con su composición genética y así estaríamos en posición de conocer la evolución de los fenotipos y genotipos de esas poblaciones tanto hacia adelante como hacia atrás en el tiempo. El problema de estos modelos matemáticos es que, o bien son muy simples (no se ajustan al modelo biológico) o bien no somos capaces de resolverlos cuando el modelo biológico subyacente es muy complejo. Entra aquí en juego el tercer tipo, los modelos de simulación, los cuales resuelven los cálculos de modelos dinámicos matemáticos complejos. Es decir, los modelos de simulación nos permiten plantear y resolver modelos matemáticos complejos de modo que mejore el ajuste respecto a los modelos biológicos.



Y hemos llegado al mensaje clave de esta entrada. La necesidad cada vez más acuciante de desarrollar simulaciones de ecosistemas evolutivos a la luz de los datos genómicos y poblacionales. Si bien es cierto que este tipo de modelos llevan ya un tiempo aplicándose en biología, por ejemplo los llamados modelos basados en individuos (IBM por sus siglas en inglés) que se utilizan en ecología y genética de poblaciones, es ahora cuando emerge una extensión de los mismos combinando información genómica, ecológica y demográfica. Hablamos de modelos eco-genéticos o mejor aún eco-genómicos. Estos nos permitirán avanzar en el conocimiento teórico de aspectos muy diversos e importantes de la ecología y la evolución de las especies a la vez que realizar y contrastar predicciones. Estos modelos se aplican tanto en conservación, como en biomedicina, también para poner a punto estimadores de estadísticos de interés, en estudios de impacto de actividades humanas sobre la diversidad genética, pesquerías, etc., etc.

A pesar de que existen algunas herramientas de simulación eco-genética, pocas veces se ajustan exactamente a nuestras necesidades específicas. Hace tiempo escuché una gran verdad que personalmente he experimentado muchas veces -entendemos realmente algo cuando sabemos programarlo, en caso contrario sólo creemos entenderlo-. Surge entonces la cuestión clave. ¿Qué podemos hacer si somos biólogos y queremos programar nuestros propios bio-simuladores? Como todas las disciplinas que se mueven en la espumeante cresta de la ola del conocimiento, el campo de la simulación biológica, que enmarcaré dentro de la biología computacional, es una ciencia multidisciplinar donde se echa mano de conocimientos de genética, ecología y evolución pero también de programación, estadística y matemáticas. Respecto a los lenguajes de programación, aunque mi favorito es C++ quizás Python (https://www.python.org/) es el que mejor combina simplicidad con buenas prestaciones en términos de estructura y posibilidades del lenguaje. Dispone de  funciones predefinidas de utilidad en biología siendo relativamente sencillo realizar los primeros programas útiles. Existen además infinidad de tutoriales, comunidades y foros donde la persona interesada encuentra ayudas de todo tipo para dar los primeros pasos y avanzar en su conocimiento “pythonico”. Así que finalizo este post con una exhortación para los  nuevos biólogos de bits, os digo: ¡simulad, simulad malditos!

Para saber más

Haddock, S. H. D., and C. W. Dunn. 2011. Practical computing for biologists. Sinauer, Sunderland, Mass.
Hartmann, A. K. 2015. Big Practical Guide to Computer Simulations. World Scientific.
Hoban, S. 2014. An overview of the utility of population simulation software in molecular ecology. Molecular Ecology 23:2383-2401.
Perkel, J. M. 2015. Programming: Pick up Python. Nature 518:125-126