El ADN no es un código ni un plano: científicos admiten que la metáfora central de la biología estuvo equivocada todo este tiempo

El ADN no es un código ni un plano: científicos admiten que la metáfora central de la biología estuvo equivocada todo este tiempo

Sólo el 2% del genoma humano codifica proteínas; el 98% restante sigue siendo un enigma para la ciencia.

image

Durante décadas se llamó al ADN el plano de la vida, pero la genómica moderna encaja cada vez peor en esa imagen cómoda. La secuencia de tres mil millones de letras químicas del genoma humano se descifró casi por completo en el marco del proyecto internacional del Genoma Humano, que se desarrolló de 1990 a 2003. Se esperaba que tras eso los biólogos comprendieran rápidamente cómo está construido el ser humano a nivel molecular. En lugar de una instrucción clara, los científicos obtuvieron un sistema en el que las letras del ADN no bastan: importan la forma de la cromatina, las marcas químicas, los bucles espaciales, las regiones reguladoras, las moléculas de ARN y las señales del entorno.

La sorpresa principal del proyecto resultó bastante desagradable. Solo alrededor del 2% del genoma humano corresponde a regiones que codifican proteínas de manera directa. Las proteínas construyen y sostienen la célula: funcionan como enzimas, receptores, elementos estructurales y transportadores de señales. Pero la mayor parte del ADN no da instrucciones directas para ensamblar proteínas. Durante mucho tiempo a esas regiones se les llamó no codificantes y a veces, de forma demasiado simplista, se las consideró ADN inútil. Hoy hay cada vez más datos que muestran que fuera de los genes clásicos se esconde buena parte del control.

Ya no se puede entender el genoma como una lista de genes con breves aclaraciones donde junto a cada entrada está escrito de qué se encarga. El ser humano tiene alrededor de 20 000 genes que codifican proteínas, y muchos de ellos existen no solo en nosotros sino también en organismos mucho más simples. La diferencia entre una célula de la piel, una neurona, una célula muscular y una célula del hígado no surge porque tengan genomas distintos. El material es casi el mismo. Lo que cambia es qué genes se activan, cuáles permanecen en silencio, en qué momento lo hacen y con qué intensidad.

El esquema clásico del funcionamiento del gen se mantiene, pero resulta demasiado corto. Primero, la enzima polimerasa lee un tramo de ADN y crea una molécula de ARN mensajero, o ARNm. A esta etapa se la llama transcripción. Después, el ribosoma lee el ARNm y ensambla la proteína según él. A ese proceso se le llama traducción. En el esquema didáctico todo parece lineal: ADN produce ARN, ARN produce proteína. En la célula viva, entre esos pasos y alrededor de ellos actúan numerosos reguladores que deciden cuándo iniciar la lectura, dónde detenerse, qué versión de ARN conservar y si el proceso llegará a producir proteína.

El inicio de la transcripción depende de los factores de transcripción. Son proteínas que se unen al ADN y ayudan a atraer la polimerasa al gen adecuado. En las bacterias ese sistema suele ser más simple: una señal activa o desactiva un gen concreto, y la proteína reguladora reconoce su región de ADN con bastante fiabilidad. En los organismos complejos la lógica es mucho menos directa. Un factor de transcripción puede actuar de distintos modos en diferentes células. En un contexto ayuda a activar un gen y en otro puede reprimir su actividad. Todo depende de los reguladores vecinos, del tipo de célula, de la etapa de desarrollo y de las señales presentes.

Por eso la regulación génica en humanos se parece menos a un interruptor y más a una decisión tomada tras evaluar múltiples condiciones. La célula considera no una señal aislada, sino la combinación de varias: qué proteínas ya están presentes, qué regiones del ADN son accesibles, qué señales provienen de células vecinas y qué marcas químicas hay en la cromatina. Esa lógica aporta flexibilidad. Un gen puede funcionar débilmente o con fuerza, activarse solo en un tejido concreto, responder al estrés, a la inflamación, al desarrollo embrionario o al cambio del entorno.

Los factores de transcripción con frecuencia se agrupan en los enhancers. Los enhancers, o potenciadores de la transcripción, son regiones del ADN que ayudan a activar genes. El esquema simple se rompe pronto porque hay muchos más enhancers que genes en humanos: la cuenta se mide en cientos de miles, posiblemente en millones. Un gen puede depender de numerosos enhancers y un enhancer puede influir en varios genes. Los biólogos aún no conocen la localización exacta ni el papel de todas esas regiones.

Una dificultad aparte está relacionada con la distancia. Algunos enhancers están cerca del gen o incluso dentro de él, pero otros se encuentran lejos: entre un enhancer y el gen objetivo pueden intercalarse millones de nucleótidos y otros genes. Los nucleótidos son las "letras" químicas, o piezas semejantes a un rompecabezas, que forman el ADN. Surge una pregunta simple: ¿cómo transmite un regulador remoto la señal al gen correcto en vez de a regiones vecinas? Una de las respuestas la aporta la forma tridimensional del genoma.

En la célula el ADN no está dispuesto como una línea recta. Se empaqueta junto con proteínas en la cromatina, que cambia de forma constantemente. Cuando la célula no se divide, la cromatina no se parece a la cromosoma en forma de X del libro de texto escolar. Está desplegada, doblada, organizada en bucles y en regiones de distinta densidad. Los enhancers distantes pueden quedar cerca del gen objetivo no por la distancia lineal a lo largo del ADN, sino por el espacio. Un bucle de cromatina aproxima regiones que en el mapa lineal del genoma están muy separadas.

En la formación de esos bucles participa el complejo proteico cohesina. A menudo se le describe como un motor molecular: se desplaza a lo largo del ADN y tira del bucle hasta que las regiones deseadas quedan lo bastante próximas. Antes se imaginaba que, al aproximarse, el enhancer y el gen formaban una máquina molecular estable. Hoy la imagen es más suave y dinámica. Proteínas reguladoras y regiones del ADN tienden a agruparse en condensados temporales donde los componentes interactúan rápido, de forma débil y no siempre estrictamente selectiva.

Los nodos transcripcionales cambian constantemente. Incluso dos células del mismo tipo en el mismo momento pueden disponer la cromatina, formar bucles y ensamblar complejos reguladores de forma ligeramente distinta. Por eso no basta describir el genoma solo por su secuencia de letras. Hay que considerar cómo se pliega esa secuencia en el espacio, qué regiones están abiertas, cuáles ocultas y qué moléculas se sitúan cerca.

La densidad del empaquetamiento también decide mucho. En la cromatina hay zonas más compactas que se denominan heterocromatina. El ADN en esas regiones es menos accesible para los factores de transcripción y los genes suelen permanecer silenciosos. Las zonas más laxes y abiertas se llaman eucromatina. Allí es más fácil que las proteínas reguladoras accedan al ADN, por eso los genes suelen ser más susceptibles de ser leídos. La célula reconfigura continuamente ese empaquetamiento, abriendo unas regiones y cerrando otras.

La organización tridimensional del genoma incluye otro nivel: los dominios topológicamente asociados, o TADs. Son regiones de la cromatina dentro de las cuales las porciones de ADN contactan con mayor frecuencia entre sí. Los genes dentro de un mismo dominio pueden activarse o desactivarse de forma coordinada, ayudando a la célula a mantener el conjunto de programas activos necesario. Esos conjuntos difieren entre tipos celulares: piel, cerebro y músculo usan el mismo genoma pero seleccionan grupos diferentes de genes.

Al funcionamiento de la cromatina influyen las marcas epigenéticas. Son pequeñas modificaciones químicas en el ADN o en las histonas, las proteínas alrededor de las cuales se enrolla el ADN. Algunas marcas afectan las propiedades eléctricas de las histonas y hacen que la cromatina se empaquete más o menos. Como resultado, una misma región de ADN puede quedar accesible o cerrada. Al dividirse la célula una parte de las marcas epigenéticas se copia, de modo que la memoria celular se transmite a las células hijas. Pero aún no existe un código epigenético rígido y universal: el significado de cada marca depende del lugar, del momento y de señales cercanas.

Incluso después de la aparición del ARNm la regulación no termina. La célula puede decidir que la proteína codificada por esa instrucción no es necesaria en ese momento. Intervienen los ARN no codificantes. A diferencia del ARN mensajero, esas moléculas no sirven de plantilla para ensamblar una proteína, pero cumplen funciones propias. Muchos participan en el control de los genes.

Un ejemplo son los microARN. Estas moléculas cortas pueden guiar enzimas especiales hacia un ARNm concreto para degradarlo o modificarlo químicamente. Tras esa intervención el ribosoma ya no podrá ensamblar la proteína. Los microARN tampoco funcionan según la regla un regulador — un objetivo. Un microARN puede afectar a muchos ARNm y un ARNm puede estar regulado por varios microARN. La célula obtiene un punto de control adicional: la transcripción ya se produjo, pero la producción de proteína todavía se puede detener o atenuar.

Otro nivel aparece con el empalme alternativo. El ARN recién transcrito contiene exones e intrones. Los exones llevan fragmentos de la futura instrucción proteica; los intrones deben eliminarse. Ese trabajo lo realiza el spliceosoma, un complejo molecular formado por proteínas y ARN no codificantes. El spliceosoma corta los intrones y une los exones, pero puede hacerlo de manera distinta según el tipo de célula.

Debido al empalme alternativo un mismo gen puede producir distintas versiones de una proteína, o isoformas. A veces las diferencias entre ellas cambian notablemente la función. Por ejemplo, una versión de una proteína reguladora puede potenciar la actividad de genes y otra puede reprimirla. Por eso incluso conocer la secuencia de ADN original y el hecho de la transcripción no garantiza entender el resultado final. Es necesario saber cómo la célula procesó el ARN tras la lectura.

Todos estos niveles convierten al genoma en un sistema autorregulado. Factores de transcripción, ARN no codificantes, enzimas que modifican la cromatina y otros participantes de la regulación están ellos mismos codificados o controlados por el genoma. Se forma un ciclo: el genoma produce moléculas que luego cambian la accesibilidad y la actividad del propio genoma. Al mismo tiempo, el sistema tiene en cuenta el estado previo de la célula, las señales de los vecinos, las condiciones ambientales y las necesidades actuales del tejido.

La evolución no construye un sistema desde cero siguiendo un plan claro, sino que reutiliza constantemente piezas ya existentes. Con el aumento de la complejidad de los organismos las células necesitaron elegir con más precisión qué genes activar en distintos tejidos y etapas del desarrollo. Para eso el genoma acumuló cada vez más regiones reguladoras. Cuando los enhancers ya no cabían junto a los genes necesarios, los contactos a distancia, los bucles de cromatina y los TADs adquirieron mayor importancia.

Una carga adicional la crearon los transposones: elementos genéticos móviles. Parte de esas secuencias provino de virus parásitos y, con el tiempo evolutivo, se insertó en muchos lugares de los cromosomas. Los transposones pueden copiarse y moverse por el genoma. Las células tuvieron que desarrollar barreras regulatorias para evitar que ARN adicionales o dañinos se tradujeran en proteínas y para impedir que regiones peligrosas interfieran con el funcionamiento normal.

En ese contexto los modelos genómicos de inteligencia artificial resultan a la vez útiles y limitados. Evo 2, Genos, AlphaGenome y sistemas similares se entrenan con grandes conjuntos de datos genómicos. Los biólogos los usan para predecir cómo los cambios en el ADN pueden afectar procesos celulares, rasgos del organismo o el riesgo de enfermedad. En esos modelos las relaciones entre secuencia y resultado se extraen de ejemplos conocidos, y muchos niveles de regulación permanecen en una caja negra.

Para tareas prácticas el enfoque puede aportar mucho valor. El modelo puede hallar patrones que el humano no detecta manualmente y evaluar rápidamente variantes de mutaciones. Pero el genoma no opera como una función simple: no se introduce una secuencia y se obtiene un rasgo preciso en la salida. En el resultado influyen el tipo celular, la edad, el desarrollo del organismo, la nutrición, el entorno, el microbioma, la cultura, los estados previos de los tejidos y la forma física de la cromatina. Una parte significativa de la información necesaria no está codificada en la secuencia lineal del ADN.

Por eso la IA puede ayudar a los genetistas, pero difícilmente sustituirá la comprensión de los principios. Un modelo puede predecir una relación, pero no necesariamente explicar por qué una región reguladora actuó precisamente en esa célula y en ese momento. Para entender el funcionamiento del genoma los biólogos deberán combinar datos sobre la secuencia de ADN, el empaquetamiento tridimensional de la cromatina, las marcas epigenéticas, la regulación por ARN, las señales externas y la historia de la célula.

El genoma no se parece al plano de un edificio ni funciona como un programa que un procesador ejecuta línea por línea. Está más cerca de un sistema sensible de control dentro de la célula: recibe señales, reconfigura el empaquetamiento del ADN, cambia el acceso a los genes, corrige errores, suprime elementos peligrosos y selecciona las proteínas adecuadas según el contexto. Las tecnologías humanas no tienen un análogo directo de ese sistema, por eso las comparaciones con código, ordenador o instrucciones solo ayudan en el nivel más superficial.

El cambio más importante en genómica radica precisamente en esto. La secuencia del ADN sigue siendo la base de la herencia, pero por sí sola no explica cómo a partir de un genoma surgen distintas células, tejidos, respuestas y enfermedades. La vida funciona no solo mediante el texto de los genes, sino también por las formas de leer, excluir, empaquetar, editar y temporalmente silenciar ese texto. Son esas capas las que actualmente impiden reducir el genoma a una instrucción simple y, al mismo tiempo, ofrecen la oportunidad de entender cómo la célula toma decisiones a nivel molecular.