Normalización de secuencias de ARN de diferentes maneras

El primer paso en el flujo de trabajo del análisis diferencial de genes es la normalización del recuento, que es necesaria para una comparación precisa de la expresión genética entre muestras.

RNA-Seq (abreviatura de RNA sequencing) es un tipo de experimento que nos permite medir la expresión génica. El paso de secuenciación produce una gran cantidad (decenas de millones) de secuencias de fragmentos de ADNc, llamadas lecturas, y cada lectura representa una porción de alguna molécula de ARN en la muestra.

Luego asignamos cada lectura ("mapa" ) a una isoforma, y ​​calcular cuántas lecturas hay para cada isoforma (isoforma: diferentes versiones de la proteína que pueden considerarse el mismo gen).

En igualdad de condiciones, cuanto más abundante sea una isoforma, más probable será que se secuencian fragmentos de esa isoforma. Por lo tanto, podemos pensar que los recuentos de lectura representan la abundancia de isoformas.

1. Profundidad de secuenciación La profundidad de secuenciación es necesaria para comparar la expresión genética entre muestras. En el siguiente ejemplo, cada gen parece expresarse el doble en la muestra A en comparación con la muestra B, pero esto es el resultado de duplicar la profundidad de secuenciación de la muestra A.

2. Longitud del gen Para comparar la expresión de diferentes genes en una misma muestra, es necesario considerar la longitud del gen. En este ejemplo, el gen X y el gen Y tienen niveles de expresión similares, pero el número de lecturas asignadas al gen X será mucho mayor que el número de lecturas asignadas al gen Y porque el gen X es más largo.

3. Composición del ARN Hay algunos genes expresados ​​de manera muy diferencial entre muestras. El número de genes expresados ​​entre muestras es diferente o la presencia de contaminación afectará ciertos tipos de métodos de estandarización. Se recomienda tener en cuenta la composición del ARN para comparar con precisión la expresión entre muestras, lo que es especialmente importante al realizar análisis de expresión diferencial

En este ejemplo, si normalizamos cada muestra dividiéndola por el número total de recuentos, entonces el gen DE distorsionará en gran medida los recuentos, ya que el gen DE representa la mayoría de los recuentos en la muestra A, pero no en la muestra B. La mayoría de los demás genes de la muestra A se dividirán por el total mayor y parecerán estar menos expresados ​​que esos mismos genes de la muestra B.

Si bien la normalización es fundamental para el análisis de expresión diferencial, también es necesaria para el análisis exploratorio de datos, la visualización de datos y siempre que explore o compare recuentos entre muestras o dentro de ellas.

Por ejemplo, en la tabla anterior, aunque los valores de recuento de RPKM son los mismos, la muestraA tiene una relación de recuento asociada con XCR1 mayor (5,5/1.000.000) que la muestraB (5,5/1.500.000). Por lo tanto, no podemos comparar directamente los recuentos de XCR1 (o cualquier otro gen) entre la muestra A y la muestra B porque el número total de recuentos normalizados difiere entre las muestras.