Notas del Curso de Biología 10-Identificación de Variaciones

Después de permanecer en casa durante más de dos meses, ya es primavera cuando me doy cuenta. Tal vez esté más cerca del día de volver a la escuela...

La variación se refiere a la. datos de secuenciación reales Diferencias con los genomas de referencia especificados internacionalmente. En realidad, mucha variación es la única responsable de la diversidad humana. Las mutaciones, son aquellas que están asociadas a una enfermedad.

Por ejemplo: si una determinada posición en el archivo del genoma humano de referencia especificado por ENSEMBL y otros es AAAAA, y luego la secuencia obtenida por la secuenciación real de una persona es AGCAA, entonces, en comparación con el genoma de referencia, esta persona Tiene 2 posiciones variantes. Para la segunda posición, si nos fijamos en todas las secuenciaciones conocidas, la mayoría de las personas son G, lo que significa que hay un problema con el genoma de referencia y esta variación no puede denominarse mutación. Para la tercera posición, si nos fijamos en todas las secuencias conocidas, la mayoría de las personas son A, y resulta que hay una persona que no es A, pero es un paciente, entonces esta mutación es una mutación.

SNP (polimorfismo de un solo nucleótido): polimorfismo de un solo nucleótido. Polimorfismo causado por variación de un solo nucleótido (sustitución, inserción o eliminación) en la misma posición en la secuencia de ADN genómico entre individuos. Los SNP están ampliamente distribuidos y densamente distribuidos en el genoma humano, con un número total de más de 107. En promedio, hay un SNP cada 300 pb (algunos dicen 1 kbp). O llamado SNV de variación de un solo nucleótido.

INDEL (inserción-eliminación): inserción y eliminación. Inserción o eliminación de pequeños fragmentos (gt; 50 pb) en el genoma.

CNV (variación del número de copias): Variación del número de copias del genoma. Grandes segmentos de ADN en el genoma forman números de copias anormales. Por ejemplo, el número de un gen en una cromátida de un cromosoma es 1, pero durante el proceso de replicación del cromosoma, el número de gen en la cromátida cambia de 1 a 2 o n después de que se completa la replicación. Ocurre con mucha más frecuencia que las variaciones estructurales cromosómicas y el número total de nucleótidos cubiertos en todo el genoma supera con creces el número total de SNP.

SV (variación de estructura): Variación estructural. Inserción y eliminación de grandes segmentos de cromosomas, inversión y transversión de una determinada región dentro del cromosoma y recombinación entre dos cromosomas.

Generalmente sólo se analiza SNP, y otros tipos de análisis de variación son difíciles o inexactos.

Los fragmentos de ADN AAGCCTA y AAGCTTA de dos individuos diferentes son alelos. Casi todos los sitios SNP comunes tienen sólo dos alelos.

En el cuerpo humano, la probabilidad de aparición de SNP es aproximadamente 0,1, es decir, puede haber un SNP por cada 1.000 pares de bases (alta densidad). Se estima que los SNP que tienen un impacto importante en el desarrollo de enfermedades y el tratamiento farmacológico representan sólo una pequeña fracción de los millones de SNP.

La distribución de los sitios SNP es desigual y es más común en secuencias no transcritas que en secuencias transcritas. Polimorfismos de un solo nucleótido en la región codificante: los SNP codificantes (cSNP) también tienen dos tipos: sinónimos y no sinónimos. Los SNP no sinónimos cambiarán la secuencia de aminoácidos de la proteína. Los SNP en regiones no codificantes de genes y regiones intergénicas aún pueden afectar procesos como la unión y el empalme de factores de transcripción.

Desde un punto de vista evolutivo, el SNP tiene un grado considerable de estabilidad. Incluso si se transmite de generación en generación, los cambios provocados por el SNP no son significativos, por lo que puede usarse para estudiar la evolución. de poblaciones.

HISAT2 es un software que utiliza un algoritmo BWT mejorado para la comparación de secuencias. Desarrollado por el Centro de Biología Computacional de la Universidad Johns Hopkins (CCB en JHU), es una versión mejorada de TopHat que es 50 veces más rápida. Utilizando el proceso HISAT2 StringTie, los datos de secuenciación del transcriptoma se pueden analizar rápidamente para obtener la expresión de cada gen y transcripción.

En primer lugar, es necesario construir un índice del genoma de referencia para el siguiente paso de comparación. HISAT2 proporciona dos scripts para extraer sitios de empalme y posiciones de exones de archivos GTF de anotación del genoma. En función de estas características, la comparación de lecturas de RNA-Seq se puede hacer más precisa. Luego realice el mapeo de lecturas.

Resultados de alineación:

El formato de datos SAM (alineación/mapeo de secuencia) es actualmente el formato estándar para almacenar datos de alineación en secuenciación de alto rendimiento. BAM es el formato binario de SAM. Utilice samtools para convertir archivos sam en archivos bam y ordenarlos.

Archivo SAM:

El formato vcf (Variant Call Format) es un formato estándar para almacenar sitios variantes y se utiliza para registrar variantes (SNP/InDel). BCF es el archivo binario de VCF.

archivo de estadísticas stats:

/javascript" src="/style/tongji.js">