Test Bioinformática
![]() |
![]() |
![]() |
Título del Test:![]() Test Bioinformática Descripción: Test Bioinformática Teoría y Práctica |




Comentarios |
---|
NO HAY REGISTROS |
Una de las siguientes asociaciones de personas y conceptos carece de fundamento. a. Henikoff y los métodos iterativos de alineamiento múltiple. b. Richard Bellman y los métodos basados en programación dinámica. (tema 3). c. Feng y Doolittle y los métodos progresivos de alineamiento múltiple. (tema 4 ). d. Smith y Waterman y su algoritmo para realizar alineamientos locales. ( tema 3). Sólo una de las siguientes afirmaciones acerca de las técnicas de diseño de algoritmos es verdadera: a. Para hallar la solución a un problema, los algoritmos de búsqueda exhaustiva examinan primero las alternativas más factibles. b. Los algoritmos de ramificación y acotación (poda) seleccionan, en cada etapa, las soluciones parciales cuyo coste excede al de la mejor solución hallada hasta el momento. c. Los algoritmos ávidos eligen, en cada paso, la solución que ofrece el beneficio más obvio e inmediato. d. Los algoritmos ávidos siempre conducen a la solución correcta del problema, aunque a costa de un mayor tiempo de ejecución. 3. Sólo una de las siguientes aportaciones al campo de la Bioinformática no se debe a Margaret Dayhoff: a. El método de cálculo de las matrices PAM. b. El programa COMPROTEIN, para reconstruir la secuencia de una proteína a partir de la de sus fragmentos. c. La fundación del GenBank. d. La publicación del libro “Atlas of Protein Sequence and Structure”, primera base de datos de secuencias. c. La fundación del GenBank. 1. Sólo una de las siguientes afirmaciones acerca de los lenguajes de programación es verdadera: a. El pseudocódigo es menos flexible que los lenguajes de programación, por su sintaxis rígida y su repertorio limitado de comandos. b. Antes de ejecutar un programa escrito en lenguaje C, debemos compilarlo mediante el uso de un programa intérprete. c. Perl y Python son lenguajes de programación ampliamente utilizados en Bioinformática, aunque su ejecución suele ser más lenta porque requieren del uso de un intérprete. d. Los argumentos de un programa pueden ser de varios tipos: de asignación, aritméticos y condicionales. 1. Un investigador debe elegir un algoritmo para analizar secuencias biológicas. Utilizando sus conocimientos sobre la notación asintótica, decide descartar el más lento de los algoritmos disponibles. El algoritmo descartado es de orden: a. O(n!). b. O(n log n). c. O(n2). d. O(100n). 1. Solo una de las siguientes formas de representar un algoritmo es falsa. a. Mediante lenguajes de programación. b. Mediante lenguaje natural. c. Mediante el método de unión al vecino. d. Mediante pseudocódigo. 7. Sólo una de las siguientes afirmaciones acerca de las técnicas de diseño de algoritmos es falsa: a. Los algoritmos basados en programación dinámica conducen a la solución matemáticamente correcta del problema. b. Los algoritmos de ramificación y acotación (poda) descartan, en cada etapa, las soluciones parciales cuyo coste excede al de la mejor solución hallada hasta el momento. c. Los algoritmos ávidos siempre conducen a la solución correcta del problema en un menor tiempo de ejecución. d. Para hallar la solución a un problema, los algoritmos de búsqueda exhaustiva examinan sistemáticamente todas las alternativas posibles. 1. Sólo uno de los siguientes programas permite comparar las 6 traducciones de una secuencia de nucleótidos con las secuencias de una base de datos de proteínas: a. blastn. b. tblastn. c. blastx. d. tblastx. 2. Una de las siguientes bases de datos no participa en el consorcio INSDC: a. Unigene. b. GenBank. c. ENA (European Nucleotide Archive). d. DDBJ (DNA DataBank of Japan). 1. Sólo una de las siguientes aportaciones al campo de la Bioinformática no se debe a Margaret Dayhoff: a. El método de cálculo de las matrices PAM. b. El programa COMPROTEIN, para reconstruir la secuencia de una proteína a partir de la de sus fragmentos. c. La fundación del GenBank. d. La publicación del libro “Atlas of Protein Sequence and Structure”, la primera base de datos de secuencias. c. La fundación del GenBank. 4. Solo una de las siguientes bases de datos es primaria: a. UniProt. b. Unigene. c. HomoloGene. d. GenBank. 5. En cuanto a alineamiento de secuencias aplicado a búsqueda en bases de datos (Señala la correcta): a. Uno de los métodos heurísticos es el programa BLAST y su variante BLAST 1 genera alineamientos con huecos. b. El programa Fast P genera alineamientos con huecos. c. El programa Fast A procede de Fast P, pero se le han introducido mejoras. d. Fast A es un programa no heurístico. 6. Acerca de las bases de datos biológicos primarias, solo una de estas afirmaciones es verdadera: a. No contienen información redundante. b. No suelen contener errores, porque la calidad de los datos depositados es controlada sistemáticamente. c. El autor de cada registro mantiene habitualmente el privilegio de actualizarlo. d. Pueden contener errores de anotación, pero nunca secuencias contaminantes. 7. Acerca del patrón (de PROSITE) M-x(3)-H-[YLS]*-{YLS}(3)> podemos afirmar que: a. Permitirá detectar la secuencia MIVKHYYYYCTK, pero no la secuencia MIVKHCTKYLL. b. Permitirá detectar la secuencia MIVKHCTKYLL, pero no la secuencia MIVKHYYYYCTK. c. Permitirá detectar las secuencias MIVKHYYYYCTK y MIVKHCTKYLL. d. Ninguna de las respuestas anteriores es correcta. Una matriz de tipo BLOSUM asigna una puntuación de -4 (“menos cuatro”) unidades de medio bit al alineamiento de un residuo de W (triptófano) con otro de P (prolina). Esto indica que: a. es 4 veces más probable que W y P se encuentren alineados debido a homología que debido al azar. c. es 16 veces más probable que W y P se encuentren alineados debido al azar que debido a homología. b. es 4 veces más probable que W y P se encuentren alineados debido al azar que debido a homología. d. es 8 veces más probable que W y P se encuentren alineados debido a homología que debido al azar. Sólo una de las siguientes afirmaciones acerca de la distancia de Hamming es verdadera: a. Equivale al número de sustituciones, inserciones y deleciones necesarias para convertir a una secuencia en la otra. b. También se denomina distancia de edición (edit distance). c. Sólo puede determinarse si ambas secuencias poseen la misma longitud. d. También se denomina distancia de Levenshtein. Una de las siguientes asociaciones de personas y conceptos carece de fundamento: a. Henikoff y los métodos iterativos de alineamiento múltiple. b. Richard Bellman y los métodos basados en programación dinámica. c. Feng y Doolittle y los métodos progresivos de alineamiento múltiple. d. Smith y Waterman y su algoritmo para realizar alineamientos locales. Sólo una de las siguientes afirmaciones acerca del algoritmo de Needleman-Wunsch es falsa: a. Si se utiliza un sistema de penalización lineal, su tiempo de ejecución es proporcional al producto de las longitudes de ambas secuencias. b. Rinde la solución óptima, que es siempre la misma independientemente del esquema de puntuación elegido. c. Las casillas de la matriz de puntuaciones sólo puede rellenarse tras calcular las puntuaciones de las casillas adyacentes (las situadas arriba, a la izquierda, y en diagonal arriba a la izquierda). d. Utiliza una estrategia de programación dinámica para encontrar el alineamiento global óptimo entre 2 secuencias. La imagen muestra cuatro casillas que forman parte de la matriz de un alineamiento global de 2 secuencias. Asumiendo que se utiliza la matriz BLOSUM62 (véase tabla anexa) y un sistema de penalización lineal, en el que cada espacio es penalizado con -8 puntos, la casilla vacía deberá rellenarse con una puntuación de: a. 0. b. -8. c. -2. d. 6. Acerca de los distintos métodos utilizados para penalizar la presencia de inserciones y deleciones en un alineamiento de dos secuencias, sólo una de las siguientes afirmaciones es falsa: a. Penalizaciones mayores producen alineamientos compactos, con un menor número de inserciones y deleciones. b. Los espacios suelen aparecer agrupados cuando se utiliza un sistema de penalización lineal, en el que la apertura de cada hueco (gap opening) se penaliza más que su extensión. c. La penalización es siempre la misma, independientemente de la longitud del hueco, en los sistemas de penalización constante. d. En los sistemas de penalización uniforme, la penalización de un hueco es directamente proporcional a su longitud. Acerca del cálculo de una matriz de tipo BLOSUM62 utilizando el alineamiento múltiple de la figura, sólo una de las siguientes afirmaciones es correcta: a. Las secuencias 1, 2 y 3 pertenecen al mismo grupo. b. Existen dos grupos: el formado por las secuencias 1 y 2, y el formado por la secuencia 3. c. Existen dos grupos: el formado por las secuencias 2 y 3, y el formado por la secuencia 1. d. Existen tres grupos, cada uno con una sola secuencia. Acerca del cálculo de las matrices PAM, sólo una de las siguientes afirmaciones es falsa: a. Las matrices de puntuación PAM-n se calculan a partir de las matrices de probabilidades PAM-n. b. Para obtener la matriz de probabilidades PAM120 se multiplica la matriz de probabilidades PAM1 por sí misma 120 veces. c. Una matriz de probabilidad PAM1 describe cómo varíala frecuencia de cada aminoácido tras un período de tiempo suficiente para que dos proteínas difieran en el 1% de sus aminoácidos. d. Una matriz de probabilidad PAM80 describe cómo varía la frecuencia de cada aminoácido tras un período de tiempo suficiente para que dos proteínas difieran en el 80% de sus aminoácidos. Sólo una de las siguientes aportaciones al campo de la Bioinformática no se debe a Margaret Dayhoff: a. El método de cálculo de las matrices PAM. b. El programa COMPROTEIN, para reconstruir la secuencia de una proteína a partir de la de sus fragmentos. c. La fundación del GenBank. d. La publicación del libro “Atlas of Protein Sequence and Structure”, la primera base de datos de secuencias. Uno sólo de los siguientes problemas no se resuelve mediante una variante del algoritmo de Needleman-Wunsch: a. Identificación de la subsecuencia común más larga. b. El problema del turista en Manhattan (hallar el recorrido que permite visitar el mayor número de atracciones turísticasrealizando sólo desplazamientos hacia el sur y hacia el este). c. Medida de la distancia de Levenshtein. d. Medida de la distancia de Hamming. Las matrices de puntos nos permiten identificar: a. Inserciones y deleciones. b. Duplicaciones dentro de una secuencia. c. Satélites. d. Todas son ciertas. La matriz BLOSUM62 asigna una puntuación de O ("cero") unidades de medio bit al alineamiento de un residuo de S (serina) con otro de G (glicina). Esto indica que: a. Es tan probable que S y G se encuentren alineados debido al azar como a homología. b. Es 62 veces más probable que S y G se encuentren alineados debido al azar que debido a homologia. c. Es 62 veces más probable que S y G se encuentren alineados debido a homología que debido al azar. d. Ninguna de las respuestas anteriores es correcta. La matriz de puntos (dotplot) de la figura corresponde al alineamiento de una secuencia consigo misma. Con esta información, podemos afirmar que dicha secuencia: a. Es palindrómica. b. Contiene cinco repeticiones en tándem de la misma secuencia. c. Contiene tres repeticiones en tándem de un trinucleótido. d. Contiene las cuatro bases (A,T,C y G) en igual proporción. La matriz de puntos (dotplot) de la figura corresponde al alineamiento de una secuencia de 9 nucleótidos y su complementaria. Con esta información, podemos afirmar que dicha secuencia: a. Contiene tres repeticiones en tándem de un trinucleótido. b. Contiene las cuatro bases en igual proporción. c. Contiene las cuatro bases, aunque en proporciones distintas. d. Es palindrómica. Acerca de los métodos utilizados para penalizar la presencia de inserciones y deleciones en un alineamiento de dos secuencias, sólo una de las siguientes es falsa: a. Los espacios suelen aparecer agrupados cuando se utiliza un sistema de penalización lineal, en el que la apertura de casa hueco (gap opening) se penaliza más que su extensión. b. En los sistemas de penalización uniforme, la penalización de un hueco es directamente proporcional a su longitud. c. Penalizaciones mayores producen alineamientos compactos, con un menor número de inserciones y deleciones. d. La penalización es siempre la misma, independientemente de la longitud del hueco, en los sistemas de penalización constante. Acerca del cálculo de las matrices PAM, sólo una de las siguientes afirmaciones es verdadera: a. Una matriz de probabilidad PAM80 describe cómo varía la frecuencia de cada aa tras un periodo de tiempo suficiente para que dos proteínas difieran en el 80% de sus aa. b. Para obtener la matriz de puntuación PAM120 se multiplica la matriz de puntuación PAM1 por sí misma 120. c. Una matriz de probabilidad PAM1 describe cómo varia la frecuencia de cada aa tras un periodo de tiempo suficiente para que dos proteínas difieran en el 1% de sus aminoácidos. d. Las matrices de probabilidad PAAM-n derivan de las matrices de puntuación PAM-n. Acerca del algoritmo utilizado por ClustalW, solo una es verdadera: a. Se determina la distancia (igual a la fracción de aminoácidos idénticos alineados) para cada pareja de secuencias. b. El árbol guía se construye utilizando el método de unión al vecino (neighbor-joining). c. ClustalW utiliza métodos basados en programación dinámica para realizar alineamientos de una secuencia a un perfil, pero no para realizar alineamientos de un perfil a otro perfil. d. ClustalW utiliza una única matriz de sustitución, que se selecciona en función de la distancias del árbol guía. Solo una de las siguientes asociaciones entre programas y los métodos que utilizan carece de fundamento: a. MUSCLE y los métodos iterativos de alineamiento múltiple. (T4). b. T-Coffee y los métodos de alineamiento múltiple basados en consistencia. (T4). c. Bowtie y los métodos de alineamiento basados en arboles de sufijos. (T7). d. Velvet y los métodos de ensamblaje basados en grafos de de Bruijn.(T7). Solo uno de estos métodos no es viable para un alineamiento múltiple de secuencias: a. Programación dinámica. b. Métodos progresivos. c. Métodos iterativos. d. Métodos basados en consistencia. 4. Acerca del cálculo de una matriz de tipo BLOSUM62 utilizando el alineamiento múltiple de la figura, sólo una es correcta: a. Las secuencias 1, 2 y 3 pertenecen al mismo grupo. b. Existen dos grupos: el formado por las secuencias 1 y 2, y el formado por la secuencia 3. c. Existen dos grupos: el formado por las secuencias 2 y 3, y el formado por la secuencia 1. d. Existen tres grupos, cada uno con una sola secuencia. 1. Una de las siguientes asociaciones de personas y conceptos carece de fundamento: a. Henikoff y los métodos iterativos de alineamiento múltiple. (T3). b. Richard Bellman y los métodos basados en programación dinámica. (T3). c. Feng y Doolittle y los métodos progresivos de alineamiento múltiple. (T4). d. Smith y Waterman y su algoritmo para realizar alineamientos locales. (T3). 6. Para una posición concreta de un alineamiento múltiple de secuencias de proteína, la máxima incertidumbre (entropía de Shannon) posible es: a. 2 bits. b. 2,99 bits. c. 4,32 bits. d. 1 byte (8 bits). En un experimento de biología sintética, se ha obtenido ADN formado por 16 tipos distintos de nucleótidos, que pueden formar 8 tipos de pares de bases. Para una posición concreta de un alineamiento múltiple de estas secuencias, la máxima incertidumbre (entropía de Shannon) será: a. 8 bits (1 byte). b. 2 bits. c. 4 bits. d. 3 bits. Sólo uno de los siguientes programas permite comparar las 6 traducciones de una secuencia de nucleótidos con las secuencias de una base de datos de proteínas: a. blastn. b. tblastn. c. blastx. d. tblastx. Sólo una de las siguientes afirmaciones acerca del programa FASTP es verdadera: a. FASTP utiliza un algoritmo heurístico basado en la observación de que las inserciones y deleciones ocurren con mayor frecuencia que las sustituciones de aminoácidos. b. Para identificar alineamientos con puntuaciones altas, FASTP busca k-meros (fragmentos de longitud k) que estén presentes en ambas secuencias y presenten el mismo desfase. c. Al puntuar los alineamientos detectados, FASTP penaliza las sustituciones y la presencia de inserciones y deleciones. d. Para secuencias de aminoácidos, la tabla de búsqueda utilizada por FASTP contiene k20 entradas. Acerca del programa BLAT, sólo una de las siguientes afirmaciones es falsa: a. BLAT es el acrónimo de BLAST-Like Alignment Tool. b. El programa sólo está disponible para secuencias de nucleótidos. c. La tabla de búsqueda contiene una lista de k-meros establecida a partir de un conjunto de k-meros no solapantes de la(s) secuencia(s) de la base de datos. d. Utiliza valores elevados de w (el tamaño por defecto de los k-meros es w=28), por lo que requiere menos memoria que BLAST. Para estudiar las relaciones filogenéticas existentes entre 7 secuencias, decidimos buscar exhaustivamente el árbol con raíz más parsimonioso. El número de topologías posibles que deberemos evaluar es: a. 5040. b. 105. c. 10395. d. 945. Acerca del método UPGMA, utilizado en la construcción de árboles filogenéticos, sólo una de las siguientes afirmaciones es verdadera: a. Requiere que las distancias sean ultramétricas y la tasa de evolución sea constante. b. Se aplica cuando las distancias no son ultramétricas pero sí aditivas. c. Requiere que las distancias sean aditivas y la tasa de evolución sea constante. d. Se aplica cuando las distancias son ultramétricas pero la tasa de evolución no es constante. Acerca del algoritmo utilizado por ClustalW, sólo una de las siguientes afirmaciones es verdadera: a. Se determina la distancia (igual a la fracción de aminoácidos idénticos alineados) para cada pareja de secuencias. b. El árbol guía se construye utilizando el método de unión al vecino (neighbor-joining). c. ClustalW utiliza métodos basados en programación dinámica para realizar alineamientos de una secuencia a un perfil, pero no para realizar alineamientos de un perfil a otro perfil. d. ClustalW utiliza una única matriz de sustitución, que se selecciona en función de la distancias del árbol guía. Acerca de los distintos métodos para construir árboles filogenéticos, sólo una de las siguientes afirmaciones es falsa: a. En los métodos de máxima parsimonia, el árbol óptimo es el que explica la evolución de las secuencias con menos mutaciones. b. Para construir un árbol mediante un método fenético es necesario inferir el estado de los caracteres ancestrales, representados por los distintos vértices internos. c. Los árboles producidos por los métodos fenéticos se denominan dendrogramas. d. En los métodos de máxima verosimilitud es necesario estimar la probabilidad de los distintos tipos de mutaciones. 5. Sólo uno de los siguientes algoritmos y/o programas utiliza iteraciones para producir un resultado mejorado: a. Algoritmo de Feng-Doolittle. b. Algoritmo de Fitch. c. Algoritmo de BLAST. d. Algoritmo de Barton-Sternberg. 6. Sólo uno de los siguientes árboles filogenéticos sin raíz, representados mediante notación Newick, posee una topología diferente a la del resto: a. ((((A,C),(B,F)),E),D);. b. ((((A,C),(D,E)),F),B);. c. ((C,(A,(E,D))),(B,F));. d. ((((D,E),(C,A)),B),F);. 7. En la primera fase del algoritmo de Fitch, se recorre el árbol desde las hojas hacia la raíz. El conjunto de estados posibles Ri de un vértice interno i está determinado por los estados Rj y Rk (de sus vértices hijos j y k, respectivamente) según la siguiente regla: a. Ri = Rj U Rk si Rj ∩ Rk = Ø. Ri = Rj ∩ Rk en caso contrario. b. Siempre Ri = Rj U Rk. c. Ri = Rj ∩ Rk si Rj U Rk ≠Ø. Ri = Rj U Rk en caso contrario. d. Siempre Ri=Rj ∩ Rk. 1. Solo una de las siguientes aristas permite conectar las secuencias de los vértices S1 y S2 en un grafo de De Bruijn bidirigido: > Secuencia del vértice S1: TCGGATTCGGCAG > Secuencia del vértice S2: ATCGGATTCGGCA: a. S1 <-----> S2. b. S1 >-----> S2. c. S1 <-----< S2. d. S1 >-----< S2. 2. Sólo una de las siguientes aristas permite conectar las secuencias de los vértices 1 y 2 en un grafo de Brujin bidirigido (siendo la secuencia del vértice s1: ATCGGATTCGTATCCA y la secuencia del vértice s2: GTGGATCGAATCCGA) (dejarosla porq no hay ninguna verdadera). a. s1>---->s2. b. s1<---->s2. c. s1>----<s2. d. s1<----<s2. 3. Sólo una de las siguientes asociaciones entre programas y los métodos que utilizan carece de fundamento: a. MUSCLE y los métodos iterativos de alineamiento múltiple. b. T-Coffee y los métodos de alineamiento múltiple basados en consistencia. c. Bowtie y los métodos de alineamiento basados en árboles de sufijos. d. Velvet y los métodos de ensamblaje basados en grafos de de Bruijn. 4. Acerca de los recorridos que pueden realizarse a través de un grafo, sólo una de las siguientes afirmaciones es verdadera: a. Los recorridos eulerianos visitan cada vértice una sola vez. b. No existen algoritmos capaces de encontrar un recorrido euleriano a través de un grafo en tiempo lineal (se trata de un problema NP-completo). c. Los recorridos hamiltonianos pueden visitar cada vértice más de una vez. d. Algunos programas basados en el paradigma “solapamiento-disposición-consenso” ensamblan el genoma buscando un recorrido hamiltoniano a través del grafo de solapamientos. 5. Acerca del análisis de los resultados de un experimento de ARN-Seq, sólo una de las siguientes afirmaciones es falsa: a. El primer paso consiste en alinear las lecturas a una secuencia de referencia, para lo que se pueden emplear programas basados en la transformación de Burrows-Wheeler. b. Para un gen dado, el valor de RPKM equivale al número de lecturas alineadas a la secuencia de referencia de dicho gen dividido por el número de millones de lecturas secuenciadas. c. Al comparar estadísticamente los niveles de expresión en dos tejidos distintos, debemos controlar el número excesivo de falsos positivos. d. Los métodos de agrupamiento jerárquico pueden utilizarse para identificar genes y/o muestras con patrones de expresión parecidos. 6. Sólo una de las siguientes características del programa Velvet es falsa: a. Permite ensamblar de novo la secuencia de un genoma. b. Realiza simultáneamente dos recorridos a través del grafo, uno por cada una de las cadenas complementarias. c. Utiliza una estrategia basada en grafos de solapamientos y en el paradigma solapamiento-disposición-consenso. d. Cada vértice representa una secuencia de longitud impar. 7. Acerca de los programas para ensamblar genomas mediante estrategias basadas en grafos de De Bruijn, sólo una de las siguientes afirmaciones es verdadera: a. Los errores de secuenciación próximos a los extremos de las lecturas dan lugar a burbujas (bubles) en el grafo. Los k-meros que forman parte de tales burbujas suelen aparecer con baja cobertura. b. Un grafo de De brujin sólo puede ser compatible con una única reconstrucción de la secuencia del genoma. c. Si las aristas (flechas) del grafo representan secuencias de longitud k, entonces los vértices corresponden a secuencias de longitud k-1. El solapamiento entre las secuencias representadas por dos vértices consecutivos es de longitud k-2. d. Las lecturas se descomponen en fragmentos de longitud k (k-meros), que se representan mediante vértices. El genoma se reconstruye mediante un recorrido a través del grafo que pasa por cada vértice (k-mero) una sola vez (euleriano). 8. Acerca de los valores de calidad signados a cada una de las bases de una secuencia, sólo una de las siguientes afirmaciones es falsa: a. La puntuación Q asignada a una base depende de la probabilidad de que la base sea errónea mediante la expresión P=-10·log10Q. b. En las escalas habituales, el máximo valor de calidad utilizado es 40 (equivalente a una probabilidad 1:100000 de que la base determinada sea errónea). c. En el formato FASTQ (con codificación Sanger), los valores de calidad se representan mediante el carácter cuyo código ASCII (American Standard Code for Information Interchange) es la puntuación Q (puntuación Phred) más 33. d. Los valores de calidad Phred permiten detectar errores en la secuenciación. 9. Acerca de los valores de calidad signados a cada una de las bases de una secuencia, sólo una de las siguientes afirmaciones es falsa: Parece la misma, pero no lo es exactamente. a. La puntuación Q asignada a una base depende de la probabilidad de que la base sea errónea mediante la expresión Q =-10·log10P. b. En las escalas habituales, el máximo valor de calidad utilizado es 40 (equivalente a una probabilidad 1:100000 de que la base determinada sea errónea). c. En el formato FASTQ (con codificación Sanger), los valores de calidad Phred se representan mediante el carácter cuyo código ASCII (American Standard Code for Information Interchange) es más cercano al valor de calidad. d. Los valores de calidad Phred permiten detectar errores en la secuenciación. 10. Acerca de la siguiente secuencia de nucleótidos T33023230020310322210, podemos afirmar que: a. Ha sido producida por un secuenciador Illumina. La secuencia se representa mediante una sucesión de dígitos, en la que cada dígito representa siempre el mismo nucleótido. b. Ha sido producida por un secuenciador Illumina. La secuencia se representa mediante una sucesión de dígitos, en la que el significado de cada dígito depende de la base procedente. c. Ha sido producido por un secuenciador SOLiD. La secuencia se representa mediante una sucesión de dígitos, en la que cada dígito representa siempre el mismo nucleótido. d. Ninguna de las respuestas es cierta. 1. Acerca de los métodos para la identificación de genes en un genoma, sólo una de las siguientes afirmaciones es falsa: a. El programa Genscan utiliza un modelo oculto de Markov para predecir la estructura de genes completos en el ADN genómico. b. En las cadenas de Markov conocemos la sucesión de observaciones, pero desconocemos el estado desde el que se emiten esas observaciones. c. Los genes se identifican merced a propiedades estadísticas que distinguen el ADN codificante del no codificante. d. Las matrices de pesos específicos de posición permiten describir motivos de secuencia y pueden utilizarse para detectar secuencias implicadas en la expresión génica. 1. En lenguaje Perl, los nombres de las variables: PRÁCTICAS. a. Pueden comenzar con cualquier carácter. b. Comienzan con el símbolo del dolar ($). c. Comienzan con el símbolo de porcentaje (%). d. Comienzan con el símbolo de la arroba (@). 2. Sólo una de las siguientes afirmaciones es falsa. En el sistema operativo Linux: PRACTICAS. a. El comando ls imprime (lista) el contenido del directorio actual. b. El comando cd permite cambiar de directorio. c. El comando man permite manipular el contenido de un archivo. d. El comando mv permite cambiar la ubicación o el nombre de un archivo. 3. Sólo uno de los programas de alineamiento múltiple utilizados en las prácticas emplea una estrategia basada en consistencia: PRACTICAS. a. T-Coffee. b. Muscle. c. ClustalW. d. MEGA. 4. Sólo una de las siguientes afirmaciones acerca del programa MEGA es falsa: PRACTICAS. a. Permite construir árboles filogenéticos mediante el método de unión al vecino (neighbor-joining). b. Permite construir árboles filogenéticos mediante el método UPGMA. c. Permite someter las filogenias obtenidas a comprobación mediante el método de bootstrap. d. No permite la representación de árboles de consenso. 5. Sólo una de las siguientes afirmaciones acerca del programa velvet es verdadera: PRACTICAS. a. El programa velvetg debe ejecutarse antes que el programa velveth. b. El programa velveth debe ejecutarse antes que el programa velvetg. c. Ambos programas, velvetg y velveth, deben ejecutarse simultáneamente. d. El orden de ejecución de los programas velvetg y velveth es indiferente. 6. El comando ./velveth Mi_ensamblaje 31 –fasta –shortPaired archivo.fa indica que: PRATICAS. a. La longitud de los k-meros, representados por las aristas (flechas) del grafo, es 31. b. La longitud de los k-meros, representados por las aristas (flechas) del grafo, es 32. c. El programa velvet se encuentra en la carpeta del usuario (estudiante). d. La longitud de cada lectura en el archivo fasta (“archivo.fa”) es 31. 7. El comando ./velvetg Mi_ensamblaje -ins_length 150 -exp_cov 30 -read_trkg yes -amos_file yes indica que (sólo una de las afirmaciones es falsa): PRACTICAS. a. El tamaño de los fragmentos secuenciados es de 150 pares de bases. b. La cobertura esperada es de 30x. c. El alineamiento se guardará en un archivo SAM, legible por el programa Tablet. d. Una de las respuestas anteriores es falsa. 8. Se dispone de 3 millones de lecturas, cada una de ellas con una longitud de 55 pares de bases. Asumiendo que el tamaño del genoma secuenciado es de 120 Mb, la cobertura esperada: PRACTICAS. a. será 2200x. b. será 1,37x. c. será 2,75x. d. no puede ser calculada, puesto que faltan datos. 9. El valor de N50 para nuestro ensamblaje es de 80 kb. Por lo tanto, podemos afirmar que: PRACTICAS. a. la mitad de los cóntigos tiene una longitud igual o superior a 80 kb. b. la suma de las longitudes de los 50 cóntigos más grandes es 80 kb. c. la mitad de la secuencia ensamblada forma parte de cóntigos cuya longitud es igual o superior a 80 kb. d. la mitad de los cóntigos tiene una longitud inferior a 80 kb. 10. Sólo una de las siguientes afirmaciones acerca del formato SAM es falsa: a. Los archivos en formato SAM son archivos comprimidos que describen el alineamiento de las lecturas a una secuencia de referencia. b. Si se especifica la opción –S, el programa bowtie escribe el resultado en un archivo con formato SAM. c. El programa samtools permite la manipulación de archivos con formato SAM, incluyendo su conversión a archivos con formato BAM. d. Es posible utilizar el comando less de Linux para visualizar el texto de un archivo en formato SAM. |