Test de DISM

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Test de DISM

Descripción:
Examen DISM

Autor:

Daniel Vicente

OTROS TESTS DEL AUTOR

Fecha de Creación: 2022/07/04

Categoría: Otros

Número Preguntas: 83

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

La ley de Moore dice que el número de transistores que se puede integrar en un dispositivo: Con un coste determinado se duplica cada 18 meses. Se reduce cada 18 meses. Se duplica cada 12 meses con un coste inferior. No tiene límite.

¿Cuál de las siguientes afirmaciones sobre las arquitecturas es verdadera?. Un proceso viene definido por un conjunto ordenado de instrucciones. Si hablamos de procesos, todos los procesos activos comparten recursos (memoria). Los hilos de un proceso comparten los recursos (memoria). Hilos y procesos son exactamente lo mismo no se diferencian en nada.

En las arquitecturas paralelas para mejorar el tiempo de ejecución, indica cual es la afirmación correcta: Reducción de CPI, mediante procesadores segmentados. Aumento de t (tiempo de reloj), reduciendo la frecuencia de reloj (supersegmentación). Reducción de t (tiempo de reloj), reduciendo la frecuencia de reloj (procesadores superescalares). Reducción del Número de instrucciones mediante instrucciones más densas(VLIW).

Dentro de la arquitectura VLIW ¿cuál de las siguientes afirmaciones es verdadera?. Presenta como ventaja la simplificación de la arquitectura HW al no tener que planificar el código. Comparado con otras arquitecturas paralelas presenta un mayor consumo y potencia. Requiere de compiladores muy sencillos. No son adecuados para sistemas embebidos.

En la segmentación se pueden representar varias situaciones que impiden a la siguiente instrucción que se ejecute en el ciclo que le corresponde y son: Riesgos estructurales y por dependencia de datos. Riesgos estructurales y por dependencia de control. Riesgos estructurales por dependencia de datos y por dependencia de control. No existe ninguna de esas situaciones para la segmentación.

¿Cuál de las siguientes afirmaciones es cierta con respecto los procesadores superescalares?. Tienen la desventaja de necesitar una frecuencia de reloj muy alta para obtener rendimientos elevados. Tienen la desventaja de aumentar la complejidad de la circuitería. Tienen la desventaja de tener que seguir estrictamente el flujo secuencial de las instrucciones para su correcta ejecución. Marca ésta si todas las anteriores son ciertas.

¿Cuál de estas afirmaciones es cierta sobre los procesadores supersegmentados?. Consiste en unir segmentación y superescalaridad, para tener varios cauces segmentados replicados. Todas las etapas del cauce se dividen en el mismo número de subetapas. Disponen de varios tiempos de reloj distintos. Marca ésta si todas las anteriores son ciertas.

Una dependencia relativa al procedimiento significa: Que los datos que lee una instrucción son modificados por otra instrucción anterior. Que hasta que una instrucción condicional no se evalúe por completo no se puede saber cuál es la siguiente instrucción que ha de ocupar el cauce de ejecución. Que dos instrucciones modifican consecutivamente un dato, por lo que una de ellas debe bloquearse hasta que la otra acabe. Que dos instrucciones leen un dato, por lo que no hay inconveniente real a la hora de que ambas instrucciones ocupen los cauces de ejecución.

La tecnología MMX de tipo SIMD: Incorpora al hardware ocho registros nuevos al para procesar datos vectoriales de tipo entero. Incorporan la aritmética saturante, que significa que todo resultado que sobrepasa un máximo se…. Incorporan la comparación empaquetada, que proporciona una máscara de bits según se cumpla. Ninguna de las anteriores.

Los sistemas MIMD débilmente acoplados: Se les llama así porque no todos los nodos tienen la misma prioridad a la hora de acceder a la red de interconexión. También se les llama sistemas multiprocesador cc-NMA. Utilizan mecanismo explícitos de envío y recepción de datos entre los distintos nodos. Ninguna de las anteriores.

Según Flynn, la clasificación de las arquitecturas MIMD para memoria distribuida quedaría como: Memoria compartida distribuida y multicomputadores de memoria distribuida. Fuertemente acoplados. Débilmente acoplados. Memoria compartida distribuida y multicomputadores de memoria distribuida y multiprocesadores de memoria compartida.

Los procesadores fuertemente acoplados presentan los siguientes modelos de acceso a memoria: UMA, NUMA, COMA. UMA, NUMA. UMA, COMA. UMA, NUMA, COMA Y CLUSTER.

¿Cuál es la solución estática al problema de la coherencia de las caches en un sistema multiprocesador?. Determinar que variables se pueden replicar en las caches y cuáles no. La utilización de protocolos basados en directorios. Impedir que las variables utilizadas por varios procesadores puedan ser replicadas en sus respectivas caches. Ninguna de las anteriores.

El Cluster, es un sistema multiprocesador : Débilmente acoplado, el cual es un conjunto de computadores interconectados con una red alta velocidad. Cuyo diseño es mucho más costoso que un multiprocesador. No es necesario ningún sistema extra para su gestión. De bajo rendimiento y difícil o pocas escalabilidad.

El middleware es: La denominación que se da al sistema operativo que utilizan los ordenadores de un cluster. Un hardware específico para la construcción optimizada de clusters. La red de interconexión que comunica de forma eficiente los ordenadores de un cluster. Ninguna de las anteriores.

¿Cuál de las siguientes afirmaciones es falsa respecto a los procesadores débilmente acoplados?. El diseño de clusters puede resultar más sencillo y económico que el de un multiprocesador. Es necesario un sistema de gestión de cluster, middleware. Suelen compartir memoria. Se realiza un reparto de la carga computacional entre los diferentes nodos.

¿Cuál de las siguientes afirmaciones es cierta con respecto a la segmentación del cauce de ejecución de un procesador?. Consiste en compartir la CPU alternativamente, a intervalos de tiempo iguales, entre distintas instrucciones. Consiste en dividir la ejecución de las instrucciones en etapas de la misma velocidad. Es incompatible con la superescalaridad. Los buffers son unos componentes que han de insertarse entre las distintas etapas del cauce.

¿Qué afirmación es cierta acerca de la tecnología VLIW?. Tienen la desventaja de suponer un incremento en la complejidad de los recursos hardware. Un compilador se ocupa de descomponer cada instrucción a ejecutar en subinstrucciones denominadas…. Agrupa varias instrucciones en una misma palabra, denominando a cada una de esas instrucciones si…. Es incompatible con la tecnología EPIC.

Sobre los sistemas MIMD fuertemente acoplados: Los distintos computadores se comunican mediante paso de mensajes. La escalabilidad del sistema está limitada por el ancho de banda del acceso a la memoria. Los nodos carecen de memoria privada. Ninguna de las anteriores.

Dentro de los tipos de datos de Big Data encontramos: Machine to Machine incluye datos obtenidos de las etiquetas RFID y GPS, entre otros. Web y Redes Sociales, incluyen emails, datos de las call centers, entre otros datos. Machine to Machine se refiere a registros de facturación, estados de datos transaccionales, etc. Generados por los humanos, son los obtenidos por las huellas digitales, escaneo de retina, reconocimiento facial….

Referente a las tecnologías IoT: SOAP y REST son dos tipos de servicios web. Message Oriented Middleware es un tipo de servicio web sin estado. Los microservices son un paradigma de la computación distribuida para el paso de mensajes. SOA es un servicio web con estado.

Respecto al kernel que se ejecuta en la GPU, la aceleración específica lograda por un código ejecutado en la GPU no depende de: Si el flujo de datos y el flujo de control se adaptan bien a la forma de computar en la GPU. El número de parámetros que se le pasa a la función kernel. Optimización en el código. Si el kernel de la GPU admite un número suficiente de hilos concurrentes.

¿Cuál de las siguientes características no es propia de la arquitectura de una GPU?. Las GPU’s poseen unidades control simple. Las GPU’s están compuestas de muchas ALU simples. Las GPU’s poseen caches pequeñas que potencian el ancho de banda de la memoria. Las GPUs poseen mecanismos de predicción de salto de instrucciones (branch prediction).

¿Qué representa el valor threadidx cuando es evaluado por cada uno de los hilos en un kernel de CUDA?. El índice global del hilo. El índice del hilo dentro de su bloque. El número de hilos que tiene el bloque. El número total de hilos lanzados.

¿Cuál de las siguientes afirmaciones sobre el manejo de hilos en CUDA no es cierta?. Los hilos dentro de un bloque se pueden coordinar e intercambiar información. Los hilos se asignan a los Streaming Multiprocessors (SM) en bloques. Hilos en diferentes bloques no pueden cooperar de forma directa. No existe un número máximo de hilos por bloque.

La unidad mínima de ejecución paralela dentro de una arquitectura GPU CUDA es: Bloque. Malla. Warp. Hilo.

Respecto a la planificación de hilos en CUDA, ¿cuál de las siguientes afirmaciones es VERDADERA?. ● Los hilos se agrupan en unidades de 64 denominadas warps. ● Existe garantía respecto al orden de ejecución de bloques. ● Los bloques se distribuyen entre los multiprocesadores disponibles. ● Todos los hilos ejecutan la misma instrucción simultáneamente.

Dentro de un kernel, por defecto, los arrays de gran tamaño son alojados en: ● Memoria local. ● Memoria compartida. Registros. ● Memoria global.

La memoria de mayor capacidad dentro de una GPU es la: Memoria de texturas. Memoria global. Registros. Memoria de texturas.

¿Cuando se produce el acceso a memoria de manera coalescente?. Cuando cada hilo accede a distintas posiciones de memoria que son adyacentes. Cuando hilos adyacentes acceden a posiciones de memoria adyacentes al ejecutar la misma instrucción. Cuando hilos adyacentes acceden a posiciones de memoria equidistantes al ejecutar la misma instrucción. Cuando cada hilo solo tiene que acceder a un único dato de memoria global.

Asumiendo que un kernel es invocado con 128 bloques con tamaño de 256 hilos cada uno, si una variable es definida para alojarse en memoria compartida ¿cuántas copias de esta variable serán creadas a lo largo de la ejecución del mismo?. 32768. 1. 256. 128.

Asumiendo que un kernel es invocado con 128 bloques con tamaño de 256 hilos cada uno, considerando una variable típica declarada como int a=0 ¿cuántas copias de esta variable serán creadas a lo largo de la ejecución del mismo?. 32768. 1. 256. 128.

Dentro de un kernel, por defecto, las variables declaradas son alojadas en: Memoria global. Registros. Memoria local. Memoria compartida.

El fenómeno conocido como register spilling consiste en: Las variables de un hilo que no caben en registros del SM pasan a memoria global. Las variables de un hilo que no caben en registros del SM pasan a memoria local. Las variables de un hilo que no caben en registros del SM pasan a memoria compartida. Las variables de un libro que no caben en registros del SM pasan a memoria caché.

1. (Problema) Suponer que estamos considerando una mejora que se ejecute diez veces más rápida que la implementación sobre la CPU, pero solo es utilizable el 40% del tiempo total. ¿Cúal es la aceleración global lograda al incorporar la mejora?. Fracción Mejorada = 0.4 (40%). Aceleración Mejorada = 10. El resultado es 1.56x.

2. Suponer que una cache es 5 veces más rápida que la memoria principal y supongamos que la cache puede ser utilizada el 90% del tiempo. ¿Qué aumento de velocidad se logrará al utilizar la cache?. 3.57x. sefrsfsdfsdfdsfdsfdsf.

Si el kernel que enviamos a la GPU se acelera 6x, pero el 40% restante de la aplicación no admite paralelismo, ¿Qué aceleración global se obtiene?. Este ejercicio es muy parecido a los dos anteriores, pero con un pequeño elemento a tener en cuenta. Si dicen que un % no admite paralelismo, como en este caso el 40%, tendremos que coger el 60% restante (1-0.4 = 0.6). Entonces tenemos: → 40% sin paralelismo → 60% con paralelismo = Fracción Mejorada (usamos este 0.6 para los cálculos. ● 6x ● 2x ----> Este es el bueno ● 1.5x ● 10x.

4. (Problema) Si un kernel enviado a la GPU se ejecuta 8 veces más rápido que en la CPU, pero el 20% restante de la aplicación no es compatible con esta implementación paralela, ¿cuál es la aceleración global obtenida?. Igual que el anterior ● 8 x ● 3.33 x ----> Esta es la buena ● 6.66 x ● 2 x. zxcxzcxzczxcxzcxz.

De qué forma podemos calcular el número total de hilos lanzados dentro de un kernel CUDA (que se ha planificado en una única dimensión)?. blockIdx * blockDim.x + threadIdx.x. gridDim.c * threadIdx.x. gridDim.x * blockDim.x threadIdx.x. gridDim.x * blockDim.x.

Queremos realizar una suma de dos vectores en paralelo en la GPU. Cada hilo debe calcular la suma de dos posiciones adyacentes en el vector (en lugar de utilizar un hilo por cada elemento). ¿Qué expresión de las siguientes sería la correcta para llevar a cabo el mapeo entre hilos y elementos?. idx = blockIdx.x * blockDim.x + threadIdx.x + 2;. idx = (blockIdx.x * blockDim.x + threadIdx.x) * 2;. idx = blockIdx*threadIdx * 2;. idx = blockIdx.x * blockDim.x * 2 + threadIdx.x.

Para una suma de vectores en paralelo asumiendo que el tamaño de los vectores es 16000 y que cada hilo calcula un elemento del vector resultado, ¿cuántos hilos habrá como mínimo en el grid de ejecución en CUDA si utilizamos un tamaño de bloque de 512?. Sumamos el tamaño de bloque a sí mismo hasta que nos pasemos del tamaño del vector dado. Es decir, tenemos como máximo 16000, vamos sumando → 512 → 1024 →1536… En la iteración 31 tenemos 15.872, aun no nos hemos pasado de 16000 así que hacemos una más; it 32 → 16.384. Ya nos hemos pasado, así que nos quedamos con ese numero, que también será nuestra solución. ● 16000 ● 16384 ----> Esta es la buena ● 16512 ● 16385.

Para una suma de vectores en paralelo, asumiendo que el tamaño de los vectores es 1030 y que cada hilo calcula un elemento del vector resultado, ¿cuántos hilos se ejecutarán en CUDA si utilizamos un tamaño de bloque de 512? Como el ej. de arriba. 1030. 512. 1024. 1536.

Si un SM de un dispositivo CUDA puede ejecutar hasta 1536 hilos y hasta 4 bloques a la vez, cuál de las siguientes configuraciones obtendría mayor rendimiento y por lo tanto mayor número de hilos en ejecución: Es la tercera respuesta, porque teniendo en cuenta que solo se pueden ejecutar 4 bloques: →Si son 128 por bloque y máximo 4, llegamos a 512 (no llegamos a 1536) →Si son 256 por bloque y máximo 4, llegamos a 1024(no llegamos a 1536) →Si son 512 por bloque y máximo 4, llegamos a 1536 con 3 bloques. →Si son 1024 por bloque y máximo 4, llegamos a 2048 con 2 bloques. (nos pasamos de 1536) Entonces, las dos primeras opciones no llegan y la última se pasa, la opción correcta es la tercera. 128 hilos por bloque. 256 hilos por bloque. 512 hilos por bloque. 1024 hilos por bloque.

(Problema) Suponiendo una arquitectura de GPU Fermi con sus consecuentes limitaciones de hardware específicas, ¿cuál de las siguientes configuraciones de tamaño de bloque ofrecería mejor rendimiento?. 8 x 8. 16 x 16. 32 x 32. No se ve la última.

Necesitamos escribir un kernel que opere sobre una imagen de tamaño de 400 x 900 píxeles. Queremos asignar un hilo para cada pixel El número de hilos por bloque tiene que ser cuadrado y utilizar el máximo número de hilos por bloque posible en tu dispositivo(arquitectura de fermi 2.0) ¿Qué tamaño de grid y bloque elegirías? ¿Cuántos hilos no realizan ningún cómputo?. Para este ejercicio partimos de: → 400x900 → Fermi 2.0 (32x32), sabemos que la arquitectura fermi 2.0 es de 32x32 (32x32 = 1024) Dividimos para obtener el tamaño de grid: →x = 900 / 32 = 28.125 = 29 bloques →y = 400 / 32 = 12.5 = 13 bloques Multiplicamos para obtener los hilos, y los hilos en estado de idle: →29x13x1024 = 386.038 hilos → Para los que están en idle: 386.038 - (400x900) = 26.048 hilos. vcxvcxvcxvcx.

Los sistemas MIMD débilmente acoplados. Se les llama así porque no todos los nodos tienen la misma prioridad a la hora de acceder a la red de interconexión. También se les llama sistemas multiprocesador cc-NMA. Utilizan mecanismo explícitos de envió y recepción da datos entre los distintos nodos. Ninguna de las anteriores.

Un protocolo de coherencia de caché se dice que es de tipo writebroadcast cuando se da lo siguiente: Si un procesador actualiza un bloque de datos, envía una señal al resto de procesadores para que marquen ese mismo como inválido. Si un procesador actualiza un bloque de datos, envía una señal al resto de procesadores para que actualicen ese mismo bloque. Si un procesador ha de actualizar un bloque, primero envía una señal al resto de procesadores para asegurarse de que no tienen ese mismo bloque replicado, y por tanto no hay problema de coherencia. Ninguna de las anteriores.

¿Qué desventajas presentaba la programación de shader en Cg frente a CUDA dentro del ámbito de la GPGPU?. Mayor tiempo de compilación. Mayor tiempo de desarrollo y conocimientos especializados. Incompatibilidad con la mayoría de arquitecturas de procesadores gráficos. Ninguna de las anteriores.

Respecto al kernel que se ejecuta en la GPU, la aceleración específica lograda por un código ejecutado en la GPU no depende de. Si el flujo de datos y el flujo de control se adaptan bien a la forma de computar en la GPU. El número de parámetros que se le pasa a la función kernel. Optimización en el código. Si el kernel de la GPU admite un número suficiente de hilos concurrentes.

Si el kernel que enviamos a la GPU se acelera 6x, pero el 40% restante de la aplicación no admite paralelismo, ¿Qué aceleración global se. 6x. 2x. 1.5x. 10x.

La memoria de mayor capacidad dentro de una GPU es la: Memoria de texturas. Memoria global. Registros. Memoria de texturas.

Dentro de un kernel, por defecto, las variables declaradas son asignadas a: Memoria constante. Memoria global. Registros. Memoria de texturas.

Sobre los protocolos snoopy: Los bloques de datos compartidos se hallan en una estructura específica, de modo que la actualización… automáticamente en cada procesador que lo está manejando. Las órdenes de invalidación/actualización se propagan a través de una línea común. Solo pueden ser de tipo write-invalidate. Solo pueden ser de tipo write-broadcast.

Los sistemas MIMD débilmente acoplados: Se les llama así porque no todos los nodos tienen la misma prioridad a la hora de acceder a la red de interconexión. También se les llama sistemas multiprocesador cc-NMA. Utilizan mecanismo explícitos de envió y recepción da datos entre los distintos nodos. Ninguna de las anteriores.

Un protocolo de coherencia de caché se dice que es de tipo writebroadcast cuando se da lo siguiente. Si un procesador actualiza un bloque de datos, envía una señal al resto de procesadores para que marquen ese mismo como inválido. Si un procesador actualiza un bloque de datos, envía una señal al resto de procesadores para que actualicen ese mismo bloque. Si un procesador ha de actualizar un bloque, primero envía una señal al resto de procesadores para asegurarse de que no tienen ese mismo bloque replicado, y por tanto no hay problema de coherencia. Ninguna de las anteriores.

Si el kernel que enviamos a la GPU se acelera 6x, pero el 40% restante de la aplicación no admite paralelismo, ¿Qué aceleración global se obtiene?. 6x. 2x. 1.5. 10x.

La memoria de mayor capacidad dentro de una GPU es la. Memoria de texturas. Memoria global. Registros. Memoria de texturas.

Dentro de un kernel, por defecto, las variables declaradas son asignadas a. Memoria constante. Memoria global. Registros. Memoria de texturas.

Denunciar Test

▲