option
Cuestiones
ayuda
daypo
buscar.php

IPMD_BC

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
IPMD_BC

Descripción:
IPMD_BC examenes

Fecha de Creación: 2026/01/22

Categoría: Otros

Número Preguntas: 30

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

¿Qué caso de uso NO está indicado para Hive?. A. Realizar una agregación en SQL sobre ficheros de la base de datos operacional (transaccional) de una empresa. B. Escribir una ETL en SQL de creación de variables agregadas del informacional de clientes. C. Unir en SQL datos históricos masivos de diferentes departamentos. D. Todos los casos anteriores son adecuados para Hive.

2. ¿Cuál de las siguientes afirmaciones sobre Impala y Hive NO es cierta?. A. Ambas herramientas ejecutan sobre Spark. B. Ambas herramientas son compatibles con un driver ODBC para conectarnos a ellas. C. Ambas herramientas admiten consultas en lenguaje SQL. D. Ambas pueden consultar datos almacenados en HDFS.

3. Seleccione la respuesta INCORRECTA sobre Apache Hive: A. Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. B. Es una base de datos distribuida en un clúster Hadoop. C. Está indicado principalmente para procesado OLAP (en bloque). D. Es una tecnología de código abierto.

4. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): A. Lee los mensajes en orden dentro de cada partición. B. Lee los mensajes en orden dentro de cada topic. C. Lee los mensajes en orden dentro de cada bróker. D. Kafka no garantiza ningún tipo de orden al consumir los mensajes.

5. ¿Cuál es el propósito del DAG en Spark?. A. Optimizar consultas SQL. B. Mantener la trazabilidad y resiliencia. C. Replicar particiones. D. Ejecutar acciones inmediatamente.

6. ¿Cómo se relacionan Apache Spark y Apache Kafka?. A. Spark puede leer desde y escribir en Kafka datos en tiempo real. B. Spark puede guardar los DataFrames como tablas en el almacén de metadatos (metastore) de Kafka. C. Kafka sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Spark. D. Spark sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Kafka.

7. Si nos fijamos en los tres grandes proveedores de servicios de Cloud Computing en la actualidad... A. Cada proveedor permite desplegar exclusivamente instancias de bases de datos relacionales propietarias, de ese proveedor. B. Sólo permiten desplegar bases de datos relacionales que sean open source, como MySQL, PostgreSQL, etc. C. Los proveedores cloud no incluyen entre sus servicios el despliegue de bases de datos relacionales. D. Ninguna de las opciones anteriores es cierta.

8. ¿Por qué actualmente no se utilizan los RDDs en Spark?. A. Porque el código es menos intuitivo y más propenso a errores por parte del programador, además de no estar optimizados, a diferencia de los DataFrames. B. Porque los RDDs escriben los resultados en disco el resultado intermedio de los cálculos. C. Porque no están disponibles en Python (pyspark), sino sólo en lenguaje Scala. D. Las respuestas A y B son correctas.

9. Si la variable datos_df almacena un DataFrame de Spark, ¿qué ocurre cuando hacemos datos_df.cache() ?. A. Spark materializa el DataFrame en ese momento. B. Spark escribe el DataFrame en disco. C. Spark libera el contenido del DataFrame de la memória. D. Spark marca el DataFrame para que no se libere cuando sea materializado.

10. ¿Cuál de los siguientes casos de uso es POCO adecuado para HDFS?. A. Almacenar información histórica de las pólizas de una compañía aseguradora desde su creación. B. Migrar distintas bases de datos tradicionales de una empresa de telecomunicaciones para realizar cuadros de mando sobre esos datos. C. Almacenar la información de las pólizas de una compañía aseguradora para ser consultada por las agencias cuando interactúan con los clientes. D. Montar el lago de datos para efectuar la analítica sobre los clientes de una empresa de energía eléctrica.

11. ¿Qué tecnologías se asimilan a Apache Hive?. A. Amazon Redshift, Cloud SQL, Azure SQL Database. B. Amazon EMR, Google Cloud Dataproc, Azure Databricks. C. Amazon S3, Google BigQuery, Azure DataLake Storage. D. Amazon Redshift, Google BigQuery, Azure Synapse.

12. Al hacer resultado_df = df.withColumn("c", F.lit(3))... A. Spark solo materializa df si lo habíamos marcado como cacheado antes de esta línea. B. Spark no materializa el resultado por ser una transformación. C. Spark materializa el resultado por ser una acción. D. Spark materializa el resultado en el momento de hacer resultado_df.cache().

13. ¿Qué es la dependencia en las etapas de un pipeline?. A. Los estimadores siempre deben colocarse antes que los transformadores. B. Las columnas que una etapa necesita deben haberse generado en la etapa inmediatamente anterior. C. Los transformadores deben colocarse antes que los estimadores. D. Las columnas creadas por una etapa pueden ser utilizadas como entrada solo por etapa(s) poasterior(es.

14. ¿Cómo se llama el servicio de Amazon Web Services para crear un cluster de herramientas Big Data?. A. Elastic Map Reduce. B. Dataproc. C. Cognitive Services. D. Ninguno de los servicios anteriores.

15. Si un productor en Kafka configura acks=all, ¿qué implica?. A. Mayor latencia. B. Mayor rendimiento. C. Entrega más rápida de mensajes. D. Mayor riesgo de pérdida de mensajes.

1. En el sistema de ficheros HDFS, cuando se solicita la lectura de un fichero: A. Es el cliente quien proporciona los metadatos al namenode. B. Es el namenode quien proporciona los metadatos al cliente. C. Es el namenode quien proporciona los bloques del fichero al cliente. D. Es el datanode quien proporciona los metadatos al cliente.

2. ¿Cuál es el propósito del DAG en Spark?. A. Optimizar consultas SQL. B. Mantener la trazabilidad y resiliencia. C. Replicar particiones. D. Ejecutar acciones inmediatamente.

3. Si un productor en Kafka configura acks=all, ¿qué implica?. A. Mayor latencia. B. Mayor rendimiento. C. Entrega más rápida de mensajes. D. Mayor riesgo de pérdida de mensajes.

4. Cuál de los siguientes servicios de seguridad NO ofrecen las plataformas de cloud computing estudiadas: A. Responsabilidad sobre los datos de la aplicación. B. Gestión de identidad. C. Control de acceso. D. Autenticación y autorización.

5. Se quiere ajustar un modelo predictivo de análisis de sentimiento a un conjunto masivo de textos, usando Spark MLlib. Antes de entrenar el algoritmo predictivo, es necesario pre-procesarlos (dividir en palabras, quitar palabras sin significado, y codificarlas como números). Algunas de estas operaciones son estimadores y otras son transformadores. ¿Cuál sería la manera correcta de proceder?. A. Crear estimadores y transformadores independientes, haciendo fit o transform sobre cada uno según corresponda. B. Crear un pipeline sólo con los estimadores, ejecutar fit sobre el pipeline y después ejecutar transform sobre los transformadores,. C. Crear un pipeline con todos los estimadores y transformadores necesarios, y ejecutar fit sobre el pipeline. D. Crear un pipeline sólo con los transformadores, ejecutar fit sobre el pipeline y después usar transform sobre los estimadores.

6. Cuando aplicamos el método fit a un Estimator de Spark, pasando como argumento un DataFrame... A. Nos devuelve como resultado otro estimador. B. Nos devuelve como resultado un transformador. C. Nos devuelve como resultado el DataFrame ajustado. D. No es posible aplicar fit a un Estimator.

7. ¿Cuál es el servicio de Azure equivalente a Amazon S3?. A. Azure Cognitive Services. B. Azure DataLake Storage. C. Azure Cosmos. D. Azure SQL Database.

8. Cuando utilizamos herramientas de cloud computing de un proveedor, ... A. Los desarrolladores no pueden instalar tecnologías open-source si usan la infraestructura de ese proveedor. B. Los desarrolladores pueden usar herramientas open-source para cualquier tarea. C. Los desarrolladores tienen que usar los servicios PaaS de ese proveedor. D. El desarrollo debe llevarlo a cabo un equipo de desarrolladores del proveedor.

9. ¿Cuál de las siguientes definiciones corresponde al concepto de task (tarea) de Spark?. A. Procesamiento de una partición completa de un RDD en un core. B. Procesamiento para llevar a cabo una acción sobre un DataFrame. C. Procesamiento en el que se encadenan operaciones que no requieren movimiento de datos. D. Procesamiento para completar una transformación de un DataFrame.

10. ¿Cuál es la razón principal por la que utilizaríamos la biblioteca de Spark ML en lugar de cualquier otra para entrenar un modelo?. A. Crear modelos predictivos sobre datos en tiempo real. B. Crear modelos predictivos más complejos que una regresión lineal. C. Crear modelos predictivos sobre datos masivos. D. Todas las respuestas anteriores son correctas.

11. ¿Cómo almacena la información Kafka para ser consumida?. A. En ficheros en formato binario. B. En el metastore. C. En HDFS. D. Ninguna de las repsuestas anteriores es cierta.

12. ¿Cuál de los siguientes elementos NO forma parte de la arquitectura de Impala?. A. Apache Spark. B. impalad. C. Conector ODBC. D. catalogd.

13. ¿Cuál de las siguientes afirmaciones acerca de Hive y BigQuery NO es cierta?. A. Ambos son sistemas de Data Warehouse. B. Ambos poseen su propio motor de ejecución y no necesitan una herramienta externa para ejecutar consultas. C. Ambas son herramientas open-source. D. Las opciones B y C son falsas.

14. En una tabla manejada de Hive ... A. El borrado de la tabla implica el borrado de los datos. B. El borrado de la tabla no afecta a los datos, que permanecerán en la misma ubicación. C. Al ser manejada por Hive, las herramientas de BI no pueden acceder a esos datos. D. Ninguna de las opciones anteriores es correcta.

15. Las acciones de Spark. A. No devuelven nada. B. Devuelven un valor. C. Devuelven una transformación. D. Devuelven un RDD.

Denunciar Test