BDA final completo

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

BDA final completo

Descripción:
Examen final BDA completo

Autor:

Patricia Toranzo Escanciano

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/05/09

Categoría: Informática

Número Preguntas: 59

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Qué operador se utiliza para proyectar o seleccionar columnas de datos en Apache Pig?. JOIN. SELECT. COGROUP. FOREACH...GENERATE.

¿Qué componente de Hadoop permite sincronizar el estado de los diferentes servicios distribuidos de Hadoop?. Apache Flume. Apache HBase. Apache ZooKeeper. Apache Hive.

¿Cómo se llama el principal fichero de configuración para el servicio Hive?. core-config.xml. hive-site.xml. hadoop-commons.xml. hive-config.xml.

¿Cuál es el comando de HDFS para crear un directorio?. mkdir. make_dir. create_dir. rmdir.

¿Cuál de las siguientes afirmaciones NO es correcta en relación con los Data Lakes?. Hadoop es una buena plataforma para implementar un Data Lake. Un Data Lake es más fácil de gestionar que un Datawarehouse. Frente a los Datawarehouses tradicionales, un Data Lake ofrece más funcionalidad. Los Data Lakes intentan ser un repositorio de datos único para toda la empresa.

Señala si son o no ciertas las siguientes afirmaciones: I.- Las consultas de Hive se traducen a procesos MapReduce. II.- Los datos en Hive se almacenan en una estructura relacional. I falsa, II falsa. I cierta, II falsa. I falsa, II cierta. I cierta, II cierta.

¿Cómo se llama la disciplina que tradicionalmente ha creado modelos predictivos sobre los datos del Datawarehouse?. Data Exploration. Data Discovery. ETL. Data Mining.

¿Qué tipo de escalado es el más apropiado para Hadoop?. Escalado horizontal. Escalado tangencial. Escalado vertical. Hadoop no escala.

¿Qué componentes de Hadoop permite importar o exportar datos estructurados de base de datos relacionales a Hadoop y viceversa?. Apache Hive. Apache Pig. Apache Sqoop. Apache HBase.

Señala si son o no ciertas las siguientes afirmaciones: I.- La implementación de un Data Lake es más económica que la de un Datawarehouse. II.- Un Datawarehouse sólo almacena datos estructurados, mientras que un Data Lake puede almacenar cualquier tipo de dato. I falsa, II falsa. I cierta, II cierta. I falsa, II cierta. I cierta, II falsa.

¿Cuáles de las siguientes herramientas permiten analizar datos en tiempos real?. Todas las anteriores. Apache Storm. Apache Flink. Apache Spark.

¿Cómo consigue HDFS tener tolerancia a fallos?. Todas las anteriores. Dividiendo los ficheros en bloques. Replicando los bloques en varios nodos. Almacenando los bloques en diferentes nodos.

¿Qué comando HDFS se utiliza para copiar un archivo del sistema de archivos distribuido de Hadoop al sistema local?. hadoop fs -mkdir. hadoop fs -get. hadoop fs -put. hadoop fs -ls.

¿Qué comando HDFS se utiliza para copiar un archivo del sistema sistema local al de archivos distribuido de Hadoop?. hadoop fs -mkdir. hadoop fs -put. hadoop fs -get. hadoop fs -ls.

¿Qué línea de código se utiliza para especificar la entrada de datos de MRJob sino definen etapas (“steps”)?. def input_data (self, input_path). def combiner (self, input_path). def mapper (self, key, value). def reduce (self, key, values).

Para ingestar datos que están en bases de datos relacionales, ¿qué componente de Hadoop se utiliza?. YARN. Flume. Sqoop. Pig.

¿Cómo se llama el principal fichero de configuración para el servicio HDFS?. core-config.xml. hadoop-commons.xml. hdfs-config.xml. hdfs-site.xml.

¿Cómo se llama el componente que ofrece, desde una web, acceso a los ficheros de HDFS y poder lanzar consultas Hive?. Hue. Spark. Impala. Hive.

Señala si son o no ciertas las siguientes afirmaciones sobre la siguiente consulta: SELECT * FROM airports LIMIT 10 I.- La sintaxis es válida en Hive. II.- La sintaxis es válida en Pig. I falsa, II cierta. I cierta, II cierta. I cierta, II falsa. I falsa, II falsa.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Antes de cargar los datos en Hive hay que definir el esquema II.- Antes de cargar los datos en Pig hay que definir el esquema. I cierta, II cierta. I falsa, II falsa. I falsa, II cierta. I cierta, II falsa.

¿Por qué los bloques en HDFS tienen un tamaño tan grande?. Para reducir la cantidad de bloques necesarios en ficheros grandes. Para mejorar el rendimiento en operaciones pequeñas. Para permitir el acceso concurrente de múltiples clientes. Para facilitar la replicación de los bloques en diferentes nodos.

¿Cuál es la función del paso de "shuffle" en MapReduce?. Dividir los datos de entrada en trozos más pequeños para procesarlos de forma distribuida. Realizar la operación de reducción en los datos de entrada. Realizar una operación de mapeo en los datos de entrada. Ordenar los datos de salida de los nodos "map" antes de enviarlos a los nodos "reduce".

¿Cuál de las siguientes afirmaciones es más apropiada para Hadoop?. Es la mejor tecnología para cualquier caso de uso Big Data. Hadoop se despliega en infraestructura propia, no en entornos cloud. Cambió el paradigma tradicional, acercando el procesamiento a donde se almacenan los datos. El nivel de seguridad es muy alto, al nivel de otras tecnologías de gestión de datos tradicionales (como las bases de datos relacionales).

Señala si son o no ciertas las siguientes afirmaciones: I.- Una transformación sobre un "dataframe" de Spark devuelve otro "dataframe". II.- Una acción sobre un "dataframe" de Spark devuelve otro "dataframe". I falsa, II falsa. I cierta, II cierta. I falsa, II cierta. I cierta, II falsa.

¿Cuál es la sentencia de Hive con la que se borra una nueva tabla?. DEL TABLE. DROP TABLE. DELETE TABLE. FORMAT TABLE.

¿Cuál es el método que se utiliza para emitir pares clave-valor en el mapper de MRJob?. yield (key, value). emit(key, value). print(key, value). output.collect(key, value).

¿Qué es un UDF en Apache Pig?. Un formato de nombre de usuario. Una función definida por el usuario para procesar datos en Pig Latin. Una interfaz de usuario para consultar datos en Pig Latin. Un formato universal de disco.

En las primeras versiones de HADOOP cuál de estas afirmaciones NO es cierta: La concurrencia en la ejecución de aplicaciones no estaba bien resuelta. Restringía mucho el tipo de aplicaciones que los desarrolladores podían realizar. Ninguna de las anteriores. El procesamiento y el almacenamiento eran independientes.

¿Qué tipo de celda NO es válida en un fichero “dbc” de Databricks?. Scala. Python. Java. Markdown.

¿Qué comando se utiliza para cargar datos en Pig Latin?. READ. IMPORT. LOAD. SELECT.

El modelo tradicional basado en herramientas de ETL, Datawarehouses y herramientas de Business Intelligence y Data Mining es un buen modelo para realizar análisis de los datos para la toma de decisiones, pero tiene varios problemas asociados: A) Sólo permite analizar datos estructurados, y cada vez hay un mayor número de fuentes de datos no estructuradas que se quieren analizar: logs de aplicaciones, transcripciones de conversaciones, imágenes, vídeos, etc. B) Requiere mucha intervención de los equipos de tecnología o desarrollo, desde la construcción de los procesos ETL hasta la creación de los cuadros de mando o informes. Esto hace que desde que el negocio tiene una necesidad hasta que dispone de la herramienta para cubrir esa necesidad, el proceso puede durar demasiado tiempo. D) A o B son falsas. C) A y B son ciertas.

Para ingestar datos que se generan en tiempo real, ¿qué componente de Hadoop se utiliza?. Flume. Storm. Flink. Spark.

¿Qué es el nodo NameNode en HDFS?. Un nodo que toma puntos de control de los metadatos del sistema Namenode. El nodo maestro que mantiene la metainformación del sistema de archivos. Un nodo worker que almacena los bloques de los ficheros. Un nodo de respaldo para el NameNode principal.

¿Cuál es el objetivo principal de Apache Ambari?. Añade capacidades de tiempo real en un clúster Hadoop. Simplifica la administración de clústeres Hadoop. Ninguna de la anteriores. Añade una capa de seguridad en un clúster Hadoop.

¿Cómo se llaman las herramientas que preparan los datos para el Datawarehouse?. Herramientas de ETL. Herramientas de Data Governance. Herramientas de Data Discovery. El Datawarehouse no requiere una preparación previa de los datos.

Para automatizar la ejecución de trabajos que se debe realizar en Hadoop, por ejemplo, para validar los datos ingestados, ¿qué componente se debe utilizar?. YARN. Pig. Oozie. Zookeeper.

¿Cómo se llama el sistema de almacenamieno de Hadoop?. GFS. FS. HDFS. DBFS.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Una transformación entre un “dataframe” de Spark devuelve otro “dataframe” II.- Una acción entre un dataframe de Spark devuelve otro dataframe. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Cuál de las siguientes afirmaciones sobre EMR NO es correcta?. EMR puede adaptar el número de servidores a la carga real que esté soportando, por lo que sólo pagas por el uso real. EMR permite configurar qué componentes del ecosistema Hadoop arrancar. EMR permite arrancar clústers Hadoop rápidamente, por lo que es muy útil para hacer pruebas con Hadoop. EMR, que son las siglas de Elastic MapReduce, sólo permite MapReduce como framework para procesar datos.

Si quiero arrancar un Hadoop en la nube como servicio y quiero usar Ambari para gestionar el clúster, ¿qué solución debería utilizar?. HDInsight. Cloudera. EMR. Ninguna lleva Ambari.

¿Qué tipo de datos gestiona un Datawarehouse?. Cualquier tipo de datos. Datos semi-estructurados. Datos estructurados. Datos no estructurados.

¿Cómo se consigue escalar o ganar mayor capacidad en una plataforma Hadoop?. Cambiando los servidores por otros con CPUs más potentes. Añadiendo más nodos master al clúster. Realizando optimizaciones en los sistemas operativos. Añadiendo más nodos worker al clúster.

¿Cuáles son las fases de ejecución de un trabajo MapReduce?. map, shuffle, reduce, order. map, shuffle, order, reduce. map, reduce, shuffle, order. map, order, shuffle, reduce.

¿A qué se refiere el concepto “industrialización” en relación con las actividades de ingeniería de datos?. A llevar todas las plataformas a la nube. A aplicar tecnologías Big Data en el sector industrial. A estandarizar y automatizar todo lo posible las tareas para ganar eficiencia. A aplicar mecanismos de control y validación de la calidad.

¿Cuál es el papel del Application Master en YARN?. Supervisar el ciclo de vida de los contenedores de aplicaciones. Proporcionar información sobre el consumo de recursos en los nodos worker. Controlar la ejecución en todas las tareas en YARN. Negociar con el Resource Manager los recursos necesarios para la ejecución de las tareas de su aplicación.

¿Cuál de las siguientes afirmaciones sobre Impala es correcta?. Permite administrar un clúster Hadoop. Ninguna de las anteriores es correcta. Permite importar datos de otras bases de datos relacionales. Permite acceder a los datos de HDFS como si fuera una tabla.

Señala si son o no ciertas las siguientes afirmaciones: I.- En MrJob es obligatorio definir un mapper. II.- En MrJob puede haber más de un mapper. I falsa, II cierta. I falsa, II falsa. I cierta, II cierta. I cierta, II falsa.

¿Qué componente del ecosistema Hadoop permite ver los ficheros HDFS como si fueran tablas de una base de datos relacional?. Hive. Ambari. Oozie. YARN.

¿Qué componente del ecosistema Hadoop permite utilizar sintaxis SQL para manejar datos que están almacenado en HBase?. Storm. Oozie. Pig. Phoenix.

¿En qué nodo se ejecuta el ApplicationMaster?. En el ResourceManager. En un nodo worker. En el Datanode. En el nodo maestro.

¿Cómo se llama el principal fichero de configuración para el servicio YARN?. yarn-site.xml. hadoop-commons.xml. core-config.xml. yarn-config.xml.

Señala si son o no ciertas laS siguientes afirmaciones. I.- La implementación de un Data Lake es más económica que la de un Data Warehouse II.- Un Data Warehouse solo almacena datos estructurados, mientras que un Data Lake puede almacenar cualquier tipo de dato. I cierta, II falsa. I falsa, II falsa. I cierta, II cierta. I falsa, II cierta.

¿Qué componente del ecosistema Hadoop fue el primero en aparecer para reducir la complejidad de los procesos MapReduce que se desarrollaban hasta entonces?. Spark. Pig. YARN. HDFS.

¿Cuál de las siguientes afirmaciones NO es correcta en relación con los Data Lakes?. Hadoop es una buena plataforma para implementar un Data Lake. Los Data Lakes intentan ser un repositorio de datos único para toda la empresa. Un Data Lake es más fácil que gestionar que un Data Warehouse. Frente a los Data Warehouses tradicionales, un Data Lake ofrece más funcionalidad.

¿Cuál es la sentencia de Hive con la que modificamos los registros de una tabla?. LOAD DATA. UPDATE. SELECT. MODIFY ROWS.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Un fichero “ipynb” al abrirlo con Jupyter puede contener directorios y ficheros II.- Un fichero “dbc” al abrirlo en Databricks puede contener directorios y ficheros. I falsa, II falsa. I cierta, II falsa. I falsa, II cierta. I cierta, II cierta.

¿Qué es el servicio NodeManager en YARN?. El servicio que se ejecuta en cada nodo worker y supervisa la ejecución de las tareas en contenedores. El servicio que recibe las peticiones de ejecución por parte de los clientes. El maestro que controla la ejecución de todas las tareas que están en ejecución. El servicio que asigna prioridades y establece los recursos / containers que disfrutará cada aplicación.

¿Qué componentes del ecosistema Hadoop permite acceder a los ficheros HDFS con lenguaje SQL, como si fueran tablas de una base de datos?. Hive. YARN. HDFS. MapReduce.

¿Qué quiere decir la afirmación de que Hadoop es multitenancy? I.- Que Hadoop permite que múltiples usuarios de diferente tipo utilicen la plataforma. II.- Que Hadoop permite trabajar con muchos ficheros de cualquier tipo. I falsa, II cierta. I falsa, II falsa. I cierta, II falsa. I cierta, II cierta.

Denunciar Test