option
Cuestiones
ayuda
daypo
buscar.php

EXAMEN GLOBAL BDA

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
EXAMEN GLOBAL BDA

Descripción:
BIG DATA APLICADO (CIDEAD)

Fecha de Creación: 2025/04/05

Categoría: Informática

Número Preguntas: 59

Valoración:(4)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

¿Cómo se llama el sistema de almacenamiento de Hadoop?. GFS. DBFS. HDFS. FS.

¿Qué tipo de escalado es el más apropiado para Hadoop?. Escalado vertical. Escalado horizontal. Escalado tangencial. Hadoop no escala.

¿Cuál es la función del paso de "shuffle" en MapReduce?. Ordenar los datos de salida de los nodos "map" antes de enviarlos a los nodos "reduce". Dividir los datos de entrada en trozos más pequeños para procesarlos de forma distribuida. Realizar la operación de reducción en los datos de entrada. Realizar una operación de mapeo en los datos de entrada.

¿Qué componente de Hadoop permite sincronizar el estado de los diferentes servicios distribuidos de Hadoop?. Apache Hive. Apache ZooKeeper. Apache HBase. Apache Flume.

¿Qué comando HDFS se utiliza para copiar un archivo del sistema de archivos distribuido de Hadoop al sistema local?. hadoop fs -ls. hadoop fs -mkdir. hadoop fs -put. hadoop fs -get.

¿Qué comando HDFS se utiliza para copiar un archivo del sistema sistema local al de archivos distribuido de Hadoop?. hadoop fs -ls. hadoop fs -mkdir. hadoop fs -put. hadoop fs -get.

¿Cómo consigue HDFS tener tolerancia a fallos?. Dividiendo los ficheros en bloques. Almacenando los bloques en diferentes nodos. Replicando los bloques en varios nodos. Todas las anteriores.

En las primeras versiones de HADOOP cuál de estas afirmaciones NO es cierta. Restringía mucho el tipo de aplicaciones que los desarrolladores podían realizar. La concurrencia en la ejecución de aplicaciones no estaba bien resuelta. El procesamiento y el almacenamiento eran independientes. Ninguna de las anteriores.

¿En qué nodo se ejecuta el ApplicationMaster?. En el nodo maestro. En el Datanode. En un nodo worker. En el ResourceManager.

¿Cuáles son las fases de ejecución de un trabajo MapReduce?. map, suffle, reduce, order. map, order, suffle, reduce. map, suffle, order, reduce. map, reduce, suffle, order.

¿Cuál es el método que se utiliza para emitir pares clave-valor en el mapper de MRJob?. yield (key, value). output.collect(key, value). emit(key, value). print(key, value).

Señala si son o no ciertas las siguientes afirmaciones: I.- Las consultas de Hive se traducen a procesos MapReduce. II.- Los datos en Hive se almacenan en una estructura relacional. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Qué operador se utiliza para proyectar o seleccionar columnas de datos en Apache Pig?. SELECT. JOIN. COGROUP. FOREACH.

Señala si son o no ciertas las siguientes afirmaciones sobre la siguiente consulta: SELECT * FROM airports LIMIT 10 I.- La sintaxis es válida en Hive. II.- La sintaxis es válida en Pig. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

Señala si son o no ciertas las siguientes afirmaciones: I.- Una transformación sobre un "dataframe" de Spark devuelve otro "dataframe". II.- Una acción sobre un "dataframe" de Spark devuelve otro "dataframe". I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Cuál es el objetivo principal de Apache Ambari?. Añade capacidades de tiempo real en un clúster Hadoop. Añade una capa de seguridad en un clúster Hadoop. Simplifica la administración de clústeres Hadoop. Ninguna de la anteriores.

El modelo tradicional basado en herramientas de ETL, Datawarehouses y herramientas de Business Intelligence y Data Mining es un buen modelo para realizar análisis de los datos para la toma de decisiones, pero tiene varios problemas asociados: A) Sólo permite analizar datos estructurados, y cada vez hay un mayor número de fuentes de datos no estructuradas que se quieren analizar: logs de aplicaciones, transcripciones de conversaciones, imágenes, vídeos, etc. B) Requiere mucha intervención de los equipos de tecnología o desarrollo, desde la construcción de los procesos ETL hasta la creación de los cuadros de mando o informes. Esto hace que desde que el negocio tiene una necesidad hasta que dispone de la herramienta para cubrir esa necesidad, el proceso puede durar demasiado tiempo. C) A y B son ciertas. D) A o B son falsas.

¿Qué quiere decir la afirmación de que Hadoop es multitenancy? I.- Que Hadoop permite que múltiples usuarios de diferente tipo utilicen la plataforma. II.- Que Hadoop permite trabajar con muchos ficheros de cualquier tipo. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

Señala si son o no ciertas las siguientes afirmaciones: I.- La implementación de un Data Lake es más económica que la de un Datawarehouse. II.- Un Datawarehouse sólo almacena datos estructurados, mientras que un Data Lake puede almacenar cualquier tipo de dato. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Cuál de las siguientes afirmaciones NO es correcta en relación con los Data Lakes?. Hadoop es una buena plataforma para implementar un Data Lake. Los Data Lakes intentan ser un repositorio de datos único para toda la empresa. Frente a los Datawarehouses tradicionales, un Data Lake ofrece más funcionalidad. Un Data Lake es más fácil de gestionar que un Datawarehouse.

¿Cuál de las siguientes afirmaciones sobre EMR NO es correcta?. EMR permite arrancar clústers Hadoop rápidamente, por lo que es muy útil para hacer pruebas con Hadoop. EMR permite configurar qué componentes del ecosistema Hadoop arrancar. EMR puede adaptar el número de servidores a la carga real que esté soportando, por lo que sólo pagas por el uso real. EMR, que son las siglas de Elastic MapReduce, sólo permite MapReduce como framework para procesar datos.

¿Cómo se llama la disciplina que tradicionalmente ha creado modelos predictivos sobre los datos del Datawarehouse?. Data Mining. Data Exploration. Data Discovery. ETL.

¿Cómo se consigue escalar o ganar mayor capacidad en una plataforma Hadoop?. Cambiando los servidores por otros con CPUs más potentes. Añadiendo más nodos master al clúster. Realizando optimizaciones en los sistemas operativos. Añadiendo más nodos worker al clúster.

¿Cuál de las siguientes afirmaciones es más apropiada para Hadoop?. Hadoop se despliega en infraestructura propia, no en entornos cloud. Cambió el paradigma tradicional, acercando el procesamiento a donde se almacenan los datos. Es la mejor tecnología para cualquier caso de uso Big Data. El nivel de seguridad es muy alto, al nivel de otras tecnologías de gestión de datos tradicionales (como las bases de datos relacionales).

¿Cómo se llaman las herramientas que preparan los datos para el Datawarehouse?. El Datawarehouse no requiere una preparación previa de los datos. Herramientas de ETL. Herramientas de Data Governance. Herramientas de Data Discovery.

Si quiero arrancar un Hadoop en la nube como servicio y quiero usar Ambari para gestionar el clúster, ¿qué solución debería utilizar?. Cloudera. HDInsight. Ninguna lleva Ambari. EMR.

¿A qué se refiere el concepto “industrialización” en relación con las actividades de ingeniería de datos?. A llevar todas las plataformas a la nube. A estandarizar y automatizar todo lo posible las tareas para ganar eficiencia. A aplicar tecnologías Big Data en el sector industrial. A aplicar mecanismos de control y validación de la calidad.

¿Cómo se llama el principal fichero de configuración para el servicio HDFS?. core-config.xml. hadoop-commons.xml. hdfs-config.xml. hdfs-site.xml.

¿Qué tipo de datos gestiona un Datawarehouse?. Datos no estructurados. Datos estructurados. Datos semi-estructurados. Cualquier tipo de datos.

¿Cómo se llama el principal fichero de configuración para el servicio Hive?. hive-site.xml. hive-config.xml. hadoop-commons.xml. core-config.xml.

¿Qué componente del ecosistema Hadoop permite ver los ficheros HDFS como si fueran tablas de una base de datos relacional?. YARN. Oozie. Hive. Ambari.

¿Cuál es la sentencia de Hive con la que se borra una nueva tabla?. DELETE TABLE. DROP TABLE. DEL TABLE. FORMAT TABLE.

¿Cómo se llama el componente que ofrece, desde una web, acceso a los ficheros de HDFS y poder lanzar consultas Hive?. Hue. Hive. Impala. Spark.

¿Cuál es la sentencia de Hive con la que modificamos los registros de una tabla?. MODIFY ROWS. UPDATE. LOAD DATA. SELECT.

¿Cuál de las siguientes afirmaciones sobre Impala es correcta?. Permite acceder a los datos de HDFS como si fuera una tabla. Ninguna de las anteriores es correcta. Permite importar datos de otras bases de datos relacionales. Permite administrar un clúster Hadoop.

Para ingestar datos que están en bases de datos relacionales, ¿qué componente de Hadoop se utiliza?. Pig. Sqoop. Flume. YARN.

¿Qué componente del ecosistema Hadoop fue el primero en aparecer para reducir la complejidad de los procesos MapReduce que se desarrollaban hasta entonces?. Spark. Pig. HDFS. YARN.

Para automatizar la ejecución de trabajos que se debe realizar en Hadoop, por ejemplo, para validar los datos ingestados, ¿qué componente se debe utilizar?. YARN. Pig. Zookeeper. Oozie.

¿Qué componente del ecosistema Hadoop permite utilizar sintaxis SQL para manejar datos que están almacenado en HBase?. Oozie. Phoenix. Storm. Pig.

Para ingestar datos que se generan en tiempo real, ¿qué componente de Hadoop se utiliza?. Storm. Spark. Flink. Flume.

¿Cómo se llama el principal fichero de configuración para el servicio YARN?. yarn-config.xml. yarn-site.xml. hadoop-commons.xml. core-config.xml.

¿Qué componentes del ecosistema Hadoop permite acceder a los ficheros HDFS con lenguaje SQL, como si fueran tablas de una base de datos?. MapReduce. HRFS. Hive. YARN.

¿Cuál es el comando de HDFS para crear un directorio?. make_dir. create_dir. rmdir. mkdir.

¿Qué componentes de Hadoop permite importar o exportar datos estructurados de base de datos relacionales a Hadoop y viceversa?. Apache Hive. Apache Pig. Apache HBase. Apache Sqoop.

¿Por qué los bloques en HDFS tienen un tamaño tan grande?. Para mejorar el rendimiento en operaciones pequeñas. Para permitir el acceso concurrente de múltiples clientes. Para facilitar la replicación de los bloques en diferentes nodos. Para reducir la cantidad de bloques necesarios en ficheros grandes.

¿Qué es el nodo NameNode en HDFS?. Un nodo de respaldo para el NameNode principal. Un nodo worker que almacena los bloques de los ficheros. El nodo maestro que mantiene la metainformación del sistema de archivos. Un nodo que toma puntos de control de los metadatos del sistema Namenode.

¿Qué es el servicio NodeManager en YARN?. El maestro que controla la ejecución de todas las tareas que están en ejecución. El servicio que recibe las peticiones de ejecución por parte de los clientes. El servicio que se ejecuta en cada nodo worker y supervisa la ejecución de las tareas en contenedores. El servicio que asigna prioridades y establece los recursos / containers que disfrutará cada aplicación.

¿Cuál es el papel del Application Master en YARN?. Controlar la ejecución en todas las tareas en YARN. Proporcionar información sobre el consumo de recursos en los nodos worker. Negociar con el Resource Manager los recursos necesarios para la ejecución de las tareas de su aplicación. Supervisar el ciclo de vida de los contenedores de aplicaciones.

Señala si son o no ciertas las siguientes afirmaciones: I.- En MrJob es obligatorio definir un mapper. II.- En MrJob puede haber más de un mapper. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Qué línea de código se utiliza para especificar la entrada de datos de MRJob sino definen etapas (“steps”)?. def mapper (self, key, value). def reduce (self, key, values). def input_data (self, input_path). def combiner (self, input_path).

¿Qué comando se utiliza para cargar datos en Pig Latin?. LOAD. READ. IMPORT. SELECT.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Antes de cargar los datos en Hive hay que definir el esquema II.- Antes de cargar los datos en Pig hay que definir el esquema. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Una transformación entre un “dataframe” de Spark devuelve otro “dataframe” II.- Una acción entre un dataframe de Spark devuelve otro dataframe. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

Señala si son o no ciertas laS siguientes afirmaciones. I.- Un fichero “ipynb” al abrirlo con Jupyter puede contener directorios y ficheros II.- Un fichero “dbc” al abrirlo en Databricks puede contener directorios y ficheros. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

Señala si son o no ciertas laS siguientes afirmaciones. I.- La implementación de un Data Lake es más económica que la de un Data Warehouse II.- Un Data Warehouse solo almacena datos estructurados, mientras que un Data Lake puede almacenar cualquier tipo de dato. I cierta, II cierta. I cierta, II falsa. I falsa, II cierta. I falsa, II falsa.

¿Qué tipo de celda NO es válida en un fichero “dbc” de Databricks?. Markdown. Java. Python. Scala.

¿Qué es un UDF en Apache Pig?. Un formato de nombre de usuario. Una función definida por el usuario para procesar datos en Pig Latin. Una interfaz de usuario para consultar datos en Pig Latin. Un formato universal de disco.

¿Cuáles de las siguientes herramientas permiten analizar datos en tiempos real?. Apache Storm. Apache Flink. Apache Spark. Todas las anteriores.

¿Cuál de las siguientes afirmaciones NO es correcta en relación con los Data Lakes?. Hadoop es una buena plataforma para implementar un Data Lake. Los Data Lakes intentan ser un repositorio de datos único para toda la empresa. Un Data Lake es más fácil que gestionar que un Data Warehouse. Frente a los Data Warehouses tradicionales, un Data Lake ofrece más funcionalidad.

Denunciar Test