BDA01
|
|
Título del Test:
![]() BDA01 Descripción: 40 preguntas tipo test de Big Data Aplicado |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Según los documentos técnicos de Google de 2003 y 2004 que inspiraron a Hadoop, ¿qué dos problemas fundamentales resolvían?. La virtualización de servidores y la encriptación de datos en la nube. El almacenamiento distribuido de ficheros (GFS) y el procesamiento simplificado (MapReduce). La creación de bases de datos relacionales distribuidas y el lenguaje SQL. La gestión de memoria RAM en tiempo real y la latencia de red. ¿Cuál es la definición técnica más precisa de Apache Hadoop según el temario?. Una base de datos relacional gratuita que compite con Oracle. Una herramienta de Business Intelligence para crear gráficos. Una plataforma opensource para almacenar y procesar grandes volúmenes de datos en hardware commodity. Un sistema operativo diseñado exclusivamente para superordenadores de la NASA. En la arquitectura de hardware de un clúster, ¿qué configuración de discos es la recomendada para los Nodos Worker y por qué?. RAID 10, para asegurar que si un disco falla no se pierdan datos a nivel de hardware. RAID 5, para optimizar la paridad y la velocidad de lectura. JBOD (Just a Bunch of Disks), porque la replicación y redundancia la gestiona el software (HDFS), no el hardware. Discos SSD en RAID 0 para máxima velocidad, sacrificando la seguridad. Analiza la siguiente lógica de escalabilidad: "Pasar de 1 PB a 2 PB de almacenamiento cuesta exactamente el doble". ¿A qué tipo de sistema corresponde?. Sistema de escalado vertical (Mainframe). Sistema de base de datos relacional tradicional. Sistema de escalado horizontal (Hadoop). Sistema de almacenamiento en cinta magnética. ¿Qué componente del ecosistema utilizarías obligatoriamente para importar datos desde una base de datos relacional (MySQL/Oracle) hacia HDFS cada noche a las 00:00?. Apache Flume. Apache Sqoop. Apache Kafka. Apache Spark. ¿Cuál es la función principal de YARN en el ecosistema Hadoop?. Almacenar los bloques de datos en el disco duro. Proporcionar una interfaz SQL para consultas. Gestionar los recursos del clúster (CPU/RAM) y arbitrar la ejecución de aplicaciones. Ingestar datos en streaming desde sensores. En el caso práctico de la empresa de transportes, se decide guardar los datos GPS en formato "Parquet" en lugar de "CSV". ¿Cuál es la ventaja técnica principal citada?. Parquet es un formato legible por humanos en un editor de texto. Parquet es un formato columnar que comprime mejor y es más eficiente para consultas analíticas. Parquet no requiere ningún tipo de metadatos. Parquet es el único formato que acepta Apache Hive. Si un Nodo Worker se desconecta inesperadamente (fallo de red), ¿cómo reacciona el Nodo Master para garantizar la tolerancia a fallos?. El Master detiene todo el clúster hasta que el nodo se repara. El Master recupera los datos perdidos desde su propia memoria RAM. El Master detecta la pérdida de latido (heartbeat) y ordena a otros nodos replicar los bloques que estaban en el nodo caído. El Master solicita al administrador del sistema que restaure una copia de seguridad en cinta. ¿Qué significa el concepto "Schema-on-Read" (Esquema en Lectura)?. Que debes definir las tablas y tipos de datos (INT, VARCHAR) antes de guardar cualquier fichero. Que los datos se guardan en bruto (raw) y la estructura se define solo en el momento de procesarlos/leerlos. Que el esquema de base de datos se lee automáticamente desde el fichero origen. Que solo se pueden leer datos que tengan un esquema XML validado. Si debes diseñar un Nodo Master para un clúster grande, ¿cuál es la especificación de hardware crítica?. Mucho espacio en disco (JBOD) y poca RAM. Poca importancia en la fuente de alimentación, pero mucha GPU. Alta cantidad de RAM (para metadatos), procesadores fiables y discos en RAID (1 o 10) para el SO. Hardware commodity barato, igual que los nodos worker. ¿Cuál es el "Factor de Replicación" por defecto en HDFS y qué implica para el almacenamiento real?. Factor 1: 1 TB de datos ocupa 1 TB de disco. Factor 2: 1 TB de datos ocupa 1.5 TB de disco (paridad). Factor 3: 1 TB de datos ocupa 3 TB de disco. Factor 5: 1 TB de datos ocupa 5 TB de disco. En el contexto de distribuciones de Hadoop, ¿qué ocurrió con Cloudera y Hortonworks en 2018/2019?. Ambas desaparecieron y fueron reemplazadas por Google. Se fusionaron, quedando Cloudera como la principal distribución comercial unificada. Hortonworks compró a Microsoft Azure. Ambas decidieron dejar de usar Hadoop y pasarse a Mainframe. Tienes el siguiente requerimiento: "Ingestar logs de 100 sensores que emiten 1 medida por segundo en tiempo real". ¿Qué herramienta NO es adecuada?. Apache Flume. Apache Kafka. Apache Storm. Apache Sqoop. ¿Qué es un "Nodo Frontera" (Edge Node) y para qué sirve?. Es un nodo de respaldo por si cae el Master. Es el punto de conexión entre el clúster (red privada) y el exterior (usuarios/aplicaciones), donde se lanzan los clientes. Es un nodo situado geográficamente en el borde de la ciudad. Es el nodo que almacena los datos más antiguos. Analiza el siguiente pseudo-código de flujo de trabajo: Ingesta -> Almacenamiento Raw -> Procesamiento Spark -> Guardado en Hive. ¿Qué herramienta se encarga de la orquestación y planificación (scheduling) de estos pasos?. Apache Zookeeper. Apache Oozie. Apache Ambari. Apache Mahout. ¿Cuál es el error conceptual en la siguiente afirmación?: "El Nodo Master envía los datos directamente a los clientes cuando estos hacen una petición de lectura". El Master no tiene los datos, solo los metadatos; el cliente lee directamente de los Workers. El Master envía los datos, pero primero los comprime. Los clientes nunca leen datos, solo escriben. La afirmación es correcta, el Master es el único que tiene acceso a los datos. Apache Hive permite realizar consultas sobre HDFS utilizando un lenguaje llamado HiveQL. ¿A qué lenguaje estándar se parece?. Java. Python. SQL. C++. ¿Cuál es la principal desventaja de usar soluciones Hadoop en la Nube (Cloud) frente a On-Premise?. Requieren una inversión inicial (CAPEX) muy alta. El aprovisionamiento tarda meses. El riesgo de "Vendor Lock-in" (dificultad para cambiar de proveedor) y costes de salida de datos. No permiten escalabilidad elástica. ¿Para qué caso de uso NO recomendarías usar Hadoop?. Para almacenar un Data Lake de datos históricos de 10 años. Para procesar transacciones bancarias en tiempo real con requisitos ACID estrictos y pocos datos. Para análisis de sentimientos sobre millones de Tweets. Para detección de fraude en históricos de tarjetas de crédito. ¿Qué ventaja ofrece el escalado horizontal frente al vertical en términos de límites físicos?. El escalado horizontal está limitado por el tamaño del chasis del servidor más grande del mercado. El escalado horizontal tiene un límite teórico mucho más alto (miles de nodos) que el vertical. El escalado vertical permite almacenamiento infinito. No hay diferencia en los límites físicos. ¿Qué función cumple Apache Zookeeper en el ecosistema?. Es un motor de búsqueda de textos. Es un servicio de coordinación y sincronización para sistemas distribuidos. Es la mascota del proyecto. Es una herramienta para visualizar logs. En un diseño de arquitectura, ¿por qué se configuran dos Nodos Master en modo Activo-Pasivo?. Para duplicar la velocidad de procesamiento. Para tener Alta Disponibilidad: si el Activo cae, el Pasivo asume el control sin detener el servicio. Porque un solo Master no puede gestionar más de 10 Workers. Para que uno gestione lecturas y el otro escrituras. ¿Qué es "Apache Spark" y por qué se menciona como el mejor complemento de Hadoop?. Es un sistema de archivos que sustituye a HDFS. Es un motor de procesamiento en memoria muy rápido que soporta SQL, Streaming y Machine Learning. Es una base de datos NoSQL antigua. Es el conector de red física. Si tu empresa necesita "Gobierno del Dato" (linaje, clasificación, seguridad), ¿qué herramienta del ecosistema deberías integrar?. Apache Atlas. Apache Pig. Apache Mahout. Apache Flume. ¿Cuál es el coste aproximado de escalado en un sistema tradicional frente a Hadoop según las fuentes?. Tradicional: Lineal / Hadoop: Exponencial. Tradicional: Exponencial / Hadoop: Lineal. Ambos son lineales. Hadoop es más caro por las licencias de software. Analiza el siguiente escenario: "Necesitamos analizar un Excel de 500 filas con ventas mensuales". ¿Es Hadoop la solución adecuada?. Sí, porque Hadoop siempre es más rápido. Sí, porque es la única forma de asegurar los datos. No, es "matar moscas a cañonazos"; la sobrecarga de gestión distribuida lo haría ineficiente. Sí, pero solo si usamos un clúster de 100 nodos. ¿Qué diferencia clave existe entre Apache HBase y HDFS?. HDFS es para almacenamiento de ficheros; HBase es una BBDD NoSQL para acceso aleatorio y lecturas rápidas sobre HDFS. HBase es relacional y HDFS no. HBase no usa HDFS por debajo. Son lo mismo, solo cambia el nombre comercial. En el cálculo de capacidad de un clúster: Si tienes 50 nodos, cada uno con 48 TB de disco raw, y usas replicación x3. ¿Cuál es tu capacidad efectiva aproximada?. 2.4 PB. 800 TB. 100 TB. 4.8 PB. ¿Qué filosofía de diseño sigue Hadoop respecto al movimiento de datos?. Llevar los datos al programa (mover petabytes por la red hacia la CPU central). Llevar el procesamiento a los datos (enviar el código a los nodos donde están los datos). Descargar los datos a una cinta externa para procesarlos. Procesar todo en la nube pública obligatoriamente. ¿Qué proyecto dio origen al código de Hadoop antes de que Yahoo! lo adoptara?. Apache WebServer. Apache Nutch. Linux Kernel. MySQL. Identifica el componente basándote en su descripción: "Herramienta de scripting de alto nivel para definir flujos de datos y transformaciones, usando un lenguaje llamado Pig Latin". Apache Hive. Apache Pig. Apache Phoenix. Apache Oozie. ¿Qué significa que el hardware de Hadoop sea "commodity"?. Que es hardware de baja calidad y propenso a fallos, reciclado de oficinas. Que es hardware estándar de mercado, con buena relación coste-rendimiento, sin componentes "exóticos" o propietarios. Que es hardware gratuito donado por Google. Que utiliza ordenadores cuánticos. En un entorno de producción, ¿por qué es difícil usar "Hadoop Vanilla" (sin distribución comercial)?. Porque no es legal. Porque la gestión de versiones y dependencias entre componentes (ej. HBase compatible con Hive) es extremadamente compleja. Porque Hadoop Vanilla no tiene interfaz gráfica. Porque Hadoop Vanilla solo funciona en Windows. ¿Qué hace Apache Impala?. Lo mismo que Hive (SQL) pero optimizado para baja latencia y alto rendimiento (consultas interactivas). Procesa imágenes. Gestiona la seguridad perimetral. Es un sistema de mensajería. ¿Cuál es el error común al dimensionar la memoria RAM de un Nodo Master?. Ponerle demasiada RAM (más de 64GB es tirar el dinero). Ponerle poca RAM. Necesita mantener todo el mapa de bloques del sistema de ficheros en memoria, por lo que requiere mucha (ej. 128GB+). Usar memoria DDR3 en lugar de DDR4. La RAM no importa en el Master, solo el disco. En el caso práctico de Roberto (CTO), quiere integrar "datos no estructurados". ¿Cuál es un ejemplo válido de este tipo de dato mencionado en los textos?. Tablas de clientes de Oracle. Ficheros CSV de contabilidad. Vídeos de cámaras de seguridad o imágenes. Ficheros JSON con esquema fijo. ¿Qué es un "Data Lake"?. Un repositorio centralizado donde se almacenan datos estructurados y no estructurados a gran escala. Una base de datos temporal que se borra cada noche. Una copia de seguridad en cinta. Un software de visualización de datos. ¿Cuál es el papel de Doug Cutting en la historia de Hadoop?. Fue el CEO de Google que publicó los papers. Fue el creador de Hadoop (inspirado en GFS/MapReduce) mientras trabajaba en Yahoo! y Cloudera. Fue el creador del lenguaje Java. Fue el fundador de Apache Software Foundation. Si necesitas realizar Machine Learning sobre los datos almacenados en Hadoop, ¿qué librería de Apache Spark usarías o qué componente antiguo usarías?. Apache Mahout (antiguo) o Spark MLlib. Apache Sqoop. Apache Flume. Apache Zookeeper. ¿Por qué se dice que la "Red" es crítica en un clúster Hadoop aunque los nodos sean commodity?. Porque los nodos deben tener acceso a internet para descargar actualizaciones. Porque en la fase "Shuffle" de MapReduce/Spark hay un movimiento masivo de datos entre nodos que puede saturar el ancho de banda. No es crítica, con una red Wifi es suficiente. Porque el Master necesita enviar los datos a los usuarios. |




