BDA02
|
|
Título del Test:
![]() BDA02 Descripción: Test de 40 preguntas de Big Data Aplicado |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Según la arquitectura de HDFS, ¿cuál es el tamaño de bloque predeterminado y cuál es su principal ventaja para el procesamiento de Big Data?. 4 KB; reduce el espacio desperdiciado en archivos pequeños. 64 MB; permite compatibilidad con sistemas operativos antiguos. 128 MB; minimiza el tiempo de búsqueda (seek time) y optimiza la lectura masiva. 512 MB; asegura que cada archivo quepa en un solo disco físico. En el ecosistema Hadoop, ¿qué afirmación describe correctamente la diferencia principal entre el modelo de procesamiento de MapReduce y Spark?. MapReduce procesa en memoria, mientras que Spark procesa en disco. MapReduce está diseñado para tiempo real, mientras que Spark es solo para procesos batch. Spark procesa y retiene los datos en memoria, lo que le otorga una velocidad superior a MapReduce que procesa en disco. Spark requiere hardware especializado, mientras que MapReduce funciona en hardware estándar. Analice el siguiente comando de HDFS utilizado en el entorno de prácticas: hadoop fs -setrep 4 /user/sensores/historico/gps_2025.csv ¿Qué acción específica realiza este comando sobre el sistema de archivos?. Divide el archivo gps_2025.csv en 4 bloques de igual tamaño. Establece el nivel de permisos del archivo en lectura para 4 usuarios. Modifica el factor de replicación del archivo específico para que tenga 4 copias en el clúster. Mueve el archivo a 4 directorios diferentes simultáneamente. ¿Cuál es la función exacta del Secondary Namenode en una arquitectura HDFS estándar?. Actuar como un nodo de respaldo en caliente (Hot Standby) que toma el control inmediatamente si el Namenode falla. Almacenar los bloques de datos que no caben en los Datanodes principales. Realizar puntos de control (checkpoints) fusionando el FsImage y el EditLog para reducir el tiempo de arranque del Namenode. Gestionar exclusivamente las peticiones de lectura de los clientes para liberar carga del Namenode. En el contexto de YARN, ¿qué es un "Contenedor" (Container)?. Una máquina virtual completa que ejecuta un sistema operativo independiente. La unidad mínima de recursos de ejecución (memoria y CPU) asignada para procesar tareas. Un directorio en HDFS donde se guardan los logs de la aplicación. El hardware físico donde se instala el servicio ResourceManager. Si un Datanode deja de enviar el "latido" (heartbeat) al Namenode, ¿cuánto tiempo espera el sistema por defecto antes de considerarlo fuera de servicio y comenzar a replicar sus bloques en otros nodos?. 3 segundos. 1 minuto. 10 minutos. 1 hora. Observe el siguiente fragmento de código Java correspondiente a un trabajo MapReduce: public void reduce(Text key, Iterable<IntWritable> values, Context context) ... { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } Basándose en la lógica mostrada, ¿cuál es el objetivo de esta función Reduce?. Filtrar los valores que sean iguales a 0. Ordenar alfabéticamente las claves de entrada. Sumar todos los valores asociados a una misma clave y emitir el total. Calcular el promedio de los valores recibidos para cada clave. ¿Qué componente de YARN es responsable de negociar los recursos necesarios con el ResourceManager y coordinar la ejecución de las tareas de una aplicación específica?. NodeManager. ApplicationMaster. Scheduler. Secondary Namenode. Al realizar una operación de escritura en HDFS, ¿cómo fluyen los datos (los bloques)?. El cliente envía todos los datos al Namenode, y este los distribuye a los Datanodes. El cliente escribe el bloque en el primer Datanode, y este Datanode replica el bloque al siguiente en la cadena (pipeline). El cliente escribe simultáneamente en los tres Datanodes para maximizar la velocidad. El cliente escribe en el Secondary Namenode, que luego sincroniza con los Datanodes. ¿Cuál de los siguientes algoritmos del Scheduler de YARN permite definir colas de ejecución con diferentes asignaciones de recursos (por ejemplo, una cola para producción y otra para desarrollo)?. FIFO Scheduler. Fair Scheduler. Capacity Scheduler. MapReduce Scheduler. Analice la siguiente secuencia de comandos ejecutada en un entorno HDFS: hadoop fs -mkdir user/sensores/diario hadoop fs -put gps_data.csv /user/sensores/diario hadoop fs -mv /user/sensores/diario/gps_data.csv /user/sensores/historico Al finalizar la ejecución, ¿dónde se encuentra el archivo gps_data.csv?. Únicamente en /user/sensores/historico. En ambos directorios, diario e historico. En el sistema de archivos local del nodo frontera. El comando fallará porque no se puede mover un archivo recién subido. ¿Qué significa la característica de HDFS "Write-once, read-many" (escribe una vez, lee muchas)?. Que los archivos solo pueden leerse una vez por seguridad. Que HDFS permite modificar partes aleatorias de un archivo cuantas veces se quiera. Que los archivos son inmutables; solo permiten añadir contenido al final (append), no modificar datos existentes. Que se necesita permiso de administrador para leer el archivo más de una vez. En la configuración de un trabajo MapReduce en Java, ¿qué clase se utiliza para definir los tipos de datos de salida y qué clases actuarán como Mapper y Reducer?. La clase Configuration. La clase Job (o clase Driver/Main). La clase Context. La clase StringTokenizer. ¿Cuál es el efecto de aumentar excesivamente el factor de replicación en un clúster Hadoop?. Aumenta la velocidad de escritura. Reduce la tolerancia a fallos. Mejora la velocidad de lectura pero reduce la capacidad total de almacenamiento y penaliza la escritura. No tiene ningún efecto en el rendimiento, solo en la seguridad. ¿Qué mecanismo utiliza HDFS para garantizar la integridad de los datos y detectar si un bloque almacenado en un Datanode está corrupto?. Replicación cruzada. Checksum (suma de verificación) almacenado por cada bloque. Comparación bit a bit con el Namenode cada hora. Cifrado AES-256. Analice el siguiente comando utilizado para ver el contenido de un archivo: hadoop fs -cat user/BDA/salidaWC/part-r-00000 | head -n 50 ¿Qué resultado específico produce la tubería (|) con head -n 50?. Muestra las últimas 50 líneas del archivo. Muestra las primeras 50 líneas del archivo almacenado en HDFS. Muestra solo las líneas que tienen 50 caracteres. Copia las primeras 50 líneas a un archivo local. Según las fuentes, ¿por qué Hadoop es adecuado para almacenar datos de diferentes tipos (estructurados, semiestructurados, no estructurados)?. Porque convierte todos los datos a formato XML antes de guardarlos. Porque utiliza un esquema en lectura (schema on read) en lugar de esquema en escritura. Porque utiliza bases de datos relacionales tradicionales distribuidas. Porque solo permite almacenar archivos de texto plano. En el flujo de trabajo de MapReduce, ¿qué sucede durante la fase de Shuffle & Sort?. El programador debe escribir código para ordenar los datos manualmente. Se eliminan los datos duplicados para ahorrar espacio. Se toman los resultados parciales del Map, se ordenan por clave y se agrupan los valores de cada clave antes de pasarlos al Reducer. Se comprimen los datos para enviarlos al Namenode. ¿Qué comando se debe ejecutar antes de iniciar los servicios de Hadoop por primera vez para inicializar el sistema de archivos?. start-dfs.sh. hadoop fs -mkdir /. hdfs namenode -format. yarn resourcemanager -init. ¿Qué servicio se ejecuta en los nodos worker de YARN y es responsable de monitorizar el consumo de recursos de los contenedores y reportarlo al ResourceManager?. ApplicationsManager. NodeManager. Datanode. JobHistoryServer. Si usted necesita listar el contenido del directorio /tmp en HDFS incluyendo todos sus subdirectorios de forma recursiva, ¿qué comando debe usar?. hadoop fs -ls /tmp. hadoop fs -list -all /tmp. hadoop fs -ls -R /tmp. hadoop fs -show /tmp/*. En el código Java de un Mapper, se observa la línea: context.write(new Text(companyName), new IntWritable(1)); ¿Qué representan los argumentos pasados al método write?. El nombre del archivo de salida y el número de línea. La clave (nombre de la empresa) y el valor (un contador de 1) que se emiten para la siguiente fase. La dirección de memoria y el valor entero. El nombre de la base de datos y el registro. ¿Cuál es el "Punto Único de Fallo" (Single Point of Failure) crítico en la arquitectura HDFS clásica (sin alta disponibilidad configurada)?. Cualquier Datanode. El Namenode. El cliente HDFS. El Secondary Namenode. ¿Qué afirmación es verdadera sobre el hardware requerido para montar un clúster de Hadoop?. Requiere servidores mainframe de alto rendimiento y almacenamiento SAN dedicado. Requiere supercomputadoras con procesadores cuánticos. Está diseñado para ejecutarse sobre hardware commodity (estándar), reduciendo costes. Solo funciona con servidores que tengan discos SSD exclusivamente. ¿Qué función cumple el ApplicationsManager dentro del ResourceManager de YARN?. Asignar prioridades a las colas de trabajos (FIFO, Capacity). Ejecutar las tareas de MapReduce en los Datanodes. Aceptar peticiones de ejecución, negociar el primer contenedor para el ApplicationMaster y reiniciar este si falla. Gestionar el almacenamiento de los bloques en HDFS. En un entorno distribuido, ¿cómo ayuda la "consciencia de rack" (o distancia) en la lectura de datos en HDFS?. El Namenode ordena los Datanodes por proximidad al cliente para reducir el tiempo de acceso y tráfico de red. HDFS siempre lee del Datanode con el ID más bajo. Los datos siempre se leen del Secondary Namenode. El cliente descarga el archivo completo de todos los nodos y luego lo une. ¿Qué comando utilizaría para copiar un archivo desde su sistema de archivos local (Linux) hacia una ruta dentro de HDFS?. hadoop fs -get. hadoop fs -cp. hadoop fs -put. hadoop fs -mv. ¿Por qué se dice que MapReduce utiliza una estrategia "Divide y Vencerás"?. Porque obliga a dividir el equipo de desarrollo en dos grupos. Porque divide el conjunto de datos de entrada en pequeños fragmentos que se procesan independientemente y en paralelo. Porque separa los datos numéricos de los datos de texto. Porque divide el clúster en dos mitades, una para leer y otra para escribir. En el ejemplo práctico de análisis de cotizaciones bursátiles con MapReduce descrito en las fuentes, ¿qué tarea realiza la fase Map?. Suma el total de subidas de cotización de cada empresa. Lee cada línea y emite el par (Empresa, 1) si la cotización actual es mayor que la anterior. Ordena las empresas por volumen de facturación. Divide el archivo CSV en múltiples archivos más pequeños. ¿Qué diferencia existe entre los comandos hadoop fs -cp y hadoop fs -mv en HDFS?. cp mueve el archivo y mv lo copia. cp hace una copia manteniendo el original; mv mueve el archivo y este desaparece de la ruta origen. cp solo funciona entre sistemas de archivos locales y HDFS. No hay diferencia, son alias del mismo comando. ¿Qué es libhdfs en el contexto de las interfaces de uso de HDFS?. Una librería escrita en C para interactuar con HDFS. La interfaz web gráfica para ver los archivos. El comando de línea para formatear el disco. La librería de Python para Spark. ¿Qué ocurre con los archivos FsImage y EditLog durante el arranque del Namenode?. Se borran para liberar espacio. Se fusionan: se aplican los cambios del EditLog sobre la FsImage para restaurar el estado del sistema de archivos. Se envían a todos los Datanodes para su sincronización. El EditLog reemplaza completamente al FsImage. En relación con la instalación de Hadoop en Google Colab mencionada en la Tarea, ¿qué configuración es crítica para las variables de entorno JAVA_HOME y HADOOP_HOME?. No es necesario configurarlas, Colab lo hace automático. Se deben configurar apuntando a las rutas correctas (ej. /usr/lib/jvm/...) para que Hadoop encuentre el ejecutable de Java y sus propias librerías. Deben apuntar siempre al directorio /home/user. Solo se configuran si se usa Windows. ¿Qué ventaja ofrece el uso de ssh-keygen y la configuración de claves autorizadas en la instalación pseudo-distribuida de Hadoop?. Cifra los datos del disco duro. Permite que el usuario Hadoop se conecte a localhost sin necesidad de introducir contraseña cada vez. Aumenta la velocidad de descarga de Hadoop. Permite acceder a Google Colab desde el móvil. Si un archivo ocupa 512 MB y el tamaño de bloque es de 128 MB con un factor de replicación de 3, ¿cuántos bloques físicos totales se almacenan en el clúster?. 4 bloques. 12 bloques (4 bloques lógicos x 3 réplicas). 3 bloques. 1 bloque gigante. ¿Cuál de los siguientes NO es un estado o fase gestionado automáticamente por el framework MapReduce (es decir, el desarrollador no escribe código para ello)?. Shuffle. Sort. InputFormat (división en splits). La lógica de negocio dentro del método map. ¿Qué papel juegan los metadatos gestionados por el Namenode?. Contienen los datos reales de los archivos de usuario. Almacenan la estructura de directorios, permisos, propietario y la ubicación de los bloques de cada archivo. Son copias de seguridad de los datos de los Datanodes. Son archivos temporales que se borran al reiniciar. En YARN, ¿por qué el ApplicationMaster se ejecuta en un nodo worker y no en el nodo maestro (ResourceManager)?. Porque el nodo maestro no tiene Java instalado. Para garantizar la escalabilidad y evitar que el nodo maestro se convierta en un cuello de botella. Porque los nodos worker tienen discos más rápidos. Es indiferente, puede ejecutarse en cualquiera. ¿Qué comando de HDFS permite modificar los permisos de un archivo (similar a Unix)?. hadoop fs -chown. hadoop fs -chmod. hadoop fs -permit. hadoop fs -access. ¿Cuál es el problema principal de MapReduce que motivó la creación de YARN en Hadoop 2.0?. MapReduce era demasiado rápido y saturaba la red. MapReduce restringía el clúster a un solo modelo de procesamiento y tenía una gestión de recursos ineficiente y acoplada. MapReduce no soportaba Java. YARN se creó solo para cambiar el nombre comercial. |




