BDA02 Completo
|
|
Título del Test:
![]() BDA02 Completo Descripción: Test completo de BDA02 |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Qué comando de HDFS permite modificar los permisos de un archivo (similar a Unix)?. hadoop fs -chmod. hadoop fs -permit. hadoop fs -access. hadoop fs -chown. En el ecosistema Hadoop, ¿qué afirmación describe correctamente la diferencia principal entre el modelo de procesamiento de MapReduce y Spark?. MapReduce está diseñado para tiempo real, mientras que Spark es solo para procesos batch. MapReduce procesa en memoria, mientras que Spark procesa en disco. Spark requiere hardware especializado, mientras que MapReduce funciona en hardware estándar. Spark procesa y retiene los datos en memoria, lo que le otorga una velocidad superior a MapReduce que procesa en disco. Si usted necesita listar el contenido del directorio /tmp en HDFS incluyendo todos sus subdirectorios de forma recursiva, ¿qué comando debe usar?. hadoop fs -ls -R /tmp. hadoop fs -show /tmp/*. hadoop fs -ls /tmp. hadoop fs -list -all /tmp. Según las fuentes, ¿por qué Hadoop es adecuado para almacenar datos de diferentes tipos (estructurados, semiestructurados, no estructurados)?. Porque utiliza bases de datos relacionales tradicionales distribuidas. Porque solo permite almacenar archivos de texto plano. Porque convierte todos los datos a formato XML antes de guardarlos. Porque utiliza un esquema en lectura (schema on read) en lugar de esquema en escritura. En el código Java de un Mapper, se observa la línea: context.write(new Text(companyName), new IntWritable(1)); ¿Qué representan los argumentos pasados al método write?. La clave (nombre de la empresa) y el valor (un contador de 1) que se emiten para la siguiente fase. La dirección de memoria y el valor entero. El nombre del archivo de salida y el número de línea. El nombre de la base de datos y el registro. ¿Cuál de los siguientes algoritmos del Scheduler de YARN permite definir colas de ejecución con diferentes asignaciones de recursos (por ejemplo, una cola para producción y otra para desarrollo)?. Capacity Scheduler. FIFO Scheduler. MapReduce Scheduler. Fair Scheduler. ¿Qué mecanismo utiliza HDFS para garantizar la integridad de los datos y detectar si un bloque almacenado en un Datanode está corrupto?. Replicación cruzada. Cifrado AES-256. Checksum (suma de verificación) almacenado por cada bloque. Comparación bit a bit con el Namenode cada hora. Analice la siguiente secuencia de comandos ejecutada en un entorno HDFS: hadoop fs -mkdir user/sensores/diario hadoop fs - put gps_data.csv /user/sensores/diario hadoop fs -mv /user/sensores/diario/gps_data.csv /user/sensores/historico Al finalizar la ejecución, ¿dónde se encuentra el archivo gps_data.csv?. En ambos directorios, diario e historico. Únicamente en /user/sensores/historico. El comando fallará porque no se puede mover un archivo recién subido. En el sistema de archivos local del nodo frontera. En el ejemplo práctico de análisis de cotizaciones bursátiles con MapReduce descrito en las fuentes, ¿qué tarea realiza la fase Map?. Divide el archivo CSV en múltiples archivos más pequeños. Suma el total de subidas de cotización de cada empresa. Lee cada línea y emite el par (Empresa, 1) si la cotización actual es mayor que la anterior. Ordena las empresas por volumen de facturación. Analice el siguiente comando utilizado para ver el contenido de un archivo: hadoop fs -cat user/BDA/salidaWC/part-r-00000 | head -n 50 ¿Qué resultado específico produce la tubería (|) con head -n 50?. Copia las primeras 50 líneas a un archivo local. Muestra las primeras 50 líneas del archivo almacenado en HDFS. Muestra solo las líneas que tienen 50 caracteres. Muestra las últimas 50 líneas del archivo. ¿Qué comando utilizaría para copiar un archivo desde su sistema de archivos local (Linux) hacia una ruta dentro de HDFS?. hadoop fs -cp. hadoop fs -get. hadoop fs -mv. hadoop fs -put. Si un archivo ocupa 512 MB y el tamaño de bloque es de 128 MB con un factor de replicación de 3, ¿cuántos bloques físicos totales se almacenan en el clúster?. 4 bloques. 1 bloque gigante. 3 bloques. 12 bloques (4 bloques lógicos x 3 réplicas). ¿Qué afirmación es verdadera sobre el hardware requerido para montar un clúster de Hadoop?. Requiere servidores mainframe de alto rendimiento y almacenamiento SAN dedicado. Solo funciona con servidores que tengan discos SSD exclusivamente. Requiere supercomputadoras con procesadores cuánticos. Está diseñado para ejecutarse sobre hardware commodity (estándar), reduciendo costes. En relación con la instalación de Hadoop en Google Colab mencionada en la Tarea, ¿qué configuración es crítica para las variables de entorno JAVA_HOME y HADOOP_HOME?. No es necesario configurarlas, Colab lo hace automático. Solo se configuran si se usa Windows. Deben apuntar siempre al directorio /home/user. Se deben configurar apuntando a las rutas correctas (ej. /usr/lib/jvm/...) para que Hadoop encuentre el ejecutable de Java y sus propias librerías. ¿Qué diferencia existe entre los comandos hadoop fs -cp y hadoop fs -mv en HDFS?. cp hace una copia manteniendo el original; mv mueve el archivo y este desaparece de la ruta origen. cp solo funciona entre sistemas de archivos locales y HDFS. cp mueve el archivo y mv lo copia. No hay diferencia, son alias del mismo comando. ¿Qué es libhdfs en el contexto de las interfaces de uso de HDFS?. El comando de línea para formatear el disco. La interfaz web gráfica para ver los archivos. Una librería escrita en C para interactuar con HDFS. La librería de Python para Spark. ¿Qué ventaja ofrece el uso de ssh-keygen y la configuración de claves autorizadas en la instalación pseudo-distribuida de Hadoop?. Permite que el usuario Hadoop se conecte a localhost sin necesidad de introducir contraseña cada vez. Aumenta la velocidad de descarga de Hadoop. Cifra los datos del disco duro. Permite acceder a Google Colab desde el móvil. ¿Cuál es el "Punto Único de Fallo" (Single Point of Failure) crítico en la arquitectura HDFS clásica (sin alta disponibilidad configurada)?. El Secondary Namenode. El cliente HDFS. Cualquier Datanode. El Namenode. En el contexto de YARN, ¿qué es un "Contenedor" (Container)?. Una máquina virtual completa que ejecuta un sistema operativo independiente. Un directorio en HDFS donde se guardan los logs de la aplicación. La unidad mínima de recursos de ejecución (memoria y CPU) asignada para procesar tareas. El hardware físico donde se instala el servicio ResourceManager. ¿Qué significa la característica de HDFS "Write-once, read-many" (escribe una vez, lee muchas)?. Que HDFS permite modificar partes aleatorias de un archivo cuantas veces se quiera. Que se necesita permiso de administrador para leer el archivo más de una vez. Que los archivos solo pueden leerse una vez por seguridad. Que los archivos son inmutables; solo permiten añadir contenido al final (append), no modificar datos existentes. Al realizar una operación de escritura en HDFS, ¿cómo fluyen los datos (los bloques)?. El cliente escribe simultáneamente en los tres Datanodes para maximizar la velocidad. El cliente escribe el bloque en el primer Datanode, y este Datanode replica el bloque al siguiente en la cadena (pipeline). El cliente escribe en el Secondary Namenode, que luego sincroniza con los Datanodes. El cliente envía todos los datos al Namenode, y este los distribuye a los Datanodes. ¿Qué servicio se ejecuta en los nodos worker de YARN y es responsable de monitorizar el consumo de recursos de los contenedores y reportarlo al ResourceManager?. JobHistoryServer. Datanode. NodeManager. ApplicationsManager. ¿Por qué se dice que MapReduce utiliza una estrategia "Divide y Vencerás"?. Porque separa los datos numéricos de los datos de texto. Porque divide el conjunto de datos de entrada en pequeños fragmentos que se procesan independientemente y en paralelo. Porque divide el clúster en dos mitades, una para leer y otra para escribir. Porque obliga a dividir el equipo de desarrollo en dos grupos. ¿Cuál de los siguientes NO es un estado o fase gestionado automáticamente por el framework MapReduce (es decir, el desarrollador no escribe código para ello)?. La lógica de negocio dentro del método map. Shuffle. Sort. InputFormat (división en splits). En YARN, ¿por qué el ApplicationMaster se ejecuta en un nodo worker y no en el nodo maestro (ResourceManager)?. Porque los nodos worker tienen discos más rápidos. Porque el nodo maestro no tiene Java instalado. Es indiferente, puede ejecutarse en cualquiera. Para garantizar la escalabilidad y evitar que el nodo maestro se convierta en un cuello de botella. ¿Qué ocurre con los archivos FsImage y EditLog durante el arranque del Namenode?. El EditLog reemplaza completamente al FsImage. Se envían a todos los Datanodes para su sincronización. Se borran para liberar espacio. Se fusionan: se aplican los cambios del EditLog sobre la FsImage para restaurar el estado del sistema de archivos. En un entorno distribuido, ¿cómo ayuda la "consciencia de rack" (o distancia) en la lectura de datos en HDFS?. HDFS siempre lee del Datanode con el ID más bajo. Los datos siempre se leen del Secondary Namenode. El cliente descarga el archivo completo de todos los nodos y luego lo une. El Namenode ordena los Datanodes por proximidad al cliente para reducir el tiempo de acceso y tráfico de red. Según la arquitectura de HDFS, ¿cuál es el tamaño de bloque predeterminado y cuál es su principal ventaja para el procesamiento de Big Data?. 64 MB; permite compatibilidad con sistemas operativos antiguos. 512 MB; asegura que cada archivo quepa en un solo disco físico. 128 MB; minimiza el tiempo de búsqueda (seek time) y optimiza la lectura masiva. 4 KB; reduce el espacio desperdiciado en archivos pequeños. ¿Cuál es el efecto de aumentar excesivamente el factor de replicación en un clúster Hadoop?. Mejora la velocidad de lectura pero reduce la capacidad total de almacenamiento y penaliza la escritura. Aumenta la velocidad de escritura. Reduce la tolerancia a fallos. No tiene ningún efecto en el rendimiento, solo en la seguridad. ¿Qué papel juegan los metadatos gestionados por el Namenode?. Almacenan la estructura de directorios, permisos, propietario y la ubicación de los bloques de cada archivo. Son archivos temporales que se borran al reiniciar. Son copias de seguridad de los datos de los Datanodes. Contienen los datos reales de los archivos de usuario. ¿Cuál es la función exacta del Secondary Namenode en una arquitectura HDFS estándar?. Almacenar los bloques de datos que no caben en los Datanodes principales. Actuar como un nodo de respaldo en caliente (Hot Standby) que toma el control inmediatamente si el Namenode falla. Gestionar exclusivamente las peticiones de lectura de los clientes para liberar carga del Namenode. Realizar puntos de control (checkpoints) fusionando el FsImage y el EditLog para reducir el tiempo de arranque del Namenode. ¿Cuál es el problema principal de MapReduce que motivó la creación de YARN en Hadoop 2.0?. MapReduce era demasiado rápido y saturaba la red. MapReduce no soportaba Java. YARN se creó solo para cambiar el nombre comercial. MapReduce restringía el clúster a un solo modelo de procesamiento y tenía una gestión de recursos ineficiente y acoplada. Observe el siguiente fragmento de código Java correspondiente a un trabajo MapReduce: public void reduce(Text key, Iterable<IntWritable> values, Context context) ... { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } Basándose en la lógica mostrada, ¿cuál es el objetivo de esta función Reduce?. Filtrar los valores que sean iguales a 0. Sumar todos los valores asociados a una misma clave y emitir el total. Ordenar alfabéticamente las claves de entrada. Calcular el promedio de los valores recibidos para cada clave. ¿Qué componente de YARN es responsable de negociar los recursos necesarios con el ResourceManager y coordinar la ejecución de las tareas de una aplicación específica?. Secondary Namenode. ApplicationMaster. NodeManager. Scheduler. Analice el siguiente comando de HDFS utilizado en el entorno de prácticas: hadoop fs -setrep 4 /user/sensores/historico/gps_2025.csv ¿Qué acción específica realiza este comando sobre el sistema de archivos?. Establece el nivel de permisos del archivo en lectura para 4 usuarios. Divide el archivo gps_2025.csv en 4 bloques de igual tamaño. Mueve el archivo a 4 directorios diferentes simultáneamente. Modifica el factor de replicación del archivo específico para que tenga 4 copias en el clúster. Si un Datanode deja de enviar el "latido" (heartbeat) al Namenode, ¿cuánto tiempo espera el sistema por defecto antes de considerarlo fuera de servicio y comenzar a replicar sus bloques en otros nodos?. 3 segundos. 1 hora. 1 minuto. 10 minutos. En el flujo de trabajo de MapReduce, ¿qué sucede durante la fase de Shuffle & Sort?. El programador debe escribir código para ordenar los datos manualmente. Se eliminan los datos duplicados para ahorrar espacio. Se toman los resultados parciales del Map, se ordenan por clave y se agrupan los valores de cada clave antes de pasarlos al Reducer. Se comprimen los datos para enviarlos al Namenode. ¿Qué función cumple el ApplicationsManager dentro del ResourceManager de YARN?. Aceptar peticiones de ejecución, negociar el primer contenedor para el ApplicationMaster y reiniciar este si falla. Asignar prioridades a las colas de trabajos (FIFO, Capacity). Gestionar el almacenamiento de los bloques en HDFS. Ejecutar las tareas de MapReduce en los Datanodes. En la configuración de un trabajo MapReduce en Java, ¿qué clase se utiliza para definir los tipos de datos de salida y qué clases actuarán como Mapper y Reducer?. La clase Context. La clase Configuration. La clase StringTokenizer. La clase Job (o clase Driver/Main). ¿Qué comando se debe ejecutar antes de iniciar los servicios de Hadoop por primera vez para inicializar el sistema de archivos?. hdfs namenode -format. yarn resourcemanager -init. hadoop fs -mkdir. start-dfs.sh. |





