Big data aplicado
|
|
Título del Test:
![]() Big data aplicado Descripción: test ilerna |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es el objetivo principal del análisis predictivo en BI?. Catalogar datos por categorías. Almacenar datos en un sistema seguro. Describir el rendimiento pasado. Predecir eventos futuros basándose en datos históricos. Una alta disponibilidad (HA) se logra típicamente a través de: Aumento del tamaño de cada servidor. Disminución del tiempo de respuesta. Redundancia en el sistema. Uso exclusivo de almacenamiento en la nube. La replicación geográfica se utiliza para: Aumentar la velocidad de acceso a datos locales. Simplificar el procesamiento de datos en tiempo real. Asegurar la disponibilidad de datos entre múltiples ubicaciones. Reducir costos de almacenamiento. Un sistema que asegura la integridad de los datos utilizará: Análisis de datos sin estructura. Copias de seguridad físicas solo. Plataformas de almacenamiento sin conexión. Mecanismos de verificación y validación. ¿Cuál es un beneficio clave de la escalabilidad en sistemas de big data?. Reducir la cantidad de datos almacenados. Aumentar la capacidad del sistema sin interrumpir operaciones. Disminuir la velocidad de procesamiento. Aumentar la complejidad del sistema. El término ‘big data’ se refiere principalmente a: Grandes volúmenes de datos que pueden ser estructurados o no estructurados. Solo datos no estructurados. Datos almacenados en redes locales. Datos procesados en tiempo real. La capacidad de un sistema de almacenamiento para crecer según la demanda sin afectar a su rendimiento es conocida como: Flexibilidad. Redundancia. Escalabilidad. Disponibilidad. ¿Qué metodología se utiliza para transformar datos no estructurados en información útil en BI?. ETL (Extract, Transform, Load). Data Mining (Minería de Datos). KDD (Knowledge Discovery in Databases). OLAP (Online Analytical Processing). La escalabilidad puede ser: Temporal o permanente. Estática o dinámica. Local o global. Vertical u horizontal. ¿Cuál es una de las principales responsabilidades de un administrador de almacenamiento?. Aumentar la velocidad del internet. Estudiar el comportamiento del usuario. Crear aplicaciones de móviles. Diseñar arquitecturas que cumplan con los requisitos del sistema. ¿Cuál es una ventaja de procesar datos almacenados en un sistema de Big Data?. Menor seguridad de la información. Mejora en la toma de decisiones estratégicas. Aumento en el uso de papel. Reducción del número de empleados. ¿Qué se entiende por escalabilidad horizontal en un sistema de Big Data?. Añadir nuevos nodos para aumentar la capacidad. Aumentar la potencia de un nodo existente. Reducir el tamaño de los datos. Limitar el número de nodos en operación. ¿Cuál es la función del HDFS en un ecosistema de Big Data?. Dividir datos en bloques y replicarlos en nodos. Almacenar datos en un único servidor. Gestionar la comunicación entre nodos. Proveer capacidades de procesamiento en tiempo real. ¿Qué hace que Apache Kafka sea una herramienta adecuada para Big Data?. Genera reportes automáticamente. Almacena datos de forma estructurada. Realiza análisis de datos. Permite la ingesta de datos en tiempo real. ¿Qué característica de Big Data permite añadir nuevos nodos sin interrumpir servicios?. Tolerancia a fallos. Descentralización. Comunicación por red. Escalabilidad horizontal. ¿Qué propiedades establece el teorema CAP para un sistema distribuido?. Tolerancia a errores y Tolerancia a fallos. Consistencia, Disponibilidad y Tolerancia a particiones. Consistencia y Tolerancia a fallos. Disponibilidad y Consistencia. Si un sistema de Big Data prioriza la disponibilidad sobre la consistencia, ¿qué implica esto sobre las respuestas que ofrece?. Las respuestas pueden no ser las más recientes. No puede haber errores en las respuestas. El sistema no puede seguir funcionando. Siempre son respuestas actualizadas. ¿Qué es MapReduce en el contexto de Big Data?. Un modelo de programación para el procesamiento masivo de datos en paralelo. Un servicio de almacenamiento en la nube. Una herramienta para la visualización de datos. Un tipo de red de computadoras. ¿Para qué se utiliza Apache Pig en el ecosistema de Big Data?. Para la transformación y análisis de datos de manera sencilla. Para almacenar grandes volúmenes de datos. Para supervisar nodos en un clúster. Para crear aplicaciones web. ¿Cuál es la función principal de Apache Spark en un sistema de Big Data?. Enviar datos a bases de datos relacionales. Guardar datos en un sistema de archivos. Crear información gráfica de datos. Realizar procesamiento de datos en memoria y de forma rápida. ¿Cuál es la función principal de Flume en Big Data?. Flume se utiliza para la recolección y transferencia de datos en tiempo real. Flume es un sistema de gestión de usuarios. Flume realiza análisis predictivo. Flume procesa datos complejos. ¿Cuál de las siguientes afirmaciones describe mejor el uso de MapReduce?. MapReduce permite procesar grandes conjuntos de datos de forma distribuida. MapReduce es un lenguaje de programación. MapReduce solo se utiliza en sistemas operativos específicos. MapReduce es una herramienta de visualización de datos. ¿Cuál es la principal diferencia entre computación distribuida y computación paralela?. La computación paralela se usa solo en grandes empresas. La computación distribuida y la paralela son lo mismo. La computación distribuida divide tareas entre nodos conectados por red, mientras que la computación paralela ejecuta tareas simultáneamente en múltiples núcleos dentro de un mismo sistema. Ambos modelos son usados solo en sistemas de red local. ¿Qué rol desempeña Kubernetes en un entorno de computación distribuida?. Almacena todos los datos de manera centralizada. Gestiona aplicaciones distribuidas en clústeres. Es un sistema operativo exclusivo para un nodo. Coordina solo el almacenamiento de datos. ¿Qué función cumple Apache Kafka en un ecosistema de Big Data?. Es una herramienta para la visualización de datos. Es un algoritmo de procesamiento de datos. Es una plataforma de mensajería para la ingesta de datos en tiempo real. Es un sistema de almacenamiento de datos relacionales. ¿Cómo se comunican los nodos en un sistema de computación distribuida?. A través de llamadas telefónicas. A través de protocolos estándar como TCP/IP y gRPC. Utilizando solo memoria compartida. Mediante cables de red dedicados. ¿Qué significa que un sistema sea descentralizado en el contexto de la computación distribuida?. El sistema no puede crecer o cambiar. Los datos se manejan en un solo lugar. Todos los nodos dependen de un servidor central. No existe un único punto de control; la carga se reparte entre nodos autónomos. ¿Cuál es la función del sistema de asignación de tareas en un entorno de computación distribuida?. Sincroniza la ejecución de las tareas en todos los nodos. Reúne todos los resultados parciales en uno solo. Divide un problema en tareas independientes automáticamente. Optimiza el equilibrio de carga asignando subtareas a procesadores o nodos. ¿Qué implica la comunicación y sincronización en sistemas paralelos?. Reduce el número de nodos necesarios para el procesamiento. Los procesos paralelos intercambian datos o sincronizan resultados. Elimina la necesidad de coordinación entre los nodos. Aumenta la carga en un único procesador para mayor eficiencia. ¿Cuál es un ejemplo de paralelismo a nivel de tareas?. Ejecutar una única operación en múltiples pasadas. Procesar un solo modelo de machine learning en un nodo. Entrenar múltiples modelos de machine learning en paralelo. Dividir un conjunto de datos para aplicar filtros distintos. ¿Cuál de las siguientes afirmaciones describe mejor la tolerancia a fallos en los sistemas de almacenamiento distribuidos?. Los sistemas continúan funcionando a pesar de fallos en algunos nodos. Los sistemas nunca pueden tener fallos. Los sistemas se detienen completamente si un nodo falla. Los sistemas deben apagarse para reparar los fallos. ¿Qué ventaja principal ofrece el modelo de computación distribuida en comparación con la computación centralizada?. No requiere redes para funcionar. Permite utilizar los recursos de múltiples servidores para un procesamiento más eficiente. Es más barato que cualquier otro modelo. Solo utiliza un servidor para todas las operaciones. Los sistemas de almacenamiento distribuidos no pueden escalar fácilmente añadiendo más módulos. V. F. ¿Por qué la gestión manual de procesos en Big Data se considera inviable?. Porque es más rápida que la automatización. Porque es muy costosa. Por la complejidad y el volumen de datos que se manejan. Porque no se necesita monitoreo. ¿Cuál es la función principal de un orquestador en entornos de Big Data?. Aumentar la complejidad del procesamiento. Automatizar la ejecución y monitorización de trabajos. Reducir la cantidad de datos procesados. Almacenar datos de forma distribuida. ¿Para qué tipo de datos es más adecuado utilizar Apache Kafka?. Datos estáticos que no requieren procesamiento. Solo datos históricos de usuarios. Grandes volúmenes de datos no estructurados sin análisis. Para procesar flujos de datos en tiempo real. ¿Qué función tiene Apache Zookeeper en sistemas de Big Data?. Ejecutar análisis de datos en tiempo real. Almacenar únicamente datos de usuarios. Proporcionar una interfaz gráfica para el usuario. Gestionar configuraciones y mantener coherencia entre nodos. ¿Qué modelo de consistencia aplica Apache Cassandra según el teorema CAP?. AP (Disponibilidad y partición) con consistencia ajustable. Solamente disponibilidad sin considerar la consistencia. CP (Consistencia y partición) sin disponibilidad. Consistencia estricta sin tolerancia a particiones. ¿Cuál es una característica principal de HBase?. Es una base de datos SQL. Funciona únicamente con datos no estructurados. Soporta grandes volúmenes de datos estructurados y semiestructurados. No permite lecturas ni escrituras en tiempo real. ¿Qué tipo de datos puede manejar Apache Pig de manera efectiva?. Datos exclusivamente en tiempo real. Datos semiestructurados. Datos no estructurados únicamente. Solo datos estructurados. En el proceso de limpieza de datos, ¿qué se realiza en el 'profiling' de datos?. Imputar valores faltantes. Análisis exploratorio para identificar patrones y anomalías. Eliminar registros duplicados. Estandarizar formatos de datos. ¿Cuál de las siguientes métricas mide el porcentaje de registros que reflejan correctamente la realidad?. Consistencia. Completitud. Exactitud. Validez. ¿Qué desafío presenta el Big Data para la calidad de los datos?. Falta de actualización. Exclusión de datos estructurados. Diversidad, velocidad y volumen de los datos. Simplicidad en la gestión. ¿Qué se entiende por unicidad en la calidad de los datos?. Datos que cumplen con todas las reglas. Datos sin errores. Datos actualizados regularmente. Ausencia de duplicados en los registros. ¿Qué técnica de detección de errores permite la comparación de datos entre diversas fuentes?. Cross-checking. Validaciones automáticas. Modelos estadísticos. Verificación por checksum. En las plataformas de observabilidad de datos, ¿qué se utiliza para supervisar la salud del pipeline?. Únicamente reportes manuales. Datos históricos. Métricas, alertas y visualizaciones. Algoritmos de predicción. ¿Qué tipo de error es indicado por un campo que contiene una fecha inválida, como '2025-13-45'?. Errores de duplicación. Errores sintácticos. Errores de transmisión. Errores semánticos. ¿Cuál es la principal consecuencia de una mala calidad de datos en una organización?. Decisiones empresariales incorrectas. Incremento en el volumen de datos. Reducción de costos operativos. Mayor velocidad en el procesamiento de datos. ¿En qué consiste la imputación de valores faltantes?. Sustitución de valores nulos por estimaciones. Eliminación de registros. Normalización de datos. Codificación de variables. ¿Cuál es un ejemplo de un método de corrección para datos duplicados?. Validación de datos. Eliminación de datos. Imputación de valores faltantes. Uso de algoritmos de similitud. ¿Cuál de las siguientes opciones describe mejor la migración de datos?. La eliminación de datos obsoletos. La organización de datos en un sistema local. El proceso de mover datos de un sistema o formato a otro. La creación de copias de seguridad de datos. ¿Qué implica la calidad de los datos en un sistema de información?. Que los datos sean recuperables siempre que sea necesario. Que los datos sean almacenados en un solo lugar. Que los datos estén actualizados a todas horas. Que los datos sean precisos, completos y consistentes. ¿Qué ocurre con los datos sospechosos que se mueven a una zona de cuarentena?. Son aislados para un análisis adicional. Son replicados en otras ubicaciones. Se restauran automáticamente. Se eliminan inmediatamente. ¿Cuál es el propósito de la verificación en lectura (read-time check)?. Revisar el rendimiento de la red. Detectar corrupciones en tiempo real durante la lectura de datos. Eliminar datos corruptos automáticamente. Incrementar la velocidad de lectura. ¿Qué estrategia de reparación utiliza la copia de bloques desde réplicas válidas en caso de daño?. Reparación preventiva. Reparación manual. Reparación por replicación. Reparación por codificación de borrado. |




