Big Data Aplicado #3
|
|
Título del Test:
![]() Big Data Aplicado #3 Descripción: Test número 6 |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuáles son las 4 V's sobre el Almacenamiento según el curso?. Volumen, Velocidad, Variedad y Veracidad. Variedad, Valor, Veracidad y Virtualización. Velocidad, Volumen, Verificación y Validez. Volumen, Valor, Visualización y Velocidad. ¿Qué tipo de datos son JSON y XML?. Datos Estructurados. Datos No Estructurados. Metadatos. Datos Semiestructurados. ¿Qué significa RDBS en el contexto de datos estructurados?. Remote Data Broadcasting Services. Robust Database Storage. Real Data Backup Systems. Relational Database Systems. ¿Cuáles son los principios fundamentales del Big Data según el curso?. Velocidad, Variedad, Volumen y Valor. Escalabilidad, Distribución, Tolerancia a Fallos y Paralelismo. Seguridad, Eficiencia, Rapidez y Precisión. Almacenamiento, Procesamiento, Análisis y Visualización. ¿Qué significan las siglas ETL?. Extract – Transform – Load. Execute – Test – Launch. Export – Translate – Link. Evaluate – Transfer – Log. ¿Cuáles son las 5 V's del Big Data mencionadas en Analítica?. Variedad, Verificación, Volumen, Velocidad y Veracidad. Valor, Volumen, Virtualización, Variedad y Validez. Velocidad, Validez, Virtualización, Volumen y Valor. Volumen, Velocidad, Valor, Veracidad y Variedad. ¿En qué año se creó MapReduce?. 2012. 2010. 2006. 2004. ¿En qué año se creó Apache Spark?. 2012. 2006. 2014. 2010. ¿Qué es RDD en Apache Spark?. Resilient Distributed Dataset. Real Data Distribution. Relational Database Driver. Rapid Data Delivery. ¿Qué es Cloud Computing según el NIST?. Un sistema de almacenamiento de datos en internet. Una plataforma exclusiva para aplicaciones web. Una tecnología para virtualización de servidores. Un modelo para permitir acceso de red cómodo y bajo demanda a recursos informáticos configurables. ¿Cuáles son los tres tipos principales de servicios Cloud?. Storage, Computing y Networking. Public, Private y Hybrid. AWS, Azure y Google Cloud. IaaS, PaaS y SaaS. ¿Qué es la Calidad de Datos según el curso?. La cantidad de datos almacenados en la base de datos. El formato en que se presentan los datos. La velocidad de procesamiento de los datos. Los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos. ¿Cuánto cuesta validar y corregir un error de datos a la entrada según el curso?. 10€ por error. 5€ por error. 1€ por error. 100€ por error. ¿Cuánto puede costar validar y corregir un error después de la ingesta según el curso?. Entre 5€ y 10€ por error. Entre 10€ y 100€ por error. Entre 100€ y 1000€ por error. Entre 1€ y 5€ por error. ¿Qué significa la sigla CDO?. Corporate Data Organization. Chief Data Officer. Central Data Operations. Certified Database Operator. ¿Cuáles son las cuatro acciones viables cuando se detecta un error de datos?. Ignorar, Eliminar, Modificar, Reportar. Registrar, Verificar, Actualizar, Notificar. Analizar, Documentar, Escalar, Resolver. Rechazar el Error, Aceptar el Error, Corregir el Error, Aplicar un valor Predeterminado. ¿Qué significa HDFS?. Hadoop Distributed File System. Hybrid Database Functional Storage. Hierarchical Data File Structure. High Data Flow System. ¿Qué característica tiene HDFS según el curso?. Write Once, Read Many (WORM). Write Many, Read Once. Write and Delete Frequently. Write Rarely, Read Never. ¿Qué es un Dashboard o Cuadro de Mando según el curso?. Un tipo de base de datos relacional. Una herramienta de programación. Una interfaz gráfica que proporciona vistas rápidas de datos relevantes mediante visualizaciones e información resumida. Un sistema de almacenamiento de datos. ¿Qué significa KPI?. Key Performance Indicators. Key Product Information. Knowledge Process Integration. Kernel Processing Interface. ¿Cuál es la principal diferencia entre procesamiento por lotes y procesamiento en tiempo real según el curso?. El procesamiento en tiempo real solo funciona con datos estructurados. No hay diferencias significativas entre ambos. El procesamiento por lotes es más costoso que el tiempo real. El procesamiento por lotes tiene alta latencia y es periódico; el tiempo real tiene baja latencia y es continuo. ¿En qué año se creó la Arquitectura Lambda?. 2008. 2012. 2014. 2010. ¿Cuáles son las capas principales de la Arquitectura Lambda?. Storage, Processing y Visualization. Solo Batch Layer y Real-time Layer. Input, Processing y Output. Capa Batch, Speed Layer (Streaming) y Serving Layer. ¿En qué año se creó la Arquitectura Kappa?. 2012. 2014. 2016. 2010. ¿Qué principio fundamental caracteriza a la Arquitectura Kappa?. Todo es un Stream, donde las operaciones batch son un subconjunto de las operaciones de streaming. Procesamiento exclusivo por lotes. Uso de múltiples capas de procesamiento. Separación completa entre batch y streaming. ¿Qué tipos de transformaciones define Spark según el curso?. Narrow transformation y Wide transformation. Simple transformation y Complex transformation. Local transformation y Global transformation. Quick transformation y Slow transformation. ¿Cuáles son las propiedades ACID mencionadas en el curso?. Atomicity, Consistency, Isolation y Durability. Accuracy, Completeness, Integrity y Data quality. Authentication, Confidentiality, Integrity y Discretion. Availability, Consistency, Integration y Distribution. ¿Cuáles son las dimensiones clave para medir la Calidad de los Datos según el curso?. Formato, Estructura y Almacenamiento. Exactitud/Precisión, Consistencia, Completitud, Unicidad, Confiabilidad, Actualidad e Integridad Referencial. Solo Precisión y Completitud. Volumen, Velocidad y Variedad. ¿Qué tipo de compresión utiliza HBase por defecto?. LZ4. GZIP. SNAPPY. LZO. ¿Qué significan las siglas SMART en el contexto de objetivos de los Cuadros de Mando?. Simple, Measurable, Accurate, Relevant y Timely. Strategic, Meaningful, Actionable, Reliable y Transparent. Structured, Monitored, Analytical, Responsive y Testable. Específicos, Medibles, Alcanzables, Realistas y Acotados en el tiempo. ¿Qué ventajas tiene la Arquitectura Lambda según el curso?. Solo funciona con datos estructurados. Es más económica que otras arquitecturas. Requiere menos mantenimiento que Kappa. Balancea Velocidad, Fiabilidad y Escalabilidad; resuelve problemas de datos desordenados mediante procesamiento por lotes. ¿Cuáles son las principales desventajas de la Arquitectura Lambda?. No puede procesar grandes volúmenes de datos. Doble codificación para batch y tiempo real, doble infraestructura (inversión, monitoreo, logs), módulos duplicados. Tiene baja tolerancia a fallos. Solo funciona en entornos cloud. ¿Cuál es la principal ventaja de la Arquitectura Kappa sobre Lambda?. Resuelve el problema de redundancia con una única infraestructura y un solo código base. Es más barata en todos los casos. No requiere configuración. Procesa datos más rápido. ¿Qué es CRISP-DM según se presenta en el curso?. Una metodología de proyecto de Data Mining que incluye fases como Entendimiento del Negocio, Datos, Preparación, Modelado, Evaluación y Despliegue. Un framework de programación distribuida. Una herramienta de visualización de datos. Un sistema de almacenamiento cloud. ¿Cuáles son los cinco pilares de la Calidad de Datos según el curso?. Almacenamiento, Procesamiento, Análisis, Visualización y Seguridad. Precisión, Completitud, Consistencia, Actualidad y Unicidad. Perfilado de Datos, Modelado de Datos, Definición de Reglas de Calidad, Reporting y Corrección de Errores. Extracción, Transformación, Carga, Validación y Monitoreo. ¿Qué estrategia de join en Spark es útil cuando uno de los DataFrames es de menor tamaño?. Salted Key. Broadcast Join. Shuffle Join. Iterative Broadcast Join. ¿Cuál es el parámetro por defecto en Spark para hacer broadcast automáticamente?. spark.join.threshold, por defecto 20MB. spark.sql.autoBroadcastJoinThreshold, por defecto 10MB. spark.auto.join, por defecto 15MB. spark.broadcast.size, por defecto 5MB. ¿Cuáles son los tres tipos de Dashboards mencionados en el curso?. Dashboards de Negocio, Dashboards de TI y Dashboards Financieros. Dashboards Operativos, Dashboards Estratégicos y Dashboards Analíticos. Dashboards Simples, Dashboards Complejos y Dashboards Avanzados. Dashboards Técnicos, Dashboards Ejecutivos y Dashboards de Usuario. ¿Qué estrategia de join en Spark se utiliza cuando se tienen particiones desbalanceadas entre nodos y busca introducir ruido en la clave para reducir el desbalanceo?. Merge Join, que combina los datos ordenadamente. Salted Key, que añade una columna "Ruido" con valores aleatorios para balancear las particiones durante el join. Hash Join, que utiliza funciones hash para distribuir datos. Broadcast Join, que envía todo el DataFrame a todos los nodos. En la arquitectura básica de un Cuadro de Mando, ¿Qué elementos deben estar presentes según el curso?. Fuentes de Datos (origen y ETLs), Modelo de Datos (estructura y KPIs), Capa de Procesamiento (análisis y transformación), Visualización (componentes e interactividad), Interfaz de Usuario, Capa de Seguridad, Actualización y Mantenimiento, e Integración con otras plataformas. Solo KPIs y Gráficos. Solo Fuentes de Datos y Visualización. Únicamente Base de Datos y Dashboard. |





