option
Cuestiones
ayuda
daypo
buscar.php

BDA

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
BDA

Descripción:
Preguntas tipo test módulo BDA

Fecha de Creación: 2025/11/22

Categoría: Otros

Número Preguntas: 42

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

En el proceso de toma de decisiones descrito, ¿qué se obtiene como resultado de aplicar algoritmos y aprendizaje sobre la "Información"?. Decisión. Datos. Valor. Conocimiento.

¿Cuál de las siguientes características describe la tecnología de procesamiento de datos "Hoy" en comparación con "Antes", según el material?. Computación paralela y distribuida. Almacenamiento en texto plano y hojas de cálculo. Programación Tradicional. Secuencial y Off-Line.

Al comparar bases de datos SQL y NoSQL, ¿qué par de características se asocia principalmente con NoSQL en la presentación?. Sin esquema y Consistencia. Escalabilidad y Fiabilidad. Escalabilidad y Rendimiento. Consistencia y Fiabilidad.

¿Cuál es la principal diferencia entre un sistema OLAP y un sistema OLTP según la presentación sobre Almacenes de Datos?. OLAP se utiliza para procesamiento Off-Line y OLTP para procesamiento On-Line. OLAP está optimizado para análisis complejos y consultas elaboradas, mientras que OLTP lo está para transacciones cortas. OLAP es para visualización básica y OLTP para visualización avanzada. OLAP utiliza bases de datos relacionales y OLTP usa Data Warehouses.

De acuerdo con las reglas presentadas, ¿cuál de las siguientes es una condición indispensable para que un documento XML sea considerado "bien formado"?. No se pueden anidar etiquetas dentro de otras etiquetas. Debe existir un único elemento raíz que contenga a todos los demás. Las etiquetas no distinguen entre mayúsculas y minúsculas. Todos los valores de los atributos deben estar entre comillas simples (').

En el lenguaje GraphML, ¿qué representa la etiqueta `<node>` y qué representa la etiqueta `<edge>`?. `<node>` representa una conexión y `<edge>` representa un punto de datos. `<node>` define el grafo completo y `<edge>` define un subconjunto de datos. Ambas etiquetas representan lo mismo, pero `<edge>` se usa para grafos dirigidos. `<node>` representa un vértice o entidad, y `<edge>` representa una arista o conexión entre vértices.

¿Qué atributo de la etiqueta `<graph>` en GraphML se utiliza para definir si las conexiones son unidireccionales o bidireccionales por defecto?. id. edgedefault. sorce. directed.

En el contexto del futuro de los datos y la tecnología, ¿qué tendencia se describe en la presentación?. Tanto los datos como la tecnología se están volviendo más caros y difíciles de obtener. La tecnología se desarrolla más lentamente y es más cara, mientras que los datos se generan exponencialmente y son más baratos. Los datos se generan más lentamente, pero la tecnología avanza de forma exponencial. El desarrollo tecnológico es más rápido y barato, superando la generación de datos.

En el flujo de la toma de decisiones, ¿cuál es la característica principal de los 'datos' en su estado inicial?. Son el resultado final del proceso de toma de decisiones. Se basan en algoritmos, reglas y asociaciones. Son heterogéneos, desestructurados y dinámicos. Son procesables y tienen un significado claro.

¿Cuál es el propósito principal de un sistema OLAP (Online Analytical Processing)?. Realizar análisis complejos y consultas elaboradas sobre grandes volúmenes de datos. Gestionar un gran volumen de transacciones cortas y rápidas. Almacenar datos en bases de datos relacionales para operaciones diarias. Ofrecer una visualización básica de datos operativos en tiempo real.

De acuerdo con las reglas para un documento XML bien formado, ¿cuál de las siguientes afirmaciones es INCORRECTA?. XML no distingue entre mayúsculas y minúsculas en las etiquetas. Todas las etiquetas deben tener su correspondiente etiqueta de cierre. Los valores de los atributos deben estar entre comillas. Debe tener un único elemento raíz.

En GraphML, ¿qué información fundamental contienen las etiquetas `<edge>`?. Los nodos de origen y destino de una conexión. La definición de todos los nodos del grafo. El peso o valor asociado a un nodo. El tipo de grafo por defecto (dirigido o no dirigido).

En la jerarquía de la toma de decisiones, ¿cómo se transforma la 'información' en 'conocimiento'?. A través de un proceso de aprendizaje, aplicando algoritmos y reglas. Al tomar una decisión final que aporta valor. Mediante un proceso de elaboración y estructuración. Mediante la recopilación de datos heterogéneos y dinámicos.

En el contexto de las soluciones Big Data, ¿para qué se utiliza principalmente un 'Almacén de Datos' (Data Warehouse)?. Para gestionar y consultar datos con estructura de grafo de forma nativa. Para almacenar documentos sin un esquema fijo de forma escalable. Para reemplazar completamente las bases de datos relacionales en todas las aplicaciones. Como una solución integrada de Inteligencia de Negocio (BI) para optimizar el uso estratégico de datos.

El paso de 'Datos' a 'Información' se describe como un proceso de... Interpretación. Aprendizaje. Toma de Decisiones. Elaboración.

Una característica del procesamiento de datos "Hoy" es la capacidad de realizar analíticas en tiempo real (On-Line). ¿Qué tipo de procesamiento era común "Antes"?. Basado en la nube (Cloud). Multi-core y Distribuido. On-Line y Paralelo. Off-Line y Secuencial.

Un Data Warehouse se define como una solución BI que integra capacidad de almacenamiento, procesamiento y análisis de datos masivos. ¿Cuál es su objetivo final?. Optimizar el proceso de toma de decisiones de una organización. Reemplazar el uso de hojas de cálculo para el análisis de datos. Acelerar las transacciones diarias de una empresa. Garantizar la integridad de los datos en bases de datos relacionales.

En el ejemplo de GraphML sobre una red de YouTube, el grafo se define como `edgedefault="directed"`. ¿Qué implica esto?. No se pueden crear conexiones entre los nodos. Las conexiones tienen una dirección, indicando que un canal sigue a otro, pero no necesariamente al revés. Cada conexión tiene un peso numérico asociado por defecto. Todas las conexiones (suscripciones) son mutuas por defecto.

¿Cuál de los siguientes listados contiene el conjunto más preciso de las Vs del Big Data?. Volumen, Velocidad, Veracidad, Valor, Variedad, Viabilidad, Viscosidad y Vigilancia. Volumen, Velocidad, Variedad, Veracidad, Valor, Viabilidad, Visualización y Volatilidad. Vitalidad, Velocidad, Variedad, Valor, Vulnerabilidad, Virtualidad, Vínculos y Veracidad. Variedad, Valor, Veracidad, Visión, Almacenamiento Distribuido (AD), Calidad de Datos (CD), Computación Paralela (CP) y NoSQL.

¿Cuál de las siguientes características define mejor a un Almacén de Datos (Data Warehouse) en comparación con una base de datos transaccional?. Está orientado a temas específicos de negocio, como clientes o productos. Se actualiza constantemente con cada transacción individual. Almacena datos efímeros que cambian rápidamente. Su estructura está optimizada para registrar operaciones diarias de forma rápida.

En el proceso ETL, ¿qué actividad se realiza principalmente durante la fase de Transformación?. Leer los datos directamente desde una hoja de cálculo o un archivo .csv. Cargar los datos procesados en un cubo OLAP para su análisis. Homogeneizar formatos de fechas y monedas de diferentes fuentes. Realizar una copia de seguridad inicial de las bases de datos operacionales.

Durante la fase de Extracción del proceso ETL, un desafío común es tratar con datos heterogéneos. ¿Qué significa esto?. Que los datos provienen de múltiples fuentes con diferentes formatos, como hojas de cálculo y bases de datos. Que todos los datos provienen de una única base de datos departamental. Que los datos están anónimos y cifrados para proteger la privacidad. Que los datos están siempre públicos y disponibles para su uso.

¿Qué describe mejor una extracción de tipo 'Incremental'?. Captura únicamente los datos que han cambiado o se han añadido desde la última carga. Descarga un conjunto de datos público completo de un portal Open Data cada vez que se ejecuta. Se realiza una sola vez para poblar inicialmente el almacén de datos. Crea una instantánea completa de los datos operacionales en un momento dado.

Plataformas como Kaggle y el repositorio UCI son mencionadas como fuentes de datos. ¿Qué tipo de fuentes son principalmente?. Conjuntos de datos públicos para competiciones y experimentación. Fuentes privadas internas de una empresa. Bases de datos operacionales en tiempo real. Archivos de texto no estructurados generados por el sistema.

En la fase de Transformación, la 'Limpieza de Datos' (Data Cleaning) se enfoca en problemas como datos incompletos, incorrectos e inconsistentes. ¿Qué es la 'imputación' en este contexto?. Convertir variables continuas, como la edad, en categorías discretas, como 'joven' o 'adulto'. Utilizar técnicas estadísticas o de aprendizaje automático para estimar y rellenar los valores perdidos. Eliminar por completo cualquier registro que tenga al menos un valor perdido. Detectar y marcar valores que están muy fuera de la distribución normal de los datos.

¿Cuál es el propósito fundamental del preprocesamiento de datos en la fase de Transformación?. Aumentar el volumen de los datos para que los modelos de IA tengan más con qué entrenar. Transferir los datos directamente desde el sistema OLTP al OLAP sin cambios. Hacer que los datos sean más difíciles de acceder para mejorar la seguridad. Manipular y transformar los datos para que la información contenida sea más fácil de descubrir.

En la fase de manipulación de datos, ¿cuál es el objetivo principal de la 'Selección de Características' (Feature Selection)?. Añadir nuevas variables calculadas a partir de las existentes para tener más información. Obtener un subconjunto de las variables originales que optimice el rendimiento de los modelos. Convertir todas las variables numéricas en variables categóricas. Asegurarse de que todas las variables tengan la misma escala numérica, como entre 0 y 1.

¿Qué beneficio principal se obtiene al aplicar la 'Discretización' a una variable continua?. Rellena los valores perdidos que pueda tener la variable. Reduce el número de registros en el conjunto de datos. Transforma la variable en un formato que puede ser más fácil de interpretar o usar por ciertos algoritmos. Asegura que la variable tenga una distribución normal.

En la fase de Carga, ¿cuál es la diferencia fundamental entre una carga de tipo 'Actualización' y una de tipo 'Refresco'?. El refresco es más rápido y tiene un menor coste computacional que la actualización. La actualización añade solo los datos nuevos, mientras que el refresco reescribe todo el almacén de datos. El refresco es un proceso automatizado y la actualización siempre es manual. La actualización utiliza una extracción estática y el refresco una extracción incremental.

La Carga Inicial de un Data Warehouse es un proceso costoso. ¿Por qué se recomienda realizarla en horas de baja carga del sistema?. Porque es la única forma de asegurar que no haya registros duplicados. Porque los datos son de mayor calidad durante la noche. Para cumplir con las regulaciones de seguridad de datos que prohíben transferencias durante el día. Para minimizar el impacto en el rendimiento de los sistemas operacionales de los que se extraen los datos.

En el diseño en estrella de un almacén de datos, ¿qué tipo de información contiene la 'Tabla de Hechos' (Fact Table)?. Claves foráneas que apuntan a las tablas de sub-dimensiones. Atributos descriptivos y categóricos como el nombre del cliente o la ciudad. Las medidas numéricas y cuantificables del proceso de negocio que se está analizando. El código fuente de los procedimientos ETL utilizados para poblar la tabla.

Al diseñar un almacén de datos, ¿a qué se refiere el concepto de 'Granularidad'?. A la complejidad de las consultas que se pueden realizar sobre el almacén. Al nivel de detalle o especificidad de cada registro en la tabla de hechos. A la frecuencia con la que se actualiza el almacén de datos (diaria, semanal, etc.). Al número total de tablas de dimensiones en el esquema.

¿Cuál es una de las principales ventajas del diseño en estrella?. Elimina completamente la redundancia de datos a través de la normalización. Es muy eficiente para ejecutar consultas complejas con muchas uniones (joins). Minimiza el espacio de almacenamiento requerido para las tablas de dimensiones. Su estructura simple facilita la comprensión y permite tiempos de respuesta rápidos.

¿Cómo se crea un diseño en copo de nieve a partir de un diseño en estrella?. Combinando todas las tablas de dimensiones en una única tabla grande. Aplicando un proceso de normalización a las tablas de dimensiones para crear sub-dimensiones. Agregando más tablas de hechos al diseño en estrella existente. Desnormalizando las tablas de dimensiones para reducir el número de uniones.

¿En qué escenario sería preferible utilizar un diseño en copo de nieve en lugar de un diseño en estrella?. Cuando la principal prioridad es tener los tiempos de consulta más rápidos posibles para informes simples. Cuando las tablas de dimensiones son muy grandes y contienen mucha redundancia, y se necesita ahorrar espacio. Cuando el almacén de datos solo se va a utilizar para un único proceso de negocio muy específico. Cuando el equipo de analistas tiene poca experiencia y necesita un modelo de datos muy fácil de entender.

Una característica de los Almacenes de Datos es que son 'No volátiles'. ¿Qué implica esta característica?. Los datos nunca se pueden modificar una vez que han sido cargados. Una vez que los datos se cargan, permanecen como un registro histórico y no se eliminan para registrar nuevas transacciones. Los datos se almacenan en memoria volátil (RAM) para un acceso más rápido. El sistema no necesita copias de seguridad porque los datos no se pierden.

¿Cuál de los siguientes es un ejemplo de la etapa de 'Carga' en el proceso ETL?. Convertir todos los importes de ventas a una única moneda (euros). Poblar el Data Warehouse con los datos ya limpios y formateados. Eliminar registros de clientes duplicados. Conectarse a una base de datos de recursos humanos para obtener datos de empleados.

¿Por qué la extracción 'Estática' es fundamentalmente necesaria al construir un Almacén de Datos?. Porque es el método más rápido para mantener el almacén actualizado diariamente. Porque solo funciona con fuentes de datos públicas como Open Data. Porque es necesaria para la carga inicial que puebla por primera vez el almacén de datos. Porque garantiza que los datos extraídos no contengan valores anómalos.

En la fase de transformación, se mencionan técnicas como 'Escalado y centrado'. ¿Cuál es el propósito de estas técnicas?. Rellenar los valores que faltan en el conjunto de datos. Corregir errores de escritura o inconsistencias en los datos categóricos. Poner todas las variables numéricas en una escala común para que los modelos no se vean sesgados por las unidades. Aumentar la cantidad de datos para que los modelos tengan más ejemplos.

Al diseñar un esquema en estrella, ¿cuál es el rol de las 'Dimensiones'?. Almacenar las métricas numéricas y agregables del negocio. Contener las claves primarias que conectan directamente con los sistemas operacionales. Asegurar la normalización de la base de datos para evitar redundancias. Proporcionar el contexto descriptivo para los hechos.

Un inconveniente mencionado del diseño en estrella es que puede tener 'dimensiones agregadas'. ¿Qué problema puede causar esto?. Que las consultas se vuelvan extremadamente lentas. Que el diseño sea demasiado complejo de entender para los usuarios. Que sea imposible realizar una carga incremental de datos. Que se pierda el detalle fino de los datos, dificultando ciertos análisis.

¿Cuál es uno de los principales inconvenientes de utilizar un diseño en copo de nieve?. Las consultas pueden ser más lentas debido a la necesidad de realizar más uniones (joins) entre tablas. Requiere más espacio de almacenamiento debido a la redundancia de datos. Es imposible de modificar una vez que ha sido implementado. Su estructura simple limita la capacidad de realizar análisis complejos.

Denunciar Test