SP&DTB&BD&KF&SNW&MNG1
|
|
Título del Test:
![]() SP&DTB&BD&KF&SNW&MNG1 Descripción: Test sobre test sobre test |



| Comentarios |
|---|
NO HAY REGISTROS |
|
En el contexto de procesamiento de datos a gran escala, ¿cuál de las siguientes opciones describe mejor a Apache Spark y su propósito principal?. Un sistema de gestión de bases de datos relacionales (RDBMS) optimizado para transacciones OLTP, que reemplaza a PostgreSQL y MySQL en aplicaciones web tradicionales. Un motor de computación distribuida en memoria diseñado para procesar grandes volúmenes de datos de forma eficiente, ofreciendo APIs de alto nivel para batch, streaming, machine learning y procesamiento interactivo. Un sistema de archivos distribuido que se encarga de almacenar datos de forma redundante sobre varios nodos, pero que delega todo el cómputo en Hadoop MapReduce. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un DataFrame en Apache Spark y cómo se comporta internamente?. Una estructura distribuida que almacena únicamente datos no estructurados (como JSON o texto libre) y que no puede beneficiarse del optimizador Catalyst, ya que Spark solo optimiza tablas almacenadas en Hive. Una colección distribuida de datos organizada en columnas con un esquema definido, que permite a Spark aplicar optimizaciones lógicas y físicas mediante Catalyst, generando planes de ejecución eficientes sobre el motor de ejecución de Tungsten. Una representación inmutable de un conjunto de RDDs fusionados dinámicamente durante la ejecución, permitiendo operaciones mutables sobre columnas sin necesidad de definir un esquema en tiempo de compilación. ¿Cuál de las siguientes afirmaciones describe correctamente la naturaleza y el propósito de un RDD (Resilient Distributed Dataset) en Apache Spark?. Una estructura distribuida mutable que permite modificar elementos en caliente dentro de los nodos ejecutores, optimizada para operaciones interactivas y para la ejecución adaptativa sin necesidad de recomputación. Un motor de ejecución interno encargado de gestionar la planificación de tareas, la asignación de recursos y el manejo de memoria, sobre el cual se construyen DataFrames y Datasets como abstracciones de más alto nivel. Un conjunto distribuido inmutable que representa datos particionados en clúster, soporta transformaciones perezosas y acciones, y permite recomputar particiones perdidas gracias a su linaje (lineage) para ofrecer tolerancia a fallos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión la diferencia entre transformaciones y acciones en Spark?. Las transformaciones son operaciones perezosas que construyen un plan lógico de ejecución sin disparar cómputo, mientras que las acciones fuerzan la evaluación del DAG y devuelven un resultado al driver o escriben datos en almacenamiento externo. Las transformaciones ejecutan inmediatamente las operaciones sobre los datos y devuelven resultados concretos, mientras que las acciones solo definen el linaje del RDD o DataFrame sin ejecutar cómputo hasta que se encadenan varias acciones consecutivas. Las transformaciones permiten enviar datos desde los ejecutores hacia el driver, mientras que las acciones solo pueden ejecutarse dentro de los ejecutores y nunca devuelven resultados al driver para evitar congestión de red. ¿Cuál de las siguientes afirmaciones describe con mayor exactitud cómo funciona la evaluación perezosa en Spark y por qué existe?. Spark utiliza evaluación perezosa únicamente para evitar ocupar memoria innecesaria en los ejecutores, ejecutando cada transformación de manera aislada tan pronto como el driver la recibe, pero posponiendo las acciones hasta que se libera memoria suficiente. La evaluación perezosa se implementa para permitir la mutabilidad de los RDDs y DataFrames, de modo que Spark pueda reescribir los datos originales en cada transformación sin necesidad de mantener linaje ni metadatos adicionales. La evaluación perezosa permite que Spark retrase la ejecución física de transformaciones hasta que una acción es invocada, lo que posibilita a Catalyst generar un plan optimizado del DAG completo, fusionar etapas y minimizar shuffles antes de ejecutar cualquier tarea. ¿Cuál de las siguientes descripciones refleja con mayor precisión cómo Spark divide un cálculo en jobs, stages y tasks durante la ejecución?. Un job corresponde siempre a una única acción y se divide en múltiples tasks equivalentes; los stages solo aparecen cuando existe un fallo y Spark necesita recomputar parte del linaje del RDD. Un job se genera por cada acción invocada; se divide en stages cuando el plan físico contiene límites de comunicación como shuffles, y cada stage se ejecuta mediante múltiples tasks paralelas, una por partición asignada a los ejecutores. Los jobs son creados por el driver para cada transformación aplicada sobre un DataFrame, los stages representan únicamente operaciones de lectura sobre HDFS, y los tasks se utilizan únicamente en operaciones de escritura para paralelizar la salida. ¿Cuál de las siguientes afirmaciones explica con mayor precisión la diferencia entre una narrow transformation y una wide transformation en Spark?. Las narrow transformations requieren que los datos se lean completamente en memoria antes de procesarse, mientras que las wide transformations pueden ejecutarse en streaming sin generar shuffles, ya que operan únicamente sobre los metadatos del DAG. Las narrow transformations permiten que cada partición se procese de manera independiente sin necesitar datos de otras particiones, mientras que las wide transformations implican dependencias entre particiones que obligan a redistribuir datos (shuffle) y generan límites de stage en el DAG. Las narrow transformations solo están disponibles en RDDs y no en DataFrames o Datasets, mientras que las wide transformations son exclusivas de las operaciones del optimizador Catalyst y siempre producen dos stages consecutivos durante la planificación. En el modelo de micro-batches de Spark Structured Streaming, ¿cuál de las siguientes afirmaciones describe con mayor exactitud cómo funciona el procesamiento continuo?. Cada micro-batch procesa solo un único registro por intervalo para garantizar la semántica exactly-once; Spark ejecuta un job independiente por cada mensaje recibido, evitando así la acumulación de latencia dentro del driver. Spark genera micro-batches agrupando los datos recibidos durante un intervalo configurado (trigger interval), ejecuta un DAG completo para cada lote y mantiene semántica incremental mediante checkpoints y commit logs que permiten tolerancia a fallos. Los micro-batches se ejecutan únicamente cuando hay un shuffle pendiente en el stream; mientras no se produzca un shuffle, todas las transformaciones se ejecutan de forma continua y sin jobs separados, similar a cómo funciona un event loop tradicional. En el modelo de micro-batches de Spark Structured Streaming, ¿cuál de las siguientes afirmaciones describe con mayor exactitud cómo funciona el procesamiento continuo?. Cada micro-batch procesa solo un único registro por intervalo para garantizar la semántica exactly-once; Spark ejecuta un job independiente por cada mensaje recibido, evitando así la acumulación de latencia dentro del driver. Spark genera micro-batches agrupando los datos recibidos durante un intervalo configurado (trigger interval), ejecuta un DAG completo para cada lote y mantiene semántica incremental mediante checkpoints y commit logs que permiten tolerancia a fallos. Los micro-batches se ejecutan únicamente cuando hay un shuffle pendiente en el stream; mientras no se produzca un shuffle, todas las transformaciones se ejecutan de forma continua y sin jobs separados, similar a cómo funciona un event loop tradicional. ¿Cuál de las siguientes afirmaciones describe de forma más precisa el papel del Catalyst Optimizer en Spark SQL?. Catalyst es un optimizador puramente físico que reescribe el plan de ejecución convirtiendo todas las operaciones lógicas en código máquina nativo a través de LLVM, eliminando completamente la necesidad de Tungsten durante la ejecución. Catalyst es un framework modular que aplica reglas de optimización lógicas y físicas sobre los planes de consulta, permitiendo realizar análisis de expresiones, eliminación de proyecciones, pushdown de filtros y selección del plan de ejecución más eficiente antes de generar código ejecutable. Catalyst es un componente dentro del driver encargado únicamente de analizar el esquema de los DataFrames y validar tipos, sin capacidad para reordenar operaciones ni influir en la planificación física del DAG. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué ocurre durante un shuffle en Spark y por qué es una operación tan costosa?. Un shuffle ocurre cuando Spark detecta que una transformación narrow produce más particiones de las que tenía inicialmente; para ello reorganiza únicamente los metadatos del DAG sin mover datos reales, por lo que su coste proviene sobre todo del driver y no de los ejecutores. Un shuffle redistribuye físicamente los datos entre particiones según claves o rangos, lo que obliga a escribir datos intermedios en disco, enviarlos a través de la red a otros ejecutores y reconstruir nuevas particiones, generando un límite de stage en el DAG y un alto coste de E/S y comunicación. Un shuffle es una optimización que permite a Catalyst ejecutar múltiples joins dentro del mismo stage, evitando la materialización de datos intermedios y reduciendo el número total de tasks generadas para el job. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan los notebooks dentro del Databricks Workspace y su integración con la arquitectura subyacente?. Los notebooks de Databricks ejecutan código directamente en el driver del clúster sin posibilidad de paralelización; el Workspace actúa únicamente como un editor colaborativo y no influye en la ejecución ni en el control de versiones. Los notebooks del Workspace sirven como interfaz colaborativa, pero cada celda se ejecuta realmente sobre un clúster asociado; el driver coordina la ejecución distribuida y Databricks permite versionado automático, control de revisiones y sincronización con repos remotos. Los notebooks se ejecutan siempre en modo local dentro del navegador del usuario para minimizar la latencia; cuando se requiere procesamiento distribuido, Databricks convierte el notebook en un job y lo ejecuta mediante un motor externo ajeno al clúster interactivo. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funciona DBFS y cómo maneja el almacenamiento en Databricks?. DBFS es un sistema de archivos distribuido propio de Databricks que almacena todos los datos directamente en los nodos del clúster, manteniéndolos en memoria para acelerar el acceso y evitando el uso de almacenamiento externo como S3, ADLS o GCS. DBFS es una capa de abstracción que expone un sistema de archivos unificado dentro de Databricks; permite montar almacenamiento externo en rutas accesibles por notebooks y jobs, y mantiene una zona especial (DBFS root) en la que Databricks gestiona metadatos y archivos pequeños usando almacenamiento subyacente del workspace. DBFS es un sistema de archivos temporal que se borra automáticamente cuando el clúster se detiene, diseñado únicamente para almacenar checkpoints y logs; no puede usarse para datos persistentes ni montarse sobre almacenamiento externo. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan los clusters de Databricks y cómo gestionan los recursos para ejecutar workloads?. Los clusters de Databricks asignan dinámicamente el driver entre distintos nodos en función del uso para equilibrar la carga; los ejecutores son fijos y nunca se redimensionan porque Databricks no soporta autoescalado en entornos interactivos. Un cluster en Databricks se compone de un driver y múltiples ejecutores gestionados por el servicio de Databricks; puede redimensionarse automática o manualmente, y el control plane de Databricks supervisa, crea y destruye nodos según la carga sin que los usuarios interactúen directamente con la infraestructura subyacente del cloud provider. Los clusters de Databricks ejecutan cada notebook en un proceso aislado dentro del mismo nodo, por lo que no requieren nodos ejecutores separados; el escalado horizontal solo se utiliza para workloads de streaming y queda deshabilitado para trabajos batch o interactivos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Databricks y qué problema resuelve en el ecosistema de procesamiento de datos?. Databricks es un motor de bases de datos transaccionales optimizado para OLTP que reemplaza directamente a sistemas como PostgreSQL o MySQL, ofreciendo índices distribuidos y replicación automática entre notebooks. Databricks es una plataforma unificada de análisis y machine learning construida sobre Apache Spark, que integra computación distribuida, gobernanza, almacenamiento transaccional mediante Delta Lake y gestión completa del ciclo de vida de datos y modelos, todo sobre infraestructura cloud gestionada. Databricks es un entorno de ejecución local que permite ejecutar Spark en un solo nodo desde el navegador, eliminando la necesidad de clústeres y facilitando la ejecución de workloads ligeros sin depender del cloud ni de almacenamiento distribuido. ¿Cuál de las siguientes afirmaciones describe con mayor precisión la diferencia fundamental entre un data lake, un data warehouse y un data lakehouse?. Un data lake almacena únicamente datos estructurados en tablas con esquema fijo; un data warehouse almacena datos semiestructurados y no estructurados; y un data lakehouse combina ambos permitiendo ejecutar SQL sobre datos sin necesidad de gobernanza ni control de versiones. Un data lake es un repositorio flexible que almacena datos en bruto de cualquier tipo sobre almacenamiento barato, un data warehouse ofrece almacenamiento altamente estructurado y optimizado para analítica con un esquema rígido, y un data lakehouse integra ambos mediante un formato transaccional que permite gobernanza, ACID y consultas SQL eficientes directamente sobre el lake. Un data lake es un clúster de computación distribuida que ejecuta procesamiento batch y streaming, un data warehouse es un motor relacional destinado exclusivamente a ETL, y un data lakehouse es una arquitectura híbrida que ejecuta workloads OLTP y OLAP en el mismo motor sin necesidad de almacenamiento subyacente. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Apache Kafka y cuál es su propósito principal dentro de una arquitectura de datos moderna?. Apache Kafka es una base de datos NoSQL orientada a documentos diseñada para almacenar grandes volúmenes de datos históricos y ejecutar consultas en tiempo real mediante índices distribuidos y réplica automática. Apache Kafka es una plataforma distribuida de mensajería y event streaming que permite publicar, almacenar de forma duradera y procesar flujos de eventos en tiempo real; utiliza un log distribuido particionado y replicado para garantizar alto rendimiento, tolerancia a fallos y escalabilidad horizontal. Apache Kafka es un motor de procesamiento batch que ejecuta transformaciones sobre grandes conjuntos de datos almacenados en HDFS, sincronizándose con sistemas OLAP para proporcionar análisis periódicos sin capacidad de transmisión continua. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un record en Apache Kafka y cómo se comporta dentro del log distribuido?. Un record es una unidad de datos mutable que Kafka reescribe automáticamente cuando recibe un mensaje con la misma clave, garantizando que cada partición contenga siempre la última versión del dato mediante actualizaciones en el log. Un record es una entrada inmutable almacenada secuencialmente en una partición; contiene una clave opcional, un valor y metadatos como timestamp y offset, y su posición nunca cambia una vez escrita, lo que permite a los consumidores avanzar de forma ordenada a través del log. Un record es un mensaje temporal que permanece en memoria hasta que todos los consumidores del topic lo han leído; una vez leído por todos, el broker lo elimina para liberar espacio, lo que garantiza entrega at-most-once pero impide relecturas o procesamientos tardíos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un topic en Apache Kafka y cómo se comporta dentro del clúster?. Un topic es una cola FIFO global donde los records se almacenan en un único log centralizado; todos los consumidores leen los mensajes en el mismo orden y cada message se elimina automáticamente en cuanto un consumidor lo procesa. Un topic es una abstracción lógica que se divide en múltiples particiones distribuidas entre brokers; cada partición mantiene su propio log inmutable, lo que permite paralelización y escalabilidad, pero también implica que el orden solo se garantiza dentro de cada partición, no en el topic completo. Un topic es un contenedor virtual que reordena dinámicamente los records entrantes para agruparlos por clave antes de escribirlos, garantizando que todos los mensajes con la misma key se almacenen de forma contigua incluso si eso requiere mover datos entre brokers durante la ingestión. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan las partitions en Kafka y cuál es su impacto en el sistema?. Las partitions permiten a Kafka garantizar una entrega estrictamente ordenada en todo el topic; cualquier record que llegue más tarde pero tenga una clave menor se reubica automáticamente en posiciones previas del log para mantener el orden global. Una partition es un log inmutable y estrictamente secuencial almacenado en un broker; determina el orden de los records dentro de ella y define el paralelismo máximo para consumidores y producers, ya que cada partition puede ser procesada independientemente. Las partitions actúan como shards temporales que Kafka redistribuye automáticamente en cada producción para equilibrar carga; un record puede moverse entre partitions según el tráfico, pero los offsets se mantienen globales para evitar desalineamientos entre consumidores. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan los logs en Apache Kafka dentro de cada partición y cómo se gestionan internamente?. El log de una partición es una estructura dinámica que permite insertar records en posiciones arbitrarias para mantener el orden por timestamp; cuando un record llega con un timestamp anterior al último escrito, Kafka reescribe los segmentos anteriores para conservar la coherencia temporal. El log de una partición es un archivo inmutable dividido en segmentos, donde los records se añaden secuencialmente al final; Kafka nunca reescribe posiciones ya escritas y gestiona la eliminación de datos mediante políticas de retención, sin afectar a los offsets ya asignados. El log de una partición es un buffer circular que se sobrescribe automáticamente cuando se alcanza cierto tamaño, reasignando offsets para evitar huecos y garantizar que cada consumidor lea siempre los mensajes más recientes desde el comienzo del archivo. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un offset en Kafka y cuál es su función dentro del modelo de consumo?. El offset es un identificador global y creciente que Kafka asigna a cada record en el clúster, garantizando que todos los consumidores lean los mensajes en el mismo orden sin importar la partición donde fueron almacenados. El offset es la posición inmutable de un record dentro de una partición; cada consumidor gestiona su propio offset de lectura, lo que permite relecturas, lectura paralela entre consumer groups y control independiente del progreso sin afectar al almacenamiento subyacente. El offset es un puntero mutable que los brokers actualizan automáticamente cuando un consumidor procesó un mensaje; para garantizar at-least-once, Kafka mueve este puntero hacia atrás cuando detecta fallos durante el procesamiento. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funciona la replicación en Kafka y cómo afecta a la durabilidad y disponibilidad de los datos?. Kafka replica los records escribiéndolos simultáneamente en todos los brokers del clúster; de este modo garantiza que cada partición tenga siempre réplicas idénticas en todos los nodos y que los consumidores puedan leer indistintamente desde cualquier broker sin necesidad de distinguir entre líder y seguidores. En Kafka cada partición tiene un broker líder y varios followers; el líder acepta las escrituras y los followers replican su log mediante lectura secuencial, y un record solo se considera comprometido (committed) cuando está replicado en el número requerido de réplicas en el ISR, lo que permite tolerancia a fallos sin sacrificar consistencia secuencial. Kafka utiliza replicación asíncrona eventual entre brokers, permitiendo que cada follower reordene los records según su timestamp para optimizar el almacenamiento; esto garantiza alta disponibilidad aunque implica que los consumidores pueden leer diferentes versiones de un mismo record en distintos nodos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funciona la retención en Kafka y qué implicaciones tiene sobre los logs y los consumidores?. La retención elimina un record tan pronto como todos los consumidores del topic lo han leído; este mecanismo garantiza que el almacenamiento se mantenga siempre al mínimo y que no existan gaps en los offsets, ya que se reasignan automáticamente cuando los logs se compactan. La retención controla cuánto tiempo o cuánto espacio pueden ocupar los records en cada partición; cuando se supera el límite, Kafka elimina segmentos completos del log sin modificar los offsets existentes, lo que permite que los consumidores sigan leyendo a partir de su offset aunque algunos datos históricos ya no estén disponibles. La retención provoca que Kafka reescriba periódicamente los logs para mantener solo los últimos registros en una estructura compactada, reasignando offsets y reorganizando particiones para optimizar las lecturas y reducir la latencia de acceso. ¿Cuál de estas tareas es típicamente responsabilidad de un Analista de datos?. Construir pipelines distribuidos para ingestar datos desde múltiples fuentes usando Kafka y Spark. Diseñar dashboards, realizar consultas analíticas y generar insights para ayudar a la toma de decisiones. Entrenar modelos predictivos avanzados mediante técnicas de deep learning. ¿Cuál de las siguientes actividades corresponde principalmente a un Ingeniero de datos?. Crear pipelines robustos y escalables para ingesta, transformación y almacenamiento de datos usando herramientas como Spark, Airflow o Databricks. Presentar conclusiones de negocio usando visualizaciones y métricas derivadas de análisis estadísticos. Ajustar hiperparámetros de modelos de machine learning para maximizar su rendimiento. ¿Qué actividad caracteriza mejor el rol de un Científico de datos?. Optimizar índices y particiones de almacenamiento para mejorar el rendimiento de consultas en data lakes. Desarrollar modelos estadísticos y de machine learning para predecir comportamientos o generar clasificaciones. Construir dashboards de BI para comunicar métricas clave a los equipos de negocio. ¿Cuál es el enfoque principal de un Arquitecto de datos?. Diseñar la arquitectura global de datos, definir estándares, gobernanza, integración entre sistemas y seleccionar tecnologías adecuadas para el ecosistema. Crear notebooks colaborativos y realizar análisis exploratorios de datos en plataformas como Databricks. Ejecutar pipelines en producción y monitorizar el rendimiento de jobs ETL. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Snowflake dentro de una arquitectura de datos moderna?. Snowflake es una base de datos relacional tradicional que almacena datos en filas, ejecuta consultas exclusivamente en un único clúster y requiere administración manual de índices y particiones para optimizar el rendimiento. Snowflake es una plataforma de datos en la nube que separa almacenamiento, cómputo y servicios de gestión; proporciona un motor SQL completamente gestionado, escalado independiente, almacenamiento columnar, transacciones ACID y capacidades integradas de ingestión, transformación y compartición de datos. Snowflake es un motor de ejecución distribuido similar a Apache Spark que requiere desplegar y administrar nodos en el cloud, y que funciona únicamente como capa de cómputo sin ofrecer almacenamiento propio. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo interactúan las tres capas de la arquitectura de Snowflake?. El almacenamiento y el cómputo están integrados en el mismo clúster, pero la capa de Cloud Services actúa como un balanceador que redistribuye automáticamente las micro-particiones entre nodos cuando el warehouse escala horizontalmente. El almacenamiento es centralizado y compartido para toda la cuenta; el cómputo se realiza mediante Virtual Warehouses completamente independientes que acceden al mismo almacenamiento sin competir por recursos, y la capa de Cloud Services gestiona metadatos, autenticación, planificación de consultas y optimización sin ejecutar cómputo pesado. La capa de almacenamiento distribuye automáticamente los datos entre warehouses, de manera que cada warehouse mantiene su propia copia optimizada; la capa de Cloud Services reescribe las particiones según el plan de consulta para garantizar que todas las replicas permanezcan sincronizadas. ¿Cuál de las siguientes afirmaciones describe con mayor precisión el funcionamiento de un Virtual Warehouse en Snowflake?. Un Virtual Warehouse es un conjunto de recursos de almacenamiento dedicados que se replican automáticamente para cada base de datos, permitiendo que diferentes workloads accedan a sus propios datos sin interferir entre sí. Un Virtual Warehouse es un clúster de cómputo independiente que ejecuta consultas, puede escalarse cambiando su tamaño o añadiendo multi-clusters, puede pausarse para no consumir créditos y no almacena datos, ya que todas las consultas leen del almacenamiento centralizado de Snowflake. Un Virtual Warehouse es una instancia serverless que administra automáticamente almacenamiento y cómputo; no puede pausarse ni escalarse manualmente, ya que Snowflake ajusta dinámicamente los recursos según la complejidad de la consulta. ¿Cuál de las siguientes afirmaciones describe correctamente la diferencia entre Permanent, Transient, Temporary y External tables en Snowflake?. Las Permanent y Transient tables tienen Fail-safe, mientras que las Temporary tables no lo tienen; las External tables solo permiten escritura directa desde Snowflake. Las Permanent tables tienen Time Travel y Fail-safe; las Transient tables tienen Time Travel limitado y no tienen Fail-safe; las Temporary tables existen solo durante la sesión y no tienen ni Time Travel ni Fail-safe; las External tables referencian datos almacenados fuera de Snowflake. Las Temporary tables tienen Fail-safe ilimitado; las Transient tables se eliminan automáticamente al cerrar el warehouse; las External tables se mueven automáticamente al almacenamiento interno durante la ingesta. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan Time Travel y Fail-safe?. Time Travel permite recuperar datos solo desde backups manuales, mientras que Fail-safe permite consultar datos históricos hasta 30 días atrás para auditorías. Time Travel permite consultar o restaurar datos en un punto pasado dentro de un rango configurable, mientras que Fail-safe es un mecanismo de recuperación interno de 7 días para desastres que no permite consultas directas por parte del usuario. Time Travel se activa únicamente en tablas externas, mientras que Fail-safe aplica solo a tablas temporales, ya que persisten después de la sesión. ¿Cuál de las siguientes afirmaciones describe con mayor precisión el modelo de datos documental de MongoDB?. MongoDB almacena datos exclusivamente en documentos JSON textuales, lo que permite edición manual sencilla pero impide soportar tipos binarios como fechas, identificadores o valores numéricos de alta precisión. MongoDB utiliza documentos BSON que permiten estructuras jerárquicas y anidadas, admiten tipos ricos más allá del JSON estándar y no requieren un esquema rígido, permitiendo variaciones estructurales entre documentos de una misma colección. MongoDB almacena cada documento como una fila plana compuesta solo por pares clave-valor de primer nivel, ya que las estructuras anidadas deben normalizarse en colecciones separadas para preservar consistencia y evitar duplicación de datos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es MongoDB dentro del ecosistema de bases de datos modernas?. MongoDB es una base de datos relacional distribuida que utiliza SQL como lenguaje de consultas principal y garantiza un esquema rígido para todas las colecciones, permitiendo integridad referencial mediante claves foráneas. MongoDB es una base de datos documental NoSQL que almacena información en documentos BSON flexibles y jerárquicos, permite esquemas variables, soporta consultas complejas mediante agregación y está diseñada para escalar horizontalmente mediante sharding. MongoDB es un motor de análisis columnar orientado a OLAP que almacena datos en formato columnar comprimido, requiere predefinir todos los tipos de datos y está optimizado únicamente para consultas analíticas por lotes. ¿Cuál de las siguientes afirmaciones describe con mayor precisión la relación entre collections y documents en MongoDB?. Una collection almacena documentos que deben compartir exactamente la misma estructura y tipos de datos, ya que MongoDB valida automáticamente que todos los documentos coincidan con un esquema fijo definido al crear la colección. Una collection es un contenedor lógico que almacena documentos BSON; estos documentos pueden tener estructuras diferentes, incluir campos opcionales o anidados, y MongoDB no requiere un esquema rígido a menos que se configure explícitamente mediante reglas de validación. Una collection es equivalente a una tabla SQL y solo puede almacenar documentos con claves de primer nivel; cualquier estructura anidada debe normalizarse en colecciones adicionales para que MongoDB pueda indexarlas correctamente. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funcionan los índices en MongoDB y cuáles son sus implicaciones?. MongoDB solo permite crear índices en un único campo por colección, ya que los índices compuestos degradan el rendimiento del shard key y no pueden utilizarse para acelerar consultas con filtros múltiples. MongoDB soporta índices en un campo, compuestos y multikey para arrays; los índices aceleran las consultas pero incrementan el uso de almacenamiento y el coste de las escrituras, ya que cada inserción o actualización debe mantener todas las estructuras de índice asociadas. Los índices en MongoDB se almacenan únicamente en memoria y se descartan cuando el servidor se reinicia, lo que permite mejorar el rendimiento temporalmente sin afectar la persistencia ni el consumo de disco. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funciona la replicación en MongoDB mediante un Replica Set?. En un Replica Set todos los nodos pueden aceptar escrituras simultáneamente y se sincronizan mediante un protocolo de consenso distribuido que garantiza que las escrituras se apliquen en el mismo orden global en todos los nodos. Un Replica Set consta de un nodo primario que recibe escrituras y uno o varios nodos secundarios que replican su oplog de forma asíncrona; si el primario falla, los secundarios realizan un proceso automático de elección (election) para promover uno nuevo. La replicación en MongoDB se realiza mediante copias completas periódicas de la base de datos entre nodos; por ello no se pueden usar operaciones de lectura en secundarios sin bloquear temporalmente el proceso de replicación. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo funciona el sharding en MongoDB?. El sharding distribuye automáticamente cada documento de forma aleatoria entre todos los nodos del clúster, garantizando equilibrio perfecto sin necesidad de definir una clave de partición, ya que MongoDB calcula la distribución óptima en tiempo de inserción. El sharding divide los datos en chunks según una shard key elegida por el usuario; los mongos enrutan las consultas al shard o shards relevantes, y el balancer mueve chunks entre shards para mantener el equilibrio a medida que crecen los datos o cambia la carga. El sharding crea copias completas de la base de datos en cada nodo para distribuir la carga de lectura, mientras que las escrituras siempre se redirigen al nodo primario, lo que permite escalabilidad horizontal sin necesidad de claves de partición. ¿Cuál de las siguientes afirmaciones refleja con mayor precisión una diferencia fundamental entre MongoDB y una base de datos SQL tradicional?. MongoDB impone un esquema fijo a nivel de colección y prohíbe documentos con estructuras distintas, mientras que las bases SQL permiten almacenar filas con columnas opcionales y estructuras flexibles sin validación estricta. MongoDB utiliza un modelo documental que permite almacenar datos jerárquicos y anidados sin necesidad de normalización, ofrece escalado horizontal nativo y carece de joins tradicionales (aunque proporciona $lookup), mientras que las bases SQL requieren un esquema rígido y usan normalización para relaciones. MongoDB solo funciona sobre arquitecturas verticales y no admite escalado horizontal, mientras que las bases SQL distribuyen datos automáticamente entre nodos sin necesidad de configuración adicional. ¿Cuál de las siguientes afirmaciones describe con mayor precisión el objetivo y las implicaciones de la denormalización en MongoDB?. La denormalización se utiliza para evitar duplicación de datos, ya que MongoDB no permite almacenar el mismo valor en múltiples documentos; esto obliga a mantener todas las relaciones estrictamente normalizadas mediante referencias. La denormalización consiste en duplicar o incrustar datos relacionados dentro de un documento para optimizar lecturas, reduciendo la necesidad de $lookup o consultas múltiples, pero implica que la aplicación debe gestionar la consistencia entre copias cuando esos datos se actualizan. La denormalización solo se aplica en colecciones temporales y permite que MongoDB actualice automáticamente todas las copias de los datos duplicados mediante su mecanismo interno de change propagation. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es MongoDB Atlas y qué funcionalidades ofrece?. MongoDB Atlas es una interfaz gráfica local que permite administrar instancias on-premise de MongoDB; no ofrece autoscaling ni herramientas de seguridad avanzadas, ya que depende totalmente del hardware del usuario. MongoDB Atlas es un servicio completamente gestionado en la nube que automatiza la creación de clusters, backups, sharding, seguridad, escalado y monitoreo; también permite integraciones nativas como triggers, funciones serverless, data lakes y sincronización con dispositivos móviles. MongoDB Atlas es un motor de análisis columnar que reemplaza la base de datos MongoDB tradicional, proporcionando únicamente funciones OLAP y eliminando la necesidad de réplicas, backups o sharding. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es BSON y por qué MongoDB lo utiliza como formato interno?. BSON es una versión comprimida de JSON que reduce el tamaño de los documentos eliminando metadatos y permitiendo únicamente tipos de datos primitivos, lo que lo hace ideal para transmisión, pero menos adecuado para almacenamiento persistente. BSON es un formato binario que extiende JSON con tipos adicionales como fechas, ObjectId y números de precisión arbitraria; está diseñado para ser eficiente en escaneo y codificación/decodificación, permitiendo a MongoDB almacenar y consultar documentos anidados de manera más rápida que con JSON textual. BSON es un formato estrictamente textual compatible con cualquier editor de texto, lo que facilita la depuración pero impide almacenar estructuras anidadas o tipos avanzados, por lo que MongoDB convierte internamente todos los documentos a JSON antes de indexarlos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión el propósito y características de Django?. Django es un micro-framework de Python centrado exclusivamente en el manejo de rutas, que requiere integrar manualmente autenticación, seguridad, motor de plantillas y acceso a bases de datos, ya que su objetivo es ofrecer mínima abstracción y máximo control al desarrollador. Django es un framework web completo que sigue el patrón MTV, incluye ORM, sistema de plantillas, autenticación, administración automática y seguridad integrada; su filosofía "batteries included" permite crear aplicaciones escalables y robustas con menos código y buenas prácticas desde el inicio. Django es un servidor web embebido optimizado para tiempo real, diseñado para sustituir a servidores como Nginx o Apache, y se utiliza principalmente para comunicaciones WebSocket de alta frecuencia. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un framework y qué aporta al desarrollo de software?. Un framework es un conjunto de programas ejecutables que sustituyen completamente el código del desarrollador, permitiendo generar aplicaciones completas sin necesidad de escribir lógica propia ni seguir reglas de diseño. Un framework es un conjunto estructurado de herramientas, librerías y reglas que proporciona una arquitectura predefinida para facilitar el desarrollo; permite centrarse en la lógica de negocio al evitar tareas repetitivas, promueve buenas prácticas e incluye componentes reutilizables y gestión de dependencias. Un framework es una simple colección de librerías independientes que el desarrollador importa manualmente según necesite, sin imponer estructura, patrones ni reglas de diseño sobre la aplicación. ¿Cuál de las siguientes afirmaciones describe con mayor precisión el funcionamiento y los principios de una REST API?. Una REST API mantiene el estado del cliente entre solicitudes para optimizar el rendimiento y utiliza exclusivamente el método HTTP GET para garantizar la idempotencia en todas las operaciones. Una REST API permite la comunicación entre sistemas mediante HTTP siguiendo principios REST; utiliza métodos como GET, POST, PUT y DELETE para interactuar con recursos normalmente representados en JSON o XML, es ligera, escalable y sin estado, lo que implica que cada solicitud se procesa de forma independiente. Una REST API es un protocolo binario diseñado para comunicaciones en tiempo real que sustituye a HTTP y SOAP, mantiene conexiones persistentes obligatorias y no sigue el paradigma de recursos ni los métodos HTTP tradicionales. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Azure?. Azure es un sistema operativo para servidores que permite ejecutar aplicaciones localmente sin depender de la nube y sin integrar servicios para almacenamiento ni procesamiento. Azure es una plataforma de computación en la nube de Microsoft que ofrece servicios para almacenar datos, ejecutar aplicaciones y procesar información sin necesidad de infraestructura física propia. Azure es un framework de desarrollo que facilita crear interfaces web y móviles, pero no incluye servicios de almacenamiento ni capacidad de ejecución de aplicaciones en la nube. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Kubernetes?. Kubernetes es un motor de bases de datos diseñado para almacenar contenedores Docker y ejecutarlos como si fueran máquinas virtuales, sin necesidad de mecanismos de escalado ni balanceo de carga. Kubernetes es una plataforma de orquestación que gestiona, despliega y escala aplicaciones basadas en contenedores; coordina automáticamente cómo se ejecutan, distribuyen y recuperan los contenedores en un clúster. Kubernetes es un reemplazo directo de Docker que crea imágenes de contenedor y las ejecuta sin requerir un clúster ni componentes adicionales. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es SAP?. SAP es una base de datos especializada en almacenar únicamente información contable, sin capacidad para integrarse con otros procesos empresariales como ventas o producción. SAP es un software empresarial que integra y gestiona diferentes áreas de una organización —como contabilidad, recursos humanos, producción y ventas— permitiendo centralizar procesos y datos en un único sistema. SAP es una herramienta de diseño web utilizada por desarrolladores para crear interfaces visuales y conectar aplicaciones con servidores externos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Terraform?. Terraform es un servicio en la nube que permite ejecutar aplicaciones sin necesidad de definir infraestructura, ya que crea automáticamente servidores temporales para cada despliegue sin intervención del usuario. Terraform es una herramienta de infraestructura como código (IaC) que permite definir, crear, modificar y gestionar recursos en la nube —como servidores, redes o bases de datos— de forma automatizada y repetible mediante archivos de configuración. Terraform es un motor de contenedores diseñado para reemplazar a Docker, permitiendo ejecutar aplicaciones de forma local sin necesidad de conectarse a proveedores cloud. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es PostgreSQL?. PostgreSQL es una base de datos NoSQL orientada a documentos que almacena datos sin esquema fijo y prioriza el escalado horizontal sobre las transacciones ACID. PostgreSQL es un sistema de gestión de bases de datos relacional (RDBMS) de código abierto, conocido por su soporte avanzado de SQL, extensiones, transacciones ACID y capacidades para almacenar tanto datos estructurados como semiestructurados. PostgreSQL es un motor de procesamiento distribuido diseñado para análisis masivos de datos, centrado exclusivamente en consultas OLAP y sin soporte para operaciones transaccionales. ¿Cuál de las siguientes afirmaciones describe de forma más precisa la relación entre ITIL Foundation, ServiceNow (SNOW) y los sistemas TOS dentro de la gestión de servicios de TI?. ITIL Foundation establece las bases para la gestión de servicios de TI; un sistema TOS se utiliza exclusivamente para automatizar tareas de helpdesk y sustituye a ServiceNow, ya que ambos implementan las mismas prácticas de ITIL sin necesidad de procesos adicionales. ITIL Foundation define buenas prácticas para gestionar servicios de TI; ServiceNow es una herramienta que implementa y automatiza procesos ITIL como gestión de incidentes, cambios y solicitudes; un sistema TOS, por su parte, gestiona operaciones de terminales (como puertos o logística) y puede integrarse con ServiceNow para registrar y escalar incidencias relacionadas con la infraestructura operativa. ITIL Foundation es un certificado exclusivo para herramientas como ServiceNow y no aplica a otros sistemas; un TOS reemplaza cualquier necesidad de ITSM, ya que administra tanto incidentes como cambios según las directrices de ITIL sin ayuda de plataformas externas. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es Data Science en el contexto profesional?. Data Science es el proceso de diseñar arquitecturas de almacenamiento y redes para soportar grandes volúmenes de datos, centrándose en la infraestructura física y la administración de servidores. Data Science es una disciplina que combina estadística, programación, análisis de datos y machine learning para extraer conocimiento, generar predicciones y apoyar la toma de decisiones basadas en datos. Data Science es una metodología exclusivamente visual que utiliza dashboards y herramientas de BI para presentar métricas, sin necesidad de aplicar modelos estadísticos ni algoritmos. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es un pipeline y cuál es su propósito?. Un pipeline es un conjunto de scripts independientes que se ejecutan manualmente uno a uno para preparar datos, entrenar modelos y desplegar resultados, sin relación entre sus etapas. Un pipeline es una secuencia estructurada de etapas automáticas —como ingestión, limpieza, transformación, entrenamiento de modelos y despliegue— que define un flujo reproducible, escalable y consistente para procesar datos o construir modelos de machine learning. Un pipeline es una base de datos especializada que almacena únicamente datos intermedios de entrenamiento para evitar el uso de sistemas de almacenamiento tradicionales. ¿Cuál de las siguientes afirmaciones describe con mayor precisión qué es el cloud en el contexto tecnológico?. El cloud es un conjunto de herramientas locales que permiten ejecutar aplicaciones únicamente en servidores físicos propios de la empresa, ofreciendo mayor escalabilidad que los proveedores externos. El cloud es un modelo que permite acceder a recursos informáticos —como almacenamiento, redes y capacidad de cómputo— a través de internet bajo demanda, sin necesidad de mantener infraestructura física propia, y con la capacidad de escalar rápida y eficientemente. El cloud es un protocolo de comunicación que acelera la transferencia de datos entre aplicaciones móviles, pero no incluye servicios de infraestructura ni plataformas de despliegue. En Apache Spark, ¿cuál de los siguientes comportamientos es característico de las transformaciones narrow?. Requieren mover datos entre particiones y entre nodos, produciendo shuffles costosos antes de ejecutar la siguiente etapa. Permiten procesar cada partición de forma independiente, sin necesidad de redistribuir datos, por lo que se ejecutan dentro del mismo stage. Se ejecutan inmediatamente cuando se definen, ya que no forman parte del DAG y no son perezosas. En Apache Kafka, ¿qué papel juega un consumer group?. Permite que cada consumidor reciba todos los mensajes de un topic, duplicando el procesamiento para aumentar la tolerancia a fallos. Divide las particiones de un topic entre los consumidores del grupo, de modo que cada mensaje es procesado por un único consumidor dentro del grupo, permitiendo escalado horizontal. Garantiza que los mensajes se eliminen automáticamente una vez leídos por cualquier consumidor para evitar acumulación de logs. ¿Cuál de las siguientes afirmaciones describe con mayor precisión cómo se relacionan las prácticas ITIL, ServiceNow y un sistema TOS dentro de un entorno operativo?. Las prácticas ITIL están diseñadas exclusivamente para sistemas TOS, y ServiceNow actúa como su motor de base de datos, de modo que todas las incidencias deben resolverse directamente en el TOS sin pasar por flujos ITSM. ServiceNow implementa procesos ITIL como gestión de incidentes, problemas y cambios; un sistema TOS gestiona operaciones críticas de terminales (logística, movimientos, planificación), y ambos pueden integrarse para registrar, escalar y rastrear incidencias relacionadas con la infraestructura operativa según las buenas prácticas de ITIL. Un sistema TOS reemplaza completamente las prácticas ITIL y la necesidad de plataformas como ServiceNow, ya que es capaz de gestionar de forma nativa el ciclo de vida completo de incidentes, cambios, solicitudes y configuración. |




