Ingenieria

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Ingenieria

Descripción:
Ingeniería Maestría

Autor:

Mel

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/02/19

Categoría: Informática

Número Preguntas: 51

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Una desventaja importante de HDFS es que... No permite almacenar archivos mayores que un disco. No permite recuperar datos de un DataNode quemado. Es volátil. No permite modificar ficheros existentes.

En HDFS, ¿qué fallo es menos problemático?. Caída NameNode. Caída DataNode. Caída todos NameNodes. Todos igual.

En HDFS, cuando se solicita la lectura de un fichero: Cliente da metadatos. NameNode proporciona metadatos al cliente. NameNode envía bloques. DataNode da metadatos.

En HDFS, cuando se solicita la escritura de un fichero: NameNode escribe bloques. NameNode envía datos. Cliente envía al NameNode. Cliente envía a DataNodes.

Fase reduce en MapReduce: Dividir datos. Ordenar alfabéticamente. Agrupar y agregar por clave. Transformar a pares.

Guardar DataFrame en Parquet: Archivos sueltos. Un archivo único. Carpeta con archivos por partición. En memoria.

¿Cuál NO es un Data Warehouse?. Redshift. Elastic Map Reduce. Synapse. BigQuery.

Servicio equivalente a BigQuery en AWS: Dataproc. EMR. S3. Redshift.

Azure equivalente a Amazon S3: Cognitive Services. DataLake Storage. Cosmos. SQL Database.

Caso poco adecuado para HDFS: Históricos. Migración para BI. Sistema transaccional online. Data Lake analítico.

Data Lake histórico NO requiere: Spark. Kafka. Hive. BI.

¿Qué caso NO está indicado para Hive?. BD transaccional operacional. ETL agregada. Datos históricos masivos. Ninguno.

Tabla manejada Hive: Eliminar tabla elimina datos. Datos permanecen. BI no accede. Ninguna.

Apache Hive incorrecta: SQL sobre grandes datos. Base distribuida Hadoop. OLAP. No es open source.

Impala incorrecta: Interactivo. Procesamiento en bloque. Demonios propios. En memoria.

Impala y Hive NO es cierta: Ambas ejecutan sobre Spark. Admiten SQL. ODBC. HDFS.

Dependencia en pipeline: Estimadores antes. Etapa previa obligatoria. Transformadores antes. Columnas deben existir previamente.

fit() sobre Estimator devuelve: Estimator. Transformador. DataFrame. Error.

Pipeline MLlib correcto: Independiente. Solo estimadores. Pipeline completo + fit. Solo transformadores.

Executor Spark: Nodo almacenamiento. Nodo procesamiento. Proceso JVM en worker. Coordinador.

Propósito DAG Spark: Optimizar SQL. Trazabilidad y resiliencia. Replicación. Ejecución inmediata.

Narrow transformation: Shuffle. RAM. Replicación. Salida en mismo nodo.

datos_df.cache(): Materializa. Disco. Libera memoria. Marca para cachear al materializar.

withColumn(): Acción. Transformación. Materialización. Cacheo.

Si no cacheamos DF usado varias veces: Más lento. Incorrecto. No recupera. Todas.

RDD problema principal: Driver. Replicación. Solo Scala. Programador debe conocer estructura.

RDD ya no se usan porque: Menos optimizados y menos intuitivos. Siempre escriben en disco. No existen en PySpark. Solo Scala.

Structured Streaming NO habitual: Entrenar modelos en tiempo real. Refrescar agregaciones. Validar datos. Todas.

Streaming clásico procesa en: Lotes grandes. Eventos individuales. Microbatches. Hilos.

Spark + Kafka relación: Spark lee y escribe en Kafka. Metastore Kafka. Kafka requiere Spark. Spark requiere Kafka.

Kafka replica: Topics. Brokers. Particiones. Productores.

acks=all implica: Mayor latencia. Mayor rendimiento. Más rápido. Más pérdida.

Kafka desde Java: Importar librería. Spark. Python. Solo cloud.

Mensajes Kafka se almacenan: Indefinidamente. Memoria hasta leer. Se borran al leer. Hasta tiempo o tamaño configurado.

Orden consumo Kafka: Por partición. Por topic. Por broker. Sin orden.

Kafka almacena información: Binario. Metastore. HDFS. Ninguna.

Uso cloud SQL sin sysadmin: IaaS. PaaS. SaaS. On-premise.

Mayor control servidores: IaaS. PaaS. FaaS. SaaS.

SaaS: Infraestructura. Plataforma. Software listo. Ninguno.

Open source en cloud: No permitido. Permitido. Solo PaaS. Solo proveedor.

Aplicaciones cloud más comunes: Big Data. ML. IoT. Ninguna.

Servicios cloud NO ofrecen: Responsabilidad datos. Gestión identidad. Control acceso. Ninguna (todos sí).

CAP theorem: Robustez. Escalabilidad. Consistencia + Disponibilidad + Fallos. Consistencia + Disponibilidad + Particiones.

Redis múltiples campos: Hash. Set. List. Sorted set.

Clave-valor sin esquema: Documentos. Clave-valor simple. Relacional. Sofisticado.

Cassandra escrituras rápidas: Master-slave. Independencia. Consistencia eventual. Memtables + SSTables.

MongoDB array documentos: 1-1 embebido. 1-N embebido. Referenciado. 1-1 referenciado.

Red social amigos modelado: Colección aparte. Documento por amigo. Desnormalizar. Lista IDs embebida.

TTL Cassandra: Pausa. Repetición. Expira. Ninguna.

Operador escritura Neo4j: SET. WHERE. START. MATCH.

NoSQL distribuido requiere: Consistencia fuerte. Índices. Integridad. Replicación y particionado.

Denunciar Test

▲