Cuestionario sobre Big Data y Cloud Computing
|
|
Título del Test:
![]() Cuestionario sobre Big Data y Cloud Computing Descripción: Cuestionario sobre Big Data |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Una desventaja importante de HDFS es que ... No permite almacenar un archivo de tamaño superior al de cualquier disco duro del cluster. No permite recuperar los datos que hubiese en un datanode si ese nodo se quemase. Es volátil, es decir, lo que almacenan los datanodes se pierde pasado un tiempo. No permite operaciones de modificación de ficheros existentes. ¿Cuál de las siguientes afirmaciones sobre Impala y Hive NO es cierta?. Ambas herramientas ejecutan sobre Spark. Ambas herramientas son compatibles con un driver ODBC para conectarnos a ellas. Ambas herramientas admiten consultas en lenguaje SQL. Ambas pueden consultar datos almacenados en HDFS. En el contexto de MapReduce, la fase "reduce" se utiliza para: Dividir los datos en bloques. Ordenar los datos alfabéticamente. Agrupar y agregar datos por clave. Transformar los datos en pares (clave, valor). Cuando tenemos un DataFrame de Spark en la variable mi_df y ejecutamos mi_df.write.parquet("/tmp/datos.parquet") ... Spark crea en la carpeta /tmp de HDFS tantos ficheros Parquet como particiones tenga el DataFrame. Spark crea en la carpeta /tmp de HDFS un fichero Parquet llamado datos.parquet cuyo tamaño es igual al total del DataFrame. Spark crea una nueva carpeta llamada /tmp/datos.parquet y dentro de ella se crean tantos ficheros distintos como particiones tenga el DataFrame. Spark crea en la carpeta /tmp de HDFS un único fichero Parquet llamado datos.parquet formado por tantos bloques de HDFS como particiones tuviera el DataFrame. Hemos montado el Data Lake de una gran cadena de hipermercados de alcance internacional, y queremos empezar a explorarlos y aplicar analítica descriptiva y predictiva con los datos históricos. ¿Cuál de las siguientes tecnologías probablemente NO vamos a necesitar?. Apache Spark. Apache Kafka. Apache Hive. Una herramienta de Business Intelligence. ¿Cuál de los siguientes casos de uso es POCO adecuado para HDFS?. Almacenar información histórica de las pólizas de una compañía aseguradora desde su creación. Migrar distintas bases de datos tradicionales de una empresa de telecomunicaciones para realizar cuadros de mando sobre esos datos. Almacenar la información de las pólizas de una compañía aseguradora para ser consultada por las agencias cuando interactúan con los clientes. Montar el lago de datos para efectuar la analítica sobre los clientes de una empresa de energía eléctrica. ¿Cuál de las siguientes situaciones no es habitual en Spark Structured Streaming?. Entrenar un modelo predictivo en tiempo real. Refrescar una agregación que estamos guardando en una tabla. Comprobar y consolidar datos recibidos en tiempo real antes de guardarlos. Todas las respuestas anteriores son habituales con Spark Structured Streaming. ¿Cuál de las siguientes tecnologías NO es un Data warehouse?. Redshift. Elastic Map Reduce. Synapse. Big Query. ¿Qué caso de uso NO está indicado para Hive?. Realizar una agregación en SQL sobre ficheros de la base de datos operacional (transaccional) de una empresa. Escribir una ETL en SQL de creación de variables agregadas del informacional de clientes. Unir en SQL datos históricos masivos de diferentes departamentos. Todos los casos anteriores son adecuados para Hive. ¿Qué es la dependencia en las etapas de un pipeline?. Los estimadores siempre deben colocarse antes que los transformadores. Las columnas que una etapa necesita deben haberse generado en la etapa inmediatamente anterior. Los transformadores deben colocarse antes que los estimadores. Las columnas creadas por una etapa pueden ser utilizadas como entrada solo por etapa(s) poasterior(es). ¿Cómo utilizaría Kafka un programador de Java?. Importando la dependencia de Kafka para Java en su programa. Instalando Spark e invocándolo desde Java. Para utilizar Kafka es necesario hacerlo desde el lenguaje Python. El programador no puede utilizar Kafka directamente sino que son las herramientas cloud quienes lo invocan. Si un productor en Kafka configura acks=all, ¿qué implica?. Mayor latencia. Mayor rendimiento. Entrega más rápida de mensajes. Mayor riesgo de pérdida de mensajes. ¿Cuál de estos servicios cumple la misma finalidad que el servicio Google Big Query?. Dataproc. Amazon EMR. Amazon S3. Amazon Redshift. ¿Cuál de las siguientes opciones no es correcta acerca del módulo Spark Streaming?. La forma de procesar los datos es en microbatches. Solo tiene API para RDDs que todavía no ha sido migrada a DataFrames. Gracias a Structured Streaming se puede utilizar la API estructurada definida en Spark SQL. La fuente de datos más habitual cuando usamos Spark Streaming es Kafka. En una plataforma de Cloud Computing podemos... Utilizar herramientas de desarrollo de software ya instaladas, y esto se conoce como IaaS. Utilizar directamente las máquinas, sin nada instalado, a lo cual se le llama PaaS. Utilizar software para usuarios finales ya instalado y listo para usar, y esto se conoce como SaaS. Ninguna de las respuestas anteriores es correcta. En HDFS, ¿qué fallo es menos problemático?. La caída de un NameNode. La caída de un DataNode. La caída de todos los NameNodes. Todos los fallos son igual de problemáticos. Elija la respuesta INCORRECTA sobre Impala: Está orientado a consultas interactivas. Está orientado a consultas en bloque. Realiza las consultas sobre su propia red de demonios. Trabaja principalmente en memoria. En Spark, si no cacheamos un DataFrame que utilizaremos en varias operaciones independientes ... Podríamos tardar más tiempo del estrictamente necesario. Podríamos obtener resultados incorrectos. Sería imposible reconstruir las particiones perdidas si falla un nodo. Todas las opciones anteriores son ciertas. ¿Cuál de las siguientes afirmaciones acerca de Hive y BigQuery NO es cierta?. Ambos son sistemas de Data Warehouse. Ambos poseen su propio motor de ejecución y no necesitan una herramienta externa para ejecutar consultas. Ambas son herramientas open-source. Las opciones B y C son falsas. Uno de los principales problemas de los RDD es que... Se ejecutan siempre en el proceso driver. No permiten replicación de sus particiones. Sólo pueden ser manejados desde el lenguaje Scala. El programador debe conocer exactamente la estructura de los objetos que lo componen. Para comunicar los servicios contratados (almacenamiento, computación, base de datos...) en una plataforma de cloud computing (elija la respuesta correcta): Todos los servicios existentes en una plataforma de cloud computing para todos los usuarios de la misma están comunicados entre sí automáticamente. No es posible comunicar servicios entre sí dentro de la plataforma de cloud computing, sino que es necesario crear una red externa para comunicarlos. Cada usuario de la plataforma de cloud computing puede crear únicamente una red virtual dentro de la plataforma para conectar todos los servicios que contrate. Ninguna de las anteriores. Cuál de las siguientes afirmaciones sobre los servicios de cloud computing es cierta: Están diseñadas explícitamente para resolver problemas de big data y machine learning. No son una buena elección para desarrollar aplicaciones móviles. Entre las aplicaciones que más usan servicios de cloud computing están las aplicaciones IoT (Internet of Things). Ninguna de las anteriores. Cuando utilizamos herramientas de cloud computing de un proveedor, ... Los desarrolladores no pueden instalar tecnologías open-source si usan la infraestructura de ese proveedor. Los desarrolladores pueden usar herramientas open-source para cualquier tarea. Los desarrolladores tienen que usar los servicios PaaS de ese proveedor. El desarrollo debe llevarlo a cabo un equipo de desarrolladores del proveedor. Se quiere ajustar un modelo predictivo de análisis de sentimiento a un conjunto masivo de textos, usando Spark MLlib. Antes de entrenar el algoritmo predictivo, es necesario pre-procesarlos (dividir en palabras, quitar palabras sin significado, y codificarlas como números). Algunas de estas operaciones son estimadores y otras son transformadores. ¿Cuál sería la manera correcta de proceder?. Crear estimadores y transformadores independientes, haciendo fit o transform sobre cada uno según corresponda. Crear un pipeline sólo con los estimadores, ejecutar fit sobre el pipeline y después ejecutar transform sobre los transformadores,. Crear un pipeline con todos los estimadores y transformadores necesarios, y ejecutar fit sobre el pipeline. Crear un pipeline sólo con los transformadores, ejecutar fit sobre el pipeline y después usar transform sobre los estimadores. Se quiere desplegar un producto big data en una plataforma de cloud computing. Por requisitos del producto, se requiere tener el mayor control posible del servidor o servidores donde se despliegue dicho producto. ¿Qué solución de las disponibles elegiría?. IaaS. PaaS. FaaS. SaaS. ¿Cuál de las siguientes situaciones no es habitual en Spark Structured Streaming?. Entrenar un modelo predictivo en tiempo real. Refrescar una agregación que estamos guardando en una tabla. Comprobar y consolidar datos recibidos en tiempo real antes de guardarlos. Todas las respuestas anteriores son habituales con Spark Structured Streaming. Al hacer resultado_df = df.withColumn("c", F.lit(3))... Spark solo materializa df si lo habíamos marcado como cacheado antes de esta línea. Spark no materializa el resultado por ser una transformación. Spark materializa el resultado por ser una acción. Spark materializa el resultado en el momento de hacer resultado_df.cache(). ¿Cuál es el servicio de Azure equivalente a Amazon S3?. Azure Cognitive Services. Azure DataLake Storage. Azure Cosmos. Azure SQL Database. ¿Qué implica una transformación narrow en Spark?. Movimientos de datos entre nodos. Uso intensivo de la memoria RAM. Replicación de particiones. Cada partición da lugar a otra en el mismo nodo. Seleccione la respuesta INCORRECTA sobre Apache Hive: Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. Es una base de datos distribuida en un clúster Hadoop. Está indicado principalmente para pocesado OLAP (en bloque). Es una tecnología de código abierto. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): Lee los mensajes en orden dentro de cada partición. Lee los mensajes en orden dentro de cada topic. Lee los mensajes en orden dentro de cada bróker. Kafka no garantiza ningún tipo de orden al consumir los mensajes. ¿Cuál es el propósito del DAG en Spark?. Optimizar consultas SQL. Mantener la trazabilidad y resiliencia. Replicar particiones. Ejecutar acciones inmediatamente. ¿Cómo se relacionan Apache Spark y Apache Kafka?. Spark puede leer desde y escribir en Kafka datos en tiempo real. Spark puede guardar los DataFrames como tablas en el almacén de metadatos (metastore) de Kafka. Kafka sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Spark. Spark sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Kafka. Si nos fijamos en los tres grandes proveedores de servicios de Cloud Computing en la actualidad... Cada proveedor permite desplegar exclusivamente instancias de bases de datos relacionales propietarias, de ese proveedor. Sólo permiten desplegar bases de datos relacionales que sean open source, como MySQL, PostgreSQL, etc. Los proveedores cloud no incluyen entre sus servicios el despliegue de bases de datos relacionales. Ninguna de las opciones anteriores es cierta. ¿Por qué actualmente no se utilizan los RDDs en Spark?. Porque el código es menos intuitivo y más propenso a errores por parte del programador, además de no estar optimizados, a diferencia de los DataFrames. Porque los RDDs escriben los resultados en disco el resultado intermedio de los cálculos. Porque no están disponibles en Python (pyspark), sino sólo en lenguaje Scala. Las respuestas A y B son correctas. Si la variable datos_df almacena un DataFrame de Spark, ¿qué ocurre cuando hacemos datos_df.cache() ?. Spark materializa el DataFrame en ese momento. Spark escribe el DataFrame en disco. Spark libera el contenido del DataFrame de la memoria. Spark marca el DataFrame para que no se libere cuando sea materializado. ¿Qué tecnologías se asimilan a Apache Hive?. Amazon Redshift, Cloud SQL, Azure SQL Database. Amazon EMR, Google Cloud Dataproc, Azure Databricks. Amazon S3, Google BigQuery, Azure DataLake Storage. Amazon Redshift, Google BigQuery, Azure Synapse. ¿Cómo se llama el servicio de Amazon Web Services para crear un cluster de herramientas Big Data?. Elastic Map Reduce. Dataproc. Cognitive Services. Ninguno de los servicios anteriores. Seleccione la respuesta correcta sobre los dataframes de Spark: Son una estructura de datos que envuelve un RDD de objetos tipo Row. Una ventaja sobre los RDD es que los dataframes no son inmutables. No es posible acceder al RDD envuelto por un dataframe. Al igual que los RDD, los dataframes están distribuidos en almacenamiento persistente de los nodos worker. ¿Qué es lo que está replicado en Kafka?. Cada topic está replicado en varios productores. Cada broker está replicado en varios consumidores. Cada partición está replicada en varios brokers. Cada productor está replicado dentro de varios topics. ¿Cómo consigue Kafka la escalabilidad?. Gracias a que está soportado por HDFS el cual es intrínsecamente escalable. Gracias a que utiliza Spark como motor de procesamiento, y Spark es escalable al distribuir el cómputo automáticamente. Gracias a que las particiones de un topic están replicadas en varios brokers y esto permite adaptarnos a un incremento de productores o de consumidores. Todas las respuestas anteriores son correctas. Se quiere desplegar una base de datos SQL en una plataforma de cloud computing. El equipo de desarrolladores es experto en diseño y gestión de bases de datos SQL, pero no es experto en administración de sistemas. ¿Qué opción de las disponibles sería la más adecuada?. Usar un servicios IaaS. Usar un servicio PaaS. Usar un servicio SaaS. Usar un servicio on-premises. ¿Qué es un executor en Apache Spark?. Un nodo del clúster donde se almacenan los datos. Un nodo del clúster donde se procesan los datos. Un proceso de la JVM que ejecuta tareas en un nodo del clúster. Un conjunto de nodos que coordinan el procesamiento. Completa la terna: Dataproc, Azure HD Insight, ... Amazon SageMaker. Amazon S3. Elastic Map Reduce. Ninguna de las opciones anteriores es correcta. Los mensajes que una aplicación productora envía a Kafka (seleccione la respuesta correcta): Se almacenan en el clúster de Kafka de forma indefinida y sólo se pueden borrar de forma manual. Se almacenan en memoria del clúster de Kakfa hasta que los lee el primer consumidor, y una vez leído se borran de memoria. Se almacenan en almacenamiento persistente del clúster de Kafka hasta que los lee el primer consumidor, y una vez leído se eliminan. Se almacenan en el clúster de Kafka y se eliminan tras cierto tiempo en el clúster o cuando el volumen de mensajes alcanza cierto umbral, según configuración. Para utilizar una cola de Kafka desde el lenguaje de programación Java ... Basta descargar e importar la librería de Kafka para Java, y tener previamente Kafka instalado y corriendo en un cluster. Es necesario tener instalado Spark en el mismo cluster además de Kafka. Es necesario tener instalado HDFS en el mismo cluster además de Kafka. No es posible utilizar Kafka desde Java; es necesario hacerlo desde Python. ¿Cuál de las siguientes tecnologías es más similar a BigQuery?. Apache Hive. Apache Kafka. Apache Spark. HDFS. ¿Cómo almacena la información Kafka para ser consumida?. En ficheros en formato binario. En el metastore. En HDFS. Ninguna de las repsuestas anteriores es cierta. Entre los servicios big data que ofrecen las plataformas de cloud computing estudiadas (elija la respuesta correcta): Todas las plataformas proporcionan Hive como servicio gestionado. Todas las plataformas proporcionan un servicio de consultas OLAP (OnLine Analytical Processing, orientado a consultas batch) gestionado. Todas las plataformas proporcionan únicamente servicios de consulta OLTP. Ninguna de las anteriores. ¿Cuál de los siguientes elementos NO forma parte de la arquitectura de Impala?. Apache Spark. impalad. Conector ODBC. catalogd. En el sistema de ficheros HDFS, cuando se solicita la escritura de un fichero: El namenode accede a los datanodes para escribir los bloques. El namenode envía el contenido de los bloques del fichero a los datanodes. El cliente envía el contenido de los bloques del fichero a namenode. El cliente envía el contenido de los bloques del fichero a los datanodes. En el sistema de ficheros HDFS, cuando se solicita la lectura de un fichero: Es el cliente quien proporciona los metadatos al namenode. Es el namenode quien proporciona los metadatos al cliente. Es el namenode quien proporciona los bloques del fichero al cliente. Es el datanode quien proporciona los metadatos al cliente. Cuál de los siguientes servicios de seguridad NO ofrecen las plataformas de cloud computing estudiadas: Responsabilidad sobre los datos de la aplicación. Gestión de identidad. Control de acceso. Autenticación y autorización. En una tabla manejada de Hive ... El borrado de la tabla implica el borrado de los datos. El borrado de la tabla no afecta a los datos, que permanecerán en la misma ubicación. Al ser manejada por Hive, las herramientas de BI no pueden acceder a esos datos. Ninguna de las opciones anteriores es correcta. Cuando aplicamos el método fit a un Estimator de Spark, pasando como argumento un DataFrame... Nos devuelve como resultado otro estimador. Nos devuelve como resultado un transformador. Nos devuelve como resultado el DataFrame ajustado. No es posible aplicar fit a un Estimator. |





