BDA03

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

BDA03

Descripción:
BDA tema 03

Autor:

apuntesce

OTROS TESTS DEL AUTOR

Fecha de Creación: 2023/03/29

Categoría: Otros

Número Preguntas: 125

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Apache Spark es una tecnología que sustituye a Hadoop. ¿Verdadero o falso?. Verdadero. Falso.

Apache Spark tiene una latencia mayor que Apache Flink como norma general para procesamiento en tiempo real. ¿Verdadero o falso?. Verdadero. Falso.

Hive es escalable porque pueden añadirse más nodos HiveServer2 para que trabajen en paralelo, ejecutando una query en los diferentes HiveServer2. ¿Verdadero o falso?. Verdadero. Falso.

De las siguientes herramientas, ¿cuál será la principal de trabajo de los data scientists para visualizar y explorar los datos de HDFS?. Zeppelin. Spark. Impala. Hive.

¿Cuál es la sentencia de Hive con la que se borra una tabla?: DELETE TABLE. DROP TABLE. FORMAT TABLE. DEL TABLE.

¿Cuál es la sentencia de Hive con la que se crea una nueva tabla?: INSERT. MAKE TABLE. CREATE TABLE. NEW TABLE.

Para ingestar datos que están en bases de datos relacionales, ¿qué componente de Hadoop se utiliza?. Sqoop. Pig. YARN. Flume.

¿Cómo se llama la principal abstracción de datos de Apache Spark: Dataframe. RDD. Dataset. File.

Apache Spark ofrece la capacidad de procesar datos en streaming. ¿Verdadero o falso?. Verdadero. Falso.

HBase es una base de datos NoSQL. ¿Verdadero o falso?. Verdadero. Falso.

En cualquier despliegue de Hadoop, es necesario instalar y conocer todos los componentes del ecosistema. Verdadero. Falso.

Pig es más rápido en ejecución que MapReduce. Verdadero. Falso.

¿Por qué crees que Hive se ha convertido en una de las herramientas más utilizadas en Hadoop?. Porque permite abrir el uso de Hadoop a todo tipo de usuarios. Porque se integra bien con MapReduce. Porque permite integrar los datos de Hadoop al resto de herramientas de análisis de las empresas. Porque YARN no permite desarrollar programas MapReduce. Porque Cloudera lo impulsó mucho, y todos los usuarios de su distribución lo empezaron a utilizar.

En el caso de una gran empresa de retail, que dispone de un clúster Hadoop donde se están almacenando todas las ventas de todas las tiendas. Si tengo una aplicación web en un servidor diferente a donde se encuentra Hadoop, y quiero mostrar un listado de los promedios de ventas por tienda, ¿podré utilizar Hive para generar ese listado?. Sí, ya que se podría integrar por ODBC o JDBC con HiveServer. No, Hive sólo se puede utilizar por aplicaciones que están en el mismo clúster Hadoop. No, Hive no está preparado para este tipo de casos de uso.

Las particiones sirven para reducir el tamaño de las tablas en Hive. Verdadero. Falso.

Puedo definir muchas bases de datos en Hive. Verdadero. Falso.

¿Qué beneficios aporta Impala frente a Hive?. Salvo en las últimas versiones de Hive, el rendimiento de Impala es claramente superior. Es más fácil de gestionar al no ejecutarse sobre YARN. Tiene un interfaz ODBC, a diferencia de Hive. Es opensource, a diferencia de Hive. Su lenguaje de acceso parecido a SQL es más rico que el lenguaje de acceso de Hive, HQL.

¿Para cuál de los siguientes casos elegirías HBase en lugar de Hive?. Una plataforma de pagos en la que se puede crear un pago, consultar los pagos de un cliente o modificar un pago realizado. Una plataforma de estadísticas de fútbol que cada semana genera un informe con todo el detalle de los datos de la jornada anterior. Un sistema en el que se necesita modificar ocasionalmente los registros, ya que lo que más se realiza son cuadros de mando o consultas complejas. Para montar un sistema de mensajería de una red social, en la que se envían mensajes, se leen y se almacenan, consultando los mensajes de un usuario.

¿Qué lenguaje de acceso a datos es necesario saber para poder utilizar Phoenix?. JDBC. El API de HBase. SQL.

En Spark, todas las operaciones se ejecutan en paralelo. Verdadero. Falso.

¿Cuál de las siguientes funcionalidades es ofrecida por Apache Spark?. Computación masiva en paralelo. Librerías para facilitar la creación de modelos de machine learning. Librerías para facilitar la computación en tiempo real. Librerías para facilitar los procesos de análisis mediante grafos.

¿Spark puede paralelizar todas las operaciones que ejecuta sobre los datos?. Sí, Spark es una plataforma para ejecución masiva en paralelo de programas de procesamiento de datos. No, hay acciones que no se pueden paralelizar, como la escritura de un RDD en disco.

Sqoop proporciona una aplicación de línea de comandos para ser utilizada. Verdadero. Falso.

Las operaciones de Sqoop son básicamente dos: importar y exportar a una base de datos relacional. Verdadero. Falso.

Oozie sirve para automatizar diferentes procesos que se ejecutan de forma planificada dentro de un clúster Hadoop. El ejemplo más típico son las ingestas de datos, que habitualmente se realizan en ventana nocturna, y los posteriores procesos de transformación de datos. Verdadero. Falso.

Hue es una herramienta orientada a usuarios de Hadoop incluso sin conocimiento técnico. Verdadero. Falso.

Hue permite acceder a Hive para hacer consultas y ver los resultados. Verdadero. Falso.

Hue no ofrece seguridad, así que es potencialmente peligroso. Verdadero. Falso.

¿Qué diferencia hay entre Hue y Zeppelin en cuanto a la funcionalidad o al uso que se le da?. Dan la misma funcionalidad, pero Zeppelin ofrece más cantidad de gráficos para visualizar. Hue está destinado a personas sin conocimientos de programación, mientras que Zeppelin está orientado a científicos de datos que quieren programar sus análisis e ir viendo los resultados poco a poco sin necesidad de un entorno de desarrollo.

Cuando se comenzaron a implementar casos de uso Big Data, se implementaron pocos casos de tiempo real. Verdadero. Falso.

En la garantía de entrega at-least-once, podría darse el caso en que un evento no se llegue a procesar. Verdadero. Falso.

Siempre es mejor una solución de procesamiento de eventos one-at-a-time que una solución basada en micro-batch. Verdadero. Falso.

¿Cuál es la capa de almacenamiento en Hadoop?. MapReduce. YARN. HDFS.

¿Por qué es difícil programar procesos en MapReduce?. Porque requiere de un equipo de expertos en Big Data. Porque MapReduce es una herramienta obsoleta. Porque Hadoop no ofrece suficientes funcionalidades.

¿Cuál es el objetivo del ecosistema Hadoop?. Convertir Hadoop en una plataforma de datos global para toda la empresa. Ofrecer funcionalidades específicas para el almacenamiento y procesamiento de datos. Permitir el procesamiento en streaming o tiempo real.

Hadoop Core está formado por HDFS, YARN y MapReduce. Verdadero. Falso.

El uso de Hadoop requiere de grandes conocimientos técnicos. Verdadero. Falso.

¿Cuál es el principal problema que surgió en Hadoop?. La dificultad para realizar ingestas y operaciones en la plataforma. La falta de funcionalidad en el almacenamiento de datos. La falta de herramientas para procesamiento en tiempo real.

¿Cuál es el propósito de los componentes del ecosistema Hadoop?. Añadir funcionalidades distintas a Hadoop. Sustituir a Hadoop por sistemas más modernos. Optimizar el rendimiento de Hadoop en grandes clústeres.

¿Qué componentes pertenecen al grupo de acceso y procesamiento de datos?. Apache Pig, Apache Hive, Apache Impala, Apache HBase, Apache Phoenix, Apache Spark. Apache Sqoop, Apache Flume, Apache Oozie. Apache Hue, Apache Zeppelin, Apache Ambari, Cloudera Manager.

¿Qué componente permite resolver casos de uso de análisis en tiempo real?. Apache Flink. Apache HBase. Apache Hue.

La mayoría de los componentes del ecosistema Hadoop son proyectos propietarios. Verdadero. Falso.

Relaciona los componentes con su grupo. Componentes de acceso y procesamiento de datos. Componentes de ingesta y flujos de trabajo.

Relaciona cada grupo de componentes con un componente. Componentes de acceso y procesamiento de datos. Componentes de ingesta y flujos de trabajo.

Relaciona los componentes con su grupo. Interfaces y herramientas de trabajo. Procesamiento en streaming.

Relaciona cada grupo de componentes con su definición. Componentes de acceso y procesamiento de datos. Componentes de ingesta y flujos de trabajo. Interfaces y herramientas de trabajo. Procesamiento en streaming.

¿Cuál es el objetivo principal de los componentes de acceso y procesamiento de datos en Hadoop?. Permitir el acceso a los datos y analizarlos de una forma más sencilla que mediante MapReduce. Almacenar los datos de una forma diferente a HDFS para optimizar el espacio. Facilitar la programación de algoritmos complejos en Java.

¿Cuál de las siguientes herramientas de Hadoop permite hacer consultas o análisis sobre los datos sin programar, utilizando un lenguaje de consultas como SQL?. Apache Pig. Apache Hive. Apache Impala.

¿Qué es HBase en Hadoop?. Un componente que permite almacenar los datos sobre HDFS pero de una manera con la que sea muy rápido acceder a los datos. Un componente que permite hacer consultas o análisis sobre los datos sin programar, utilizando un lenguaje de consultas como SQL. Un componente que permite intercambiar datos con el exterior y automatizar los procesos o flujos de trabajo.

¿Cuál es el rol del científico de datos en una plataforma Big Data?. Hacer las ingestas de los datos en crudo y procesarlos. Resolver preguntas de negocio utilizando herramientas más sencillas. Utilizar técnicas basadas en inteligencia artificial y otras técnicas de análisis de datos para investigar y solucionar preguntas del negocio que suelen requerir modelos predictivos, prescriptivos o incluso cognitivos.

¿Qué es un business analyst en una plataforma Big Data?. Una persona que, teniendo un conocimiento alto del negocio pero un conocimiento menor de la tecnología, es capaz de resolver preguntas de negocio utilizando herramientas más sencillas. Un ingeniero de datos que hace las ingestas de los datos en crudo y los procesa para que puedan ser utilizados en los análisis. Un analista que utiliza técnicas basadas en inteligencia artificial y otras técnicas de análisis de datos para investigar y solucionar preguntas del negocio que suelen requerir modelos predictivos, prescriptivos o incluso cognitivos.

¿Qué es Apache Pig?. Un lenguaje de mayor nivel que utiliza Pig Latin para simplificar la implementación de programas de procesamiento de datos sobre MapReduce, Tez o Spark. Un framework de bajo nivel para implementar aplicaciones de procesamiento de datos. Un motor de ejecución sobre Spark que ofrece un nivel de abstracción mayor. Un programa diseñado para ser extensible y utilizado para movimiento o transformación de dato.

¿Qué se pretendía al desarrollar Pig?. Simplificar la implementación de programas de procesamiento de datos. Reemplazar MapReduce y Hadoop. Desarrollar un lenguaje de programación para analistas con grandes conocimientos de programación. Aumentar el rendimiento de los programas escritos en MapReduce.

¿En qué consiste un programa Pig Latin?. Se compone de una serie de operaciones o transformaciones que se aplican a los datos de entrada para producir resultados. Es un programa diseñado para ser extensible y utilizado para movimiento o transformación de datos. Es una serie de trabajos de MapReduce que son transparentes para el programador o el usuario de Pig. Permite realizar ejecuciones sobre un subconjunto de datos de entrada.

Relaciona cada consulta con. HIVE. Pig Latin.

¿Qué funcionalidades ofrece Pig para revisar las estructuras de datos?. Permite realizar ejecuciones sobre un subconjunto de datos de entrada. Ofrece comandos para filtrar, agrupar, leer, cargar, guardar o unir datos. Ofrece funcionalidades para revisar las estructuras de datos en un programa a medida que se escribe. Permite personalizar la carga, el almacenamiento, el filtrado, la agrupación y la unión mediante funciones definidas por el usuario.

¿Cuáles son las limitaciones de Hadoop a la hora de explotar datos en HDFS?. Requiere programación de procesos MapReduce para manipular datos. Permite la integración con herramientas de gestión o explotación de datos. MapReduce permite reutilizar fácilmente el código.

¿Qué es Hive?. Un lenguaje similar a Pig Latin. Una herramienta que permite simplificar las tareas de analítica con ficheros de HDFS. Un motor de procesamiento de Hadoop.

¿Qué es HQL?. Un lenguaje de consultas de Hive, similar a Pig Latin. Un lenguaje de programación utilizado para MapReduce. Un lenguaje de consultas de Hive, de sintaxis muy similar a SQL.

¿Cómo se traducen las consultas en Hive?. A código de programación en Java. A programas MapReduce, Tez o Spark. A consultas SQL.

¿Qué es una UDF en Hive?. Un motor de procesamiento de Hadoop. Una función a medida que consiste en un código Java que se añade a la consulta y permite realizar operaciones no estándar. Una tabla en Hive.

Hive fue desarrollado por un grupo de ingenieros de Facebook. Verdadero. Falso.

¿Qué lenguajes se pueden utilizar para escribir aplicaciones en Hive?. Java, Python y C++. Java, PHP y Ruby. Python, PHP y C++.

¿Qué es Apache Thrift?. Un protocolo e implementación para publicar y consumir servicios binarios similar a RPC. Una base de datos. Un lenguaje de programación.

¿Qué servicios principales tiene Hive?. HiveServer, Driver, Metastore, Compilador y Ejecutor. Server, Client, Metadatos, Optimizador y Executor. Metastore, Driver, Compilador, Optimizador y Executor.

¿Qué función tiene el Metastore en Hive?. Contiene el registro de todos los metadatos de Hive y otros componentes que requieren aplicar un modelo sobre datos existentes en HDFS o HBase. Realiza la ejecución de las consultas. Permite escribir aplicaciones en varios lenguajes.

¿Qué es el plan de ejecución creado por el compilador en Hive?. Un DAG (Gráfico acíclico dirigido), donde cada etapa es un trabajo de mapeo/reducción, operación en HDFS, una operación de metadatos. Una consulta SQL. Una definición de tabla.

El desempeño de las consultas Hive no depende de la capacidad de ejecución del clúster Hadoop. Verdadero. Falso.

Relaciona cada servicio con su componente: Cliente. Servicios Hive. Hadoop.

¿Qué es HQL y cómo se relaciona con Hive?. HQL es el lenguaje que Hive utiliza para conectarse con otras bases de datos. HQL es un lenguaje que permite realizar consultas en Hive. HQL es una base de datos utilizada por Hive.

¿Qué es una partición en Hive?. Una división vertical de la tabla que permite dividir las tablas en bases de datos. Un mecanismo para hacer eficientes las operaciones de Hive. Una agrupación de tablas que contienen información de una misma entidad.

¿Qué tipos de datos pueden contener las columnas en Hive?. Enteros, Decimales, Fecha/hora, Cadenas, Otros y Compuestos. Números, Texto y Booleanos. Strings, Integers, Booleans y Floats.

¿Qué tipos de entidades tiene Hive?. Tablas, campos, registros y particiones. Bases de datos, tablas, registros y particiones. Tablas, campos, registros y bases de datos.

¿Qué es una tabla en Hive?. Un concepto general que contiene información de una misma entidad. Una división vertical de la tabla que permite dividir las tablas en bases de datos. Una agrupación de tablas que contienen información de una misma entidad.

Hive es un lenguaje similar a SQL. Verdadero. Falso.

¿Qué son las sentencias DDL?. Son sentencias para manipular los datos de las tablas. Son sentencias para crear o modificar bases de datos. Son sentencias para borrar una tabla de una base de datos. Son sentencias para realizar operaciones aritméticas en las tablas.

¿Cuál es la sintaxis para cargar datos en una tabla desde un fichero existente en HDFS en Hive?. LOAD DATA LOCAL INPATH './data/inmuebles.csv' OVERWRITE INTO TABLE inmuebles. INSERT INTO TABLE inmuebles VALUES (‘Calle Sol 23, 'Madrid', 'Madrid’, 95, 234452). UPDATE inmuebles. DROP TABLE inmuebles.

Relaciona cada tipo de sentencia con su significado. Sentencias DDL. Sentencias DML.

Relaciona cada tipo de sentencia con su ejemplo. Sentencias DDL. Sentencias DML.

¿Cuál fue la motivación de Cloudera para desarrollar Impala?. Alternativa o complemento a Hive. Sustituir a Hive. Ofrecer un lenguaje SQL-like (HQL) sobre datos almacenados en HDFS o HBase.

¿Cuándo fue lanzada la primera versión beta de Impala?. Octubre de 2012. Noviembre de 2017. Octubre de 2015.

¿Qué lenguaje de consultas ofrece Impala?. SQL. HQL. Python.

¿Qué problemática tiene Impala asociada a su arquitectura?. Está basado en procesos en Python. Está basado en procesos en Java. Está basado en procesos en C++ que se ejecutan en los nodos worker fuera de YARN.

¿Qué ha hecho que muchas compañías abandonen el uso de Impala?. La falta de soporte para almacenamiento en HBase y HDFS. La falta de securización. La diferencia de rendimiento muy baja entre Hive e Impala.

Impala es una herramienta orientada a consultas típicas de Business Intelligence o Business Analytics. Verdadero. Falso.

¿Qué problemas resuelve HBase?. Problemas de lecturas y escrituras masivas en HDFS. Operaciones CRUD de datos atómicos o de pequeño tamaño. Problemas de escalabilidad de Hadoop.

¿Cuál es el modelo de representación de datos utilizado por HBase?. Modelo relacional con almacenamiento columnar. Modelo no relacional con almacenamiento de documentos. Modelo no relacional con almacenamiento columnar.

¿Cuál fue la idea inicial de Spark?. Desarrollar un motor que aprovechara la memoria de los nodos para acelerar los procesos de computación distribuida. Desarrollar un sistema de almacenamiento propio. Desarrollar un motor para procesamiento de datos en tiempo real. Desarrollar un motor para procesamiento batch de datos.

¿Qué empresa ofrece una solución de Spark opensource añadiendo soporte empresarial?. Apache Software Foundation. Hortonworks. Cloudera. Databricks.

¿Cuáles son los tres entornos de ejecución diferentes en los que puede ejecutarse Spark?. YARN, Mesos y en modo stand-alone. Hadoop, Mesos y en modo stand-alone. YARN, HDFS y en modo stand-alone. YARN, Mesos y HDFS.

¿Con qué lenguajes se puede utilizar el core de Spark?. Scala, Java, Python, R y SQL. Scala, Java, Python y C++. Java, Python, R y SQL. Scala, Java y C#.

¿Para qué se utiliza Spark SQL?. Para el tratamiento de datos utilizando un lenguaje SQL. Para la construcción de modelos de machine learning. Para realizar programas de procesamiento de datos en tiempo real. Para la construcción de modelos basados en grafos.

¿Qué librería de Spark se utiliza para realizar programas de procesamiento de datos en tiempo real?. Spark SQL. MLLib. GraphX. Structured Streaming.

¿Qué librería de Spark se utiliza para la construcción de modelos de machine learning?. MLLib. Spark SQL. GraphX. Structured Streaming.

¿Qué librería de Spark se utiliza para la construcción de modelos basados en grafos?. MLLib. Spark SQL. GraphX. Structured Streaming.

¿Sobre qué sistema es habitual que se ejecute Spark?. Sobre Hadoop. Sobre Mesos. En modo stand-alone. Sobre S3.

¿Qué ventaja tiene Spark sobre MapReduce en términos de velocidad en procesos iterativos?. Utiliza memoria para persistencia efímera de datos, lo que incrementa en órdenes de magnitud su velocidad en procesos iterativos frente a frameworks como MapReduce. Requiere desarrollar una cantidad de código muy inferior frente a otros paradigmas como MapReduce. Ofrece un API muy rica: procesamiento de datos, transformaciones, machine learning, grafos, etc.

De todas estas desventajas de Spark: ¿cuál es una dificultad para su optimización o depuración en producción?. Está orientado a perfiles muy técnicos, con conocimientos sólidos de programación. Aunque es una plataforma con un nivel de madurez alto está sufriendo bastantes cambios lo que dificulta el manejo de distintas versiones, nuevas funcionalidades, etc. A veces, un programa desarrollado con Spark no funciona correctamente en producción, por ejemplo, porque consume demasiados recursos o porque se ralentiza en exceso.

¿Cuál es la finalidad de Apache Sqoop?. Transferir datos entre Hadoop y repositorios relacionales. Realizar procesos iterativos en frameworks como MapReduce. Almacenar datos en memoria para incrementar la velocidad de procesamiento.

¿Qué es un proceso MapReduce en Sqoop?. Un programa de línea de comandos que traduce las órdenes en programas MapReduce. Un proceso que se ejecuta en varios nodos del clúster para transferir datos. Un conjunto de ficheros de HDFS que se exportan a una base de datos relacional.

¿Por qué es importante revisar que la base de datos soporte el número de conexiones concurrentes en Sqoop?. Porque es necesario abrir una conexión con la base de datos de origen o destino en cada nodo del clúster. Porque se genera un proceso MapReduce que puede ralentizar la base de datos si hay demasiadas conexiones. Porque Sqoop utiliza memoria para persistencia efímera de datos, lo que incrementa la velocidad de procesamiento.

¿Cuál es la función principal de Apache Flume?. Recoger, agregar y mover datos generados de forma continua y atómica. Procesar los datos almacenados en Hadoop. Mover datos entre diferentes bases de datos.

¿Cuáles son los componentes principales de Flume?. Fuentes, canal y sumidero. Base de datos, tablas y registros. MapReduce, HDFS y YARN.

¿Qué tipos de fuentes, canales y sumideros ofrece Flume de manera predeterminada?. Avro, Thrift, Kafka, File, HDFS, Hive, Logger, HTTP y Custom, entre otros. Oracle, SQL Server, MySQL, PostgreSQL, HDFS, Hive, Logger, HTTP y Custom, entre otros. MongoDB, Cassandra, HBase, Redis, Kafka, File, HDFS, HTTP y Custom, entre otros.

¿Cuál es el objetivo de Apache Oozie?. Facilitar el lanzamiento de flujos de trabajo cuando se cumplen ciertas condiciones. Recoger y almacenar en Hadoop datos provenientes de sistemas de log, social media, IoT, emails, etc. Proporcionar capacidad de recuperación ante caídas.

¿Qué elementos forman parte de un flujo de trabajo en Oozie?. Fuentes, canales y sumideros. Condiciones de inicio, mecanismos de control, acciones y estados de fin y error. Fuentes de datos externas, canales y repositorios externos.

¿En qué lenguaje están escritas las definiciones de los flujos de trabajo de Oozie?. Java. Python. hPDL, un lenguaje de definición de procesos XML similar a JBOSS JBPM jPDL.

Relaciona cada componente de Apache con sus componentes internos. Apache Flume. Apache Oozie.

¿Qué es Hue?. Una herramienta para notebooks de código. Un componente de Apache. Un interfaz web para trabajar con Hadoop de modo sencillo.

¿Qué permite hacer Hue con Hive?. Ver los resultados de las consultas. Solo visualizar tablas y bases de datos. Ejecutar consultas y visualizar el histórico de consultas.

¿Qué es Apache Zeppelin?. Un componente de Apache. Un interfaz web para trabajar con Hadoop de modo sencillo. Una herramienta web para notebooks.

¿Cuál es uno de los intérpretes que permite incorporar Zeppelin?. SQL. MongoDB. JavaScript.

¿Qué permite hacer Zeppelin con los resultados de las consultas?. Visualizarlos en modo gráfico. Solo visualizarlos en forma de tabla. Solo exportarlos a otros formatos.

¿Por qué se utiliza Hue y Zeppelin?. Hue para industrializar los desarrollos y Zeppelin para hacer consultas. Hue para interactuar con los datos mediante la creación de historias con código y Zeppelin para cubrir el gap de la falta de potencia de Hue. Hue para trabajar con Hadoop en modo consola y Zeppelin para trabajar en modo gráfico.

¿Para qué se utilizan los notebooks en Zeppelin?. Para navegar por el espacio de nombres de HDFS. Para lanzar consultas a Hive/Impala. Para interactuar con los datos mediante la creación de historias con código o consultas, generando gráficos, tablas, elementos interactivos, etc.

¿Qué es el concepto Fast Data?. Datos en movimiento. Datos de gran volumen que están en reposo. Datos que se almacenan en HDFS.

¿Qué tecnologías se utilizan comúnmente para procesar los datos en reposo en Hadoop?. Apache Storm y Apache Flink. Hive y Spark. Apache Hadoop y HDFS.

¿Qué garantía de procesamiento indica que todos los datos se procesan una vez, incluso en caso de fallo del sistema?. Exactly once. At-least-once. One-at-a-time.

¿Qué herramienta de streaming de Hadoop utiliza el procesamiento evento a evento?. Apache Spark. Apache Flink. Apache Storm.

¿Cuál es la diferencia entre el procesamiento evento a evento y el procesamiento en microbatch?. El procesamiento evento a evento tiene menos latencia pero peor ancho de banda. El procesamiento en microbatch tiene mayor latencia y peor ancho de banda. El procesamiento evento a evento tiene mayor latencia y peor ancho de banda.

¿Qué herramienta de streaming de Hadoop utiliza el procesamiento en microbatch?. Apache Flink. Apache Storm. Apache Spark.

¿Qué tipo de datos suele procesar el concepto Big Data?. Datos en movimiento. Datos que se generan gota a gota. Datos de gran volumen que están en reposo.

¿Qué nivel de garantía de procesamiento se requiere para el caso de uso en el que se pretende procesar los pagos con tarjeta según llegan al sistema?. Exactly once. At-least-once. One-at-a-time.

¿Qué nivel de garantía de procesamiento se requiere para el caso de uso en el que se reciben medidas de los sensores de las máquinas de una planta de fabricación y se va generando un cuadro de mando con la situación actual?. Exactly once. At-least-once. One-at-a-time.

¿Cuál es la herramienta de Hadoop que se utiliza comúnmente para almacenar los datos?. Apache Storm. Apache Flink. HDFS.

Denunciar Test

▲