BDA03 Autoevaluación
|
|
Título del Test:
![]() BDA03 Autoevaluación Descripción: Preguntas durante el tema 3 |



| Comentarios |
|---|
NO HAY REGISTROS |
|
En cualquier despliegue de Hadoop, es necesario instalar y conocer todos los componentes del ecosistema. ¿Verdadero o Falso?. Verdadero. Falso. Pig es más rápido en ejecución que MapReduce. ¿Verdadero o Falso?. Verdadero. Falso. ¿Por qué crees que Hive se ha convertido en una de las herramientas más utilizadas en Hadoop?. Porque permite abrir el uso de Hadoop a todo tipo de usuarios. Porque se integra bien con MapReduce. Porque YARN no permite desarrollar programas MapReduce. Porque permite integrar los datos de Hadoop al resto de herramientas de análisis de las empresas. Porque Cloudera lo impulsó mucho, y todos los usuarios de su distribución lo empezaron a utilizar. En el caso de una gran empresa de retail, que dispone de un clúster Hadoop donde se están almacenando todas las ventas de todas las tiendas. Si tengo una aplicación web en un servidor diferente a donde se encuentra Hadoop, y quiero mostrar un listado de los promedios de ventas por tienda, ¿podré utilizar Hive para generar ese listado?. Sí, ya que se podría integrar por ODBC o JDBC con HiveServer. No, Hive no está preparado para este tipo de casos de uso. No, Hive sólo se puede utilizar por aplicaciones que están en el mismo clúster Hadoop. Las particiones sirven para reducir el tamaño de las tablas en Hive. ¿Verdadero o Falso?. Verdadero. Falso. Puedo definir muchas bases de datos en Hive. ¿Verdadero o Falso?. Vedadero. Falso. Imagina que tenemos una tabla con todas las empresas del mundo, en la que, por ejemplo, estos serían los datos que contiene (una parte): La tabla se creó en Hive con la siguiente sentencia: CREATE TABLE empresas (nombre STRING, facturación DOUBLE, empleados INT, beneficios DOUBLE) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE; ¿Con qué sentencia se obtendría la lista de empresas de más de 1.000 empleados ordenadas de mayor a menor margen? Necesitamos obtener el listado con el nombre de la empresa y su margen. El margen se calcularía dividiendo los beneficios entre la facturación y multiplicando el resultado por 100. ¿Qué beneficios aporta Impala frente a Hive?. Es más fácil de gestionar al no ejecutarse sobre YARN. Tiene un interfaz ODBC, a diferencia de Hive. Es opensource, a diferencia de Hive. Salvo en las últimas versiones de Hive, el rendimiento de Impala es claramente superior. Su lenguaje de acceso parecido a SQL es más rico que el lenguaje de acceso de Hive, HQL. ¿Para cuál de los siguientes casos elegirías HBase en lugar de Hive?. Una plataforma de pagos en la que se puede crear un pago, consultar los pagos de un cliente o modificar un pago realizado. Una plataforma de estadísticas de fútbol que cada semana genera un informe con todo el detalle de los datos de la jornada anterior. Un sistema en el que se necesita modificar ocasionalmente los registros, ya que lo que más se realiza son cuadros de mando o consultas complejas. Para montar un sistema de mensajería de una red social, en la que se envían mensajes, se leen y se almacenan, consultando los mensajes de un usuario. ¿Qué lengiuaje de acceso a datos es necesario saber para poder utilizar Phoenix?. JDBC. El API de HBase. SQL. En Spark, todas las operaciones se ejecutan en paralelo. ¿Verdadero o Falso?. Verdadero. Falso. ¿Cuál de las siguientes funcionalidades es ofrecida por Apache Spark?. Computación masiva en paralelo. Librerías para facilitar la creación de modelos de machine learning. Librerías para facilitar la computación en tiempo real. Librerías para facilitar los procesos de análisis mediante grafos. ¿Spark puede paralelizar todas las operaciones que ejecuta sobre los datos?. Sí, Spark es una plataforma para ejecución masiva en paralelo de programas de procesamiento de datos. No, hay acciones que no se pueden paralelizar, como la escritura de un RDD en disco. Sqoop proporciona una aplicación de línea de comandos para ser utilizada. ¿Verdadero o Falso?. Verdadero. Falso. Las operaciones de Sqoop son básicamente dos: importar y exportar a una base de datos relacional. ¿Verdadero o Falso?. Verdadero. Falso. Oozie sirve para automatizar diferentes procesos que se ejecutan de forma planificada dentro de un clúster Hadoop. El ejemplo más típico son las ingestas de datos, que habitualmente se realizan en ventana nocturna, y los posteriores procesos de transformación de datos. Verdadero. Falso. Hue es una herramienta orientada a usuarios de Hadoop incluso sin conocimiento técnico. ¿Verdadero o Falso?. Verdadero. Falso. Hue permite acceder a Hive para hacer consultas y ver los resultados. ¿Verdadero o Falso?. Verdadero. Falso. Hue no ofrece seguridad, así que es potencialmente peligroso. ¿Verdadero o Falso?. Verdadero. Falso. ¿Qué diferencia hay entre Hue y Zeppelin en cuanto a la funcionalidad o al uso que se le da?. Dan la misma funcionalidad, pero Zeppelin ofrece más cantidad de gráficos para visualizar. Hue está destinado a personas sin conocimientos de programación, mientras que Zeppelin está orientado a científicos de datos que quieren programar sus análisis e ir viendo los resultados poco a poco sin necesidad de un entorno de desarrollo. Cuando se comenzaron a implementar casos de uso Big Data, se implementaron pocos casos de tiempo real. ¿Verdadero o Falso?. Verdadero. Falso. En la garantía de entrega at-least-once, podría darse el caso en que un evento no se llegue a procesar. ¿Verdadero o Falso?. Verdadero. Falso. Siempre es mejor una solución de procesamiento de eventos one-at-a-time que una solución basada en micro-batch. ¿Verdadero o Falso?. Verdadero. Falso. |





