BDA - Final
|
|
Título del Test:
![]() BDA - Final Descripción: Big Data aplicado |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es la sentencia de Hive con la que se crea una nueva tabla?: NEW TABLE. MAKE TABLE. CREATE TABLE. INSERT. ¿Qué componente del ecosistema Hadoop permite ver los ficheros de HDFS como si fueran tablas de una base de datos relacional?: YARN. Hive. Oozie. Ambari. HBase ofrece un interfaz de consultas parecido a SQL, llamado HQL. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama la principal abstracción de datos de Apache Spark: Dataframe. Dataset. File. RDD. ¿Cuál es la sentencia de Hive con la que se borra una tabla?: DEL TABLE. DELETE TABLE. FORMAT TABLE. DROP TABLE. De las siguientes herramientas, ¿cuál será la principal de trabajo de los data scientists para visualizar y explorar los datos de HDFS?. Zeppelin. Impala. Hive. Spark. Hive es escalable porque pueden añadirse más nodos HiveServer2 para que trabajen en paralelo, ejecutando una query en los diferentes HiveServer2. ¿Verdadero o falso?. Verdadero. Falso. Apache Ambari se puede utilizar para instalar un clúster Hadoop, facilitando mucho esta labor. ¿Verdadero o falso?. Verdadero. Falso. Apache Spark puede leer y procesar datos que se encuentran en una base de datos relacional. ¿Verdadero o falso?. Verdadero. Falso. ¿Cuál de las siguientes afirmaciones sobre Impala es correcta?. Permite importar datos de otras bases de datos relacionales. Permite administrar un clúster Hadoop. Permite acceder a los datos de HDFS como si fuera una tabla. Ninguna de las anteriores es correcta. Apache Spark ofrece la capacidad de procesar datos en streaming. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama el componente que ofrece, desde una web, acceso a los ficheros de HDFS y poder lanzar consultas Hive?. Impala. Hive. Spark. Hue. ¿Cuál es la sentencia de Hive con la que añadimos un registro en una tabla dándole los valores de los campos en la misma sentencia?. ADD DATA. INSERT INTO. ADD INTO. LOAD DATA. ¿Qué componente del ecosistema Hadoop fue el primero en aparecer para reducir la complejidad de los procesos MapReduce que se desarrollaban hasta entonces?: YARN. Pig. Spark. HDFS. Hive requiere dar una estructura a los ficheros de HDFS antes de poder hacer consultas sobre ellos. ¿Verdadero o falso?. Verdadero. Falso. Apache Spark tiene una latencia mayor que Apache Flink como norma general para procesamiento en tiempo real. ¿Verdadero o falso?. Verdadero. Falso. ¿Desde qué componente de Hadoop se puede enviar un email al administrador cuando una ingesta automática ha fallado?. Cloudera Manager. Oozie. Ambari. Spark. Para ingestar datos que se generan en tiempo real, ¿qué componente de Hadoop se utiliza?. Flink. Flume. Storm. Spark. HBase es una base de datos NoSQL. ¿Verdadero o falso?. Verdadero. Falso. Para automatizar la ejecución de trabajos que se debe realizar en Hadoop, por ejemplo, para validar los datos ingestados, ¿qué componente se debe utilizar?. YARN. Zookeeper. Pig. Oozie. Hive es una herramienta muy útil, pero tiene como aspecto negativo es que toda la seguridad la delega en los permisos de los ficheros de HDFS. ¿Verdadero o falso?. Verdadero. Falso. Apache Flink es una buena herramienta de procesamiento en tiempo real, pero tiene como principal inconveniente que no se puede ejecutar sobre YARN. ¿Verdadero o falso?. Verdadero. Falso. Para ingestar datos que están en bases de datos relacionales, ¿qué componente de Hadoop se utiliza?. YARN. Sqoop. Flume. Pig. Una partición de una tabla es un subconjunto de los registros de la tabla que comparten el valor de alguna columna en común. ¿Verdadero o falso?. Verdadero. Falso. Hive permite conectar Excel con ficheros que están en HDFS. ¿Verdadero o falso?. Verdadero. Falso. ¿Cuál es la sentencia de Hive con la que modificamos los registros de una tabla?. MODIFY ROWS. UPDATE. SELECT. LOAD DATA. ¿Cuál de las siguientes funcionalidades no es ofrecida por Apache Spark?: Computación en paralelo de procesos de transformación de datos. Algoritmos y utilidades para manejar datos como grafos. Interfaz para interactuar con programas escritos en R. Una base de datos NoSQL. ¿Qué componente del ecosistema Hadoop permite utilizar sintaxis SQL para manejar datos que están almacenado en HBase?. Storm. Phoenix. Pig. Oozie. Apache Spark es una tecnología que sustituye a Hadoop. ¿Verdadero o falso?. Verdadero. Falso. Si quiero parar un nodo de un clúster Hadoop porque está dando problemas, ¿qué herramienta podré utilizar?. Ambari. YARN. Oozie. Hue. ¿Cómo se llama el principal fichero de configuración para el servicio Hive?: core-config.xml. hadoop-commons.xml. hive-config.xml. hive-site.xml. Ganglia se ejecuta en un nodo master o en un nodo frontera de un clúster. ¿Verdadero o falso?. Verdadero. Falso. Si no existiera Ambari o Cloudera Manager, habría que modificar la configuración de todos los ficheros de configuración a mano, por ejemplo, con el comando vi. ¿Verdadero o falso?. Verdadero. Falso. El servicio ResourceManager UI permite modificar las colas de ejecución de aplicaciones en YARN. ¿Verdadero o falso?. Verdadero. Falso. Ambari ofrece la posibilidad de que aplicaciones externas se comuniquen con ella para arrancar o parar servicios de forma automática. ¿Verdadero o falso?. Verdadero. Falso. El servicio Namenode UI permite navegar por el sistema de ficheros de HDFS. ¿Verdadero o falso?. Verdadero. Falso. Ganglia se puede complementar con Nagios para la gestión de alertas. ¿Verdadero o falso?. Verdadero. Falso. Después de hacer un cambio de en la configuración de un servicio, suele requerirse un reinicio de dicho servicio. ¿Verdadero o falso?. Verdadero. Falso. Ganglia permite parar los servidores del clúster, pero no permite parar servicios concretos de Hadoop, como HDFS o Hive. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama el principal fichero de configuración para el servicio HDFS?: core-config.xml. hdfs-site.xml. hadoop-commons.xml. hdfs-config.xml. Ganglia es una herramienta de Apache y del ecosistema Hadoop específica para monitorizar clústers de servidores. ¿Verdadero o falso?. Verdadero. Falso. Ambari incluye toda o casi toda la funcionalidad de Namenode UI. ¿Verdadero o falso?. Verdadero. Falso. Para monitorizar un clúster Hadoop, en primer lugar hay que ver las métricas relacionadas con el sistema operativo: CPU, memoria, disco y red. ¿Verdadero o falso?. Verdadero. Falso. El servicio Namenode UI es sencillo, pero permite monitorizar y modificar parámetros de configuración de HDFS. ¿Verdadero o falso?. Verdadero. Falso. En Ambari puedo tener cuadros de mando a medida para monitorizar las métricas de salud que más me interesen. ¿Verdadero o falso?. Verdadero. Falso. Cloudera Manager tiene más o menos la misma funcionalidad que Ambari. ¿Verdadero o falso?. Verdadero. Falso. Ambari fue la primera herramienta de administración de Hadoop que se incluyó en las distribuciones. ¿Verdadero o falso?. Verdadero. Falso. El servicio ResourceManager UI permite ver los logs de ejecución de las aplicaciones. ¿Verdadero o falso?. Verdadero. Falso. En Ambari se puede realizar la ingesta de unos ficheros como administrador, para que luego los usuarios del clúster puedan utilizarlos. ¿Verdadero o falso?. Verdadero. Falso. Desde Cloudera Manager podría simular la caída de un servidor para hacer pruebas de tolerancia a fallos. ¿Verdadero o falso?. Verdadero. Falso. Utilizando el comando top se puede ver el consumo de memoria de los diferentes procesos en el sistema operativo. ¿Verdadero o falso?. Verdadero. Falso. Cloudera Manager salío al mercado varios años antes que Ambari. ¿Verdadero o falso?. Verdadero. Falso. Utilizando el comando vmstat se puede ver el consumo de CPU de los diferentes procesos en el sistema operativo. ¿Verdadero o falso?. Verdadero. Falso. Ambari permite iniciar una instalación de Hadoop en un conjunto de servidores. ¿Verdadero o falso?. Verdadero. Falso. El servicio ResourceManager UI es sencillo, pero permite monitorizar y modificar parámetros de configuración de YARN. ¿Verdadero o falso?. Verdadero. Falso. El servicio Namenode UI permite ver cuánto espacio está ocupando HDFS. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama el principal fichero de configuración para el servicio YARN?: core-config.xml. hadoop-commons.xml. yarn-config.xml. hdfs-site.xml. El servicio ResourceManager UI permite ver cuánta memoria está consumiendo todos los contenedores de YARN. ¿Verdadero o falso?. Verdadero. Falso. Utilizando el comando dstat se puede ver el consumo de red de los diferentes procesos en el sistema operativo. ¿Verdadero o falso?. Verdadero. Falso. Una vez instalado un Hadoop on-premise, es necesario hacer optimizarlo o tunearlo para obtener el máximo rendimiento. ¿Verdadero o falso?. Verdadero. Falso. Las tecnologías Big Data se empezaron a probar porque los equipos de tecnología vieron la capacidad de resolver casos de uso para el negocio. ¿Verdadero o falso?. Verdadero. Falso. ¿Qué tipo de consultas suele resolver un Datawarehouse?: Operacionales. Analíticas. Un Datawarehouse está preparado para todo tipo de consultas. Consultas en streaming. Data Mesh es un concepto que ha aparecido después que el concepto de Data Lake. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llaman los datos que llegan a un Data Lake y que son almacenados tal cual, sin ser transformados?: Refined data. Datos de origen. Raw data. Golden source. El equipo de Data Governance no es responsable de la calidad de los datos, sino que es responsabilidad de equipo de ingeniería de datos. ¿Verdadero o falso?. Verdadero. Falso. El Datawarehouse tiene un modelo de almacenamiento de los datos columnar. ¿Verdadero o falso?. Verdadero. Falso. Una de las principales ventajas de las tecnologías Big Data en lugar de la tradicionales de Datawarehouse es que son más rápidas para hacer consultas. ¿Verdadero o falso?. Verdadero. Falso. En la adopción de un Hadoop on-premise, no es muy importante dimensionar adecuadamente la plataforma porque es escalable. ¿Verdadero o falso?. Verdadero. Falso. En un entorno multitenancy es importante definir una estructura de directorios clara. ¿Verdadero o falso?. Verdadero. Falso. Hive es el principal componente que permite a Hadoop ser multitenancy. ¿Verdadero o falso?. Verdadero. Falso. Una de las primeras tareas que hay que realizar para implantar un clúster Hadoop es diseñar los procesos de ETL. ¿Verdadero o falso?. Verdadero. Falso. Uno de los beneficios de los Data Lakes frente a los Datawarehouses es que permiten procesar cualquier tipo de dato, no sólo datos estructurados. ¿Verdadero o falso?. Verdadero. Falso. Las tecnologías de Datawarehouse tienen un coste superior al de las tecnologías Big Data. ¿Verdadero o falso?. Verdadero. Falso. Una de las principales ventajas de las tecnologías Big Data en lugar de la tradicionales de Datawarehouse es que permite tomar todos los datos para hacer los análisis. ¿Verdadero o falso?. Verdadero. Falso. La principal diferencia entre Data Lake y Data Mesh es que el primero tiene un enfoque descentralizado, mientras que el segundo lo tiene descentralizado. ¿Verdadero o falso?. Verdadero. Falso. Si quiero arrancar un Hadoop en la nube como servicio y quiero usar Ambari para gestionar el clúster, ¿qué solución debería utilizar?. EMR. Cloudera. HDInsight. Ninguna lleva Ambari. Las soluciones de Hadoop como servicio son todavía poco maduras. ¿Verdadero o falso?. Verdadero. Falso. Data Governance es el conjunto de procesos, roles, políticas, estándares y métricas que garantizan el uso eficiente y efectivo de los datos, alineado con los objetivos de las empresas. ¿Verdadero o falso?. Verdadero. Falso. Los datos que llegan a un Data Lake suelen pasar por un proceso de validación, limpieza o normalización para poder ser explotados. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama el máximo responsable de las políticas de uso y control de los datos en una empresa?: CDO. CTO. CIO. GDPR. El concepto de Data Lake implica que los datos no se deben transformar o modificar desde los orígenes hasta llegar a la plataforma de datos. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llama la disciplina que tradicionalmente ha creado modelos predictivos sobre los datos del Datawarehouse?: Data Exploration. Data Discovery. Data Mining. ETL. Uno de los principales problemas de Data Lake frente a Data Mesh es que es más difícil de escalar. ¿Verdadero o falso?. Verdadero. Falso. Un plan de capacidad requiere conocer qué necesidades de datos tendrá una plataforma. ¿Verdadero o falso?. Verdadero. Falso. Uno de los principales beneficios de Data Lake frente a Data Mesh es permite homogeneizar más las actividades de preparación de datos. ¿Verdadero o falso?. Verdadero. Falso. Un Data Lake no ofrece herramientas de explotación de los datos, esta responsabilidad recae en los usuarios. ¿Verdadero o falso?. Verdadero. Falso. ¿Cómo se llaman las herramientas que preparan los datos para el Datawarehouse?: Herramientas de Data Governance. Herramientas de ETL. Herramientas de Data Discovery. El Datawarehouse no requiere una preparación previa de los datos. ¿Qué tipo de datos gestiona un Datawarehouse?: Datos estructurados. Datos no estructurados. Datos semi-estructurados. Cualquier tipo de datos. ¿A qué se refiere el concepto "industrialización" en relación con las actividades de ingeniería de datos?: A aplicar tecnologías Big Data en el sector industrial. A llevar todas las plataformas a la nube. A estandarizar y automatizar todo lo posible las tareas para ganar eficiencia. A aplicar mecanismos de control y validación de la calidad. En cualquier despliegue de Hadoop, es necesario instalar y conocer todos los componentes del ecosistema. Verdadero. Falso. Pig es más rápido en ejecución que MapReduce. Verdadero. Falso. ¿Por qué crees que Hive se ha convertido en una de las herramientas más utilizadas en Hadoop?. Porque permite abrir el uso de Hadoop a todo tipo de usuarios e integrar los datos de Hadoop al resto de herramientas de análisis de las empresas. Porque se integra bien con MapReduce. Porque YARN no permite desarrollar programas MapReduce. Porque Cloudera lo impulsó mucho, y todos los usuarios de su distribución lo empezaron a utilizar. En el caso de una gran empresa de retail, que dispone de un clúster Hadoop donde se están almacenando todas las ventas de todas las tiendas. Si tengo una aplicación web en un servidor diferente a donde se encuentra Hadoop, y quiero mostrar un listado de los promedios de ventas por tienda, ¿podré utilizar Hive para generar ese listado?. Sí, ya que se podría integrar por ODBC o JDBC con HiveServer. No, Hive sólo se puede utilizar por aplicaciones que están en el mismo clúster Hadoop. No, Hive no está preparado para este tipo de casos de uso. Las particiones sirven para reducir el tamaño de las tablas en Hive. Verdadero. Falso. Puedo definir muchas bases de datos en Hive. Verdadero. Falso. ¿Qué beneficios aporta Impala frente a Hive?. Salvo en las últimas versiones de Hive, el rendimiento de Impala es claramente superior. Es más fácil de gestionar al no ejecutarse sobre YARN. Tiene un interfaz ODBC, a diferencia de Hive. Es opensource, a diferencia de Hive. Su lenguaje de acceso parecido a SQL es más rico que el lenguaje de acceso de Hive, HQL. ¿Para cuál de los siguientes casos elegirías HBase en lugar de Hive?. Una plataforma de pagos en la que se puede crear un pago, consultar los pagos de un cliente o modificar un pago realizado. O para montar un sistema de mensajería de una red social, en la que se envían mensajes, se leen y se almacenan, consultando los mensajes de un usuario. Un sistema en el que se necesita modificar ocasionalmente los registros, ya que lo que más se realiza son cuadros de mando o consultas complejas. Una plataforma de estadísticas de fútbol que cada semana genera un informe con todo el detalle de los datos de la jornada anterior. ¿Qué lengiuaje de acceso a datos es necesario saber para poder utilizar Phoenix?. JDBC. El API de HBase. SQL. Python. En Spark, todas las operaciones se ejecutan en paralelo. Verdadero. Falso. ¿Spark puede paralelizar todas las operaciones que ejecuta sobre los datos?. Sí, Spark es una plataforma para ejecución masiva en paralelo de programas de procesamiento de datos. No, hay acciones que no se pueden paralelizar, como la escritura de un RDD en disco. Sqoop proporciona una aplicación de línea de comandos para ser utilizada. Verdadero. Falso. Las operaciones de Sqoop son básicamente dos: importar y exportar a una base de datos relacional. Verdadero. Falso. Oozie sirve para automatizar diferentes procesos que se ejecutan de forma planificada dentro de un clúster Hadoop. El ejemplo más típico son las ingestas de datos, que habitualmente se realizan en ventana nocturna, y los posteriores procesos de transformación de datos. Verdadero. Falso. Hue es una herramienta orientada a usuarios de Hadoop incluso sin conocimiento técnico. Verdadero. Falso. Hue permite acceder a Hive para hacer consultas y ver los resultados. Verdadero. Falso. Hue no ofrece seguridad, así que es potencialmente peligroso. Verdadero. Falso. ¿Qué diferencia hay entre Hue y Zeppelin en cuanto a la funcionalidad o al uso que se le da?. Dan la misma funcionalidad, pero Zeppelin ofrece más cantidad de gráficos para visualizar. Hue está destinado a personas sin conocimientos de programación, mientras que Zeppelin está orientado a científicos de datos que quieren programar sus análisis e ir viendo los resultados poco a poco sin necesidad de un entorno de desarrollo. Cuando se comenzaron a implementar casos de uso Big Data, se implementaron pocos casos de tiempo real. Verdadero. Falso. En la garantía de entrega at-least-once, podría darse el caso en que un evento no se llegue a procesar. Verdadero. Falso. Siempre es mejor una solución de procesamiento de eventos one-at-a-time que una solución basada en micro-batch. Verdadero. Falso. ¿Por qué es importante monitorizar las métricas de los sistemas operativos Linux sobre los que se ejecuta Hadoop?. Porque toda la configuración está en ficheros XML. Porque Linux es un sistema inestable y puede originar problemas de ejecución a Hadoop. Porque Hadoop supone que hay muchos servicios ejecutándose sobre la misma máquina, y podría haber conflicto entre los servicios que se podrían visualizar a nivel de sistema operativo. Permite monitorizar el estado de HDFS, pero no permite realizar acciones de administración como para o arrancar el servicio, o modificar la configuración. Verdadero. Falso. Da muy poca información sobre HDFS, sólo la esencial. Verdadero. Falso. ¿Cuál de las siguientes funcionalidades NO ofrece el ResourceManager UI?. Ver el total de memoria y núcleos de proceso que YARN puede utilizar y su consumo actual. Parar tareas que están consumiendo muchos recursos. Ver qué aplicaciones se están ejecutando y cuántos recursos está consumiendo cada una. Ver qué nodos worker hay en el clúster ejecutando YARN y en qué estado se encuentran. Ambari permite simplificar la instalación de un clúster Hadoop, ofreciendo una funcionalidad para hacer la instalación a modo de asistente. Verdadero. Falso. Ambari me permite definir alertas para recibir notificaciones en caso de que se caiga un servidor del clúster. Verdadero. Falso. Con Ambari se puede saber el porcentaje de CPU utilizado en los servidores, el porcentaje de memoria o de disco. Verdadero. Falso. Cloudera Manager permite arrancar y parar los servicios del clúster. Verdadero. Falso. Cloudera Manager es una herramienta de trabajo para los data scientists. Verdadero. Falso. ¿Qué tienen en común Ganglia y Ambari o Cloudera Manager?. Ganglia no permite modificar parámetros de configuración de Hadoop. Ganglia no permite realizar acciones en Hadoop como parar un servicio o un nodo. Ganglia ofrece métricas de uso de CPU en los nodos, mientras que Ambari o Cloudera Manager no. |





