Preguntas de Preparación Examen IPMD
![]() |
![]() |
![]() |
Título del Test:![]() Preguntas de Preparación Examen IPMD Descripción: Preguntas de Preparación Para el Examen de IPMD |




Comentarios |
---|
NO HAY REGISTROS |
¿Qué componente de HDFS puede ser un punto único de fallo (SPOF)?. A. Datanode. C.Filenode. B. Namenode. D. Ninguna de las anteriores. Se precisa hacer un procesado de datos con Spark. Señale la respuesta correcta: B. Es mejor usar la API estructurada, porque sin tener en cuenta el motor Catalyst, el plan de ejecución que crea Spark para la API estructurada es el óptimo. C. Los desarrolladores de Spark recomiendan usar la API estructurada porque permiten optimizar operaciones con el motor Catalyst. D. Es mejor usar las consultas SQL desde la función sql de la SparkSeccion, por que el plan de ejecución resultante es más eficiente que usando las funciones de la API estructurada ( filter, where, alias...). A. Es mejor usar la API de RDDs, por que el motor Catalyst puede aplicar optimizaciones a los mismos. Elija la respuesta INCORRECTA sobre Impala: D. Trabaja principalmente en memoria. C. Realiza las consultas sobre su propia red de demonios. A. Está orientado a consultas interactivas. B. Está orientado a consultas en bloque. En Spark, si no cacheamos un DataFrame que utilizaremos en varias operaciones independientes. B. Podríamos obtener resultados incorrectos. C. Sería imposible reconstruir las particiones perdidas si falla un nodo. A. Podríamos tardar más tiempo del estrictamente necesario. D. Todas las opciones anteriores son ciertas. ¿Cómo efectúa Impala las consultas?. D. A través de Apache Spark ya que los cálculos los efectúa en memoria. B. A través de sus propios procesos demonio creados en cada máquina del cluster. C. A través de Apache Tez al tratarse de consultas SQL interactivas. A. Mediante un motor de ejecución configurable que puede ser Spark, MapReduce o Tez. ¿Cuál de las siguientes afirmaciones acerca de Hive y BigQuery NO es cierta?. B. Ambos poseen su propio motor de ejecución y no necesitan una herramienta externa para ejecutar consultas. C. Ambas son herramientas open-source. A. Ambos son sistemas de Data Warehouse. D. Las opciones B y C son falsas. Para comunicar los servicios contratados (almacenamiento, computación, base de datos...) en una plataforma de cloud computing (elija la respuesta correcta): A. Todos los servicios existentes en una plataforma de cloud computing para todos los usuarios de la misma están comunicados entre sí automáticamente. D. Ninguna de las anteriores. B. No es posible comunicar servicios entre sí dentro de la plataforma de cloud computing, sino que es necesario crear una red externa para comunicarlos. C. Cada usuario de la plataforma de cloud computing puede crear únicamente una red virtual dentro de la plataforma para conectar todos los servicios que contrate. ¿Cómo consigue Kafka la escalabilidad?. A. Gracias a que está soportado por HDFS el cual es intrínsecamente escalable. D. Todas las respuestas anteriores son correctas. B. Gracias a que utiliza Spark como motor de procesamiento, y Spark es escalable al distribuir el cómputo automáticamente. C. Gracias a que las particiones de un topic están replicadas en varios brokers y esto permite adaptarnos a un incremento de productores o de consumidores. ¿Cuál de las siguientes afirmaciones es correcta?. A. Spark nunca requiere movimiento de datos entre nodos, a diferencia de MapReduce. D. Ninguna de las respuestas anteriores es correcta. B. Spark resulta más intuitivo y fácil de aprender que el paradigma MapReduce. C. Spark no permite procesar datos en tiempo real, a diferencia de MapReduce. ¿Cuál de las siguientes afirmaciones sobre Impala y Hive NO es cierta?. D. Ambas pueden consultar datos almacenados en HDFS. C. Ambas herramientas admiten consultas en lenguaje SQL. B. Ambas herramientas son compatibles con un driver ODBC para conectarnos a ellas. A. Ambas herramientas ejecutan sobre Spark. ¿Cuál de las siguientes afirmaciones sobre los servicios de cloud computing es cierta?: A. Están diseñadas explícitamente para resolver problemas de big data y machine learning. B. No son una buena elección para desarrollar aplicaciones móviles. D. Ninguna de las anteriores. C. Entre las aplicaciones que más usan servicios de cloud computing están las aplicaciones IoT (Internet of Things). Si nos fijamos en los tres grandes proveedores de servicios de Cloud Computing en la actualidad... D. Ninguna de las opciones anteriores es cierta. C. Los proveedores cloud no incluyen entre sus servicios el despliegue de bases de datos relacionales. A. Cada proveedor permite desplegar exclusivamente instancias de bases de datos relacionales propietarias, de ese proveedor. B. Sólo permiten desplegar bases de datos relacionales que sean open source, como MySQL, PostgreSQL, etc. Cuando utilizamos herramientas de cloud computing de un proveedor, .. B. Los desarrolladores pueden usar herramientas open-source para cualquier tarea. D. El desarrollo debe llevarlo a cabo un equipo de desarrolladores del proveedor. A. Los desarrolladores no pueden instalar tecnologías open-source si usan la infraestructura de ese proveedor. C. Los desarrolladores tienen que usar los servicios PaaS de ese proveedor. En una tabla manejada de Hive ... B. El borrado de la tabla no afecta a los datos, que permanecerán en la misma ubicación. A. El borrado de la tabla implica el borrado de los datos. D. Ninguna de las opciones anteriores es correcta. C. Al ser manejada por Hive, las herramientas de BI no pueden acceder a esos datos. Se quiere ajustar un modelo predictivo de análisis de sentimiento a un conjunto masivo de textos, usando Spark MLlib. Antes de entrenar el algoritmo predictivo, es necesario pre-procesarlos (dividir en palabras, quitar palabras sin significado, y codificarlas como números). Algunas de estas operaciones son estimadores y otras son transformadores. ¿Cuál sería la manera correcta de proceder?. A. Crear estimadores y transformadores independientes, haciendo fit o transform sobre cada uno según corresponda. B. Crear un pipeline sólo con los estimadores, ejecutar fit sobre el pipeline y después ejecutar transform sobre los transformadores. D. Crear un pipeline sólo con los transformadores, ejecutar fit sobre el pipeline y después usar transform sobre los estimadores. C. Crear un pipeline con todos los estimadores y transformadores necesarios, y ejecutar fit sobre el pipeline. ¿Cómo utilizaría Kafka un programador de Java?. C. Para utilizar Kafka es necesario hacerlo desde el lenguaje Python. A. Importando la dependencia de Kafka para Java en su programa. D. El programador no puede utilizar Kafka directamente sino que son las herramientas cloud quienes lo invocan. B. Necesita primero instalar Spark e invocarlo desde Java. ¿Qué sucede si en una línea de código utilizamos una acción, por ejemplo n = df.write("/mifichero.csv"), y en la siguiente línea hacemos df.cache()?. A. Obtenemos un error porque el DataFrame ya no existe cuando llegamos a cache(). C. Gracias a write(), el DataFrame se ha materializado, y como hemos indicado cache, permanece en memoria. D. Ninguna de las respuestas anteriores es cierta. B. El efecto beneficioso de cache no lo veremos hasta que hagamos una nueva acción sobre df. Hemos montado el Data Lake de una gran cadena de hipermercados de alcance internacional, y queremos empezar a explorarlos y aplicar analítica descriptiva y predictiva con los datos históricos. ¿Cuál de las siguientes tecnologías probablemente NO vamos a necesitar?. A. Apache Spark. B. Apache Kafka. D. Una herramienta de Business Intelligence. C. Apache Hive. Se quiere desplegar un producto big data en una plataforma de cloud computing. Por requisitos del producto, se requiere tener el mayor control posible del servidor o servidores donde se despliegue dicho producto. ¿Qué solución de las disponibles elegiría?. A. IaaS. B. PaaS. C. FaaS. D. SaaS. ¿Cuál de las siguientes situaciones no es habitual en Spark Structured Streaming?. C. Comprobar y consolidar datos recibidos en tiempo real antes de guardarlos. B. Refrescar una agregación que estamos guardando en una tabla. D. Todas las respuestas anteriores son habituales con Spark Structured Streaming. A. Entrenar un modelo predictivo en tiempo real. Una desventaja importante de HDFS es que ... C. Es volátil, es decir, lo que almacenan los datanodes se pierde pasado un tiempo. B. No permite recuperar los datos que hubiese en un datanode si ese nodo se quemase. D. No permite operaciones de modificación de ficheros existentes. A. No permite almacenar un archivo de tamaño superior al de cualquier disco duro del cluster. ¿Cuál de las siguientes afirmaciones NO es cierta respecto a los Estimadores de Spark MLlib?. A. Siempre son modelos de Machine Learning, antes de ser entrenados. C. El método fit aplicado sobre ellos devuelve un Transformador. B. Siempre poseen un método fit. D. Pueden formar parte de un Pipeline. Seleccione la respuesta INCORRECTA sobre los dataframes de Spark: B. Una tabla de datos similar a la de una base de datos relacional pero distribuida en la memoria RAM de los executors. D. Las respuestas A y B son correctas. C. Un tipo especial de fichero manejado por Spark. A. Una estructura de datos que encapsula dentro un RDD de objetos tipo Row. ¿Cuál de estas afirmaciones sobre Apache Hive es cierta?. B. Permite consultar archivos almacenados en HDFS utilizando lenguaje SQL. C. Requiere poseer una base de datos relacional funcionando como respaldo. D. Las opciones a y c son correctas. A. Existen versiones libres y de pago. ¿Cuál de las siguientes afirmaciones sobre Kafka es cierta?. C. Es una cola distribuida para paso de mensajes de la que las aplicaciones pueden leer o escribir. D. Las opciones B y C son correctas. A. Kafka utiliza Spark como motor de ejecución. B. Un grupo de mensajes con la misma estructura se denomina broker. Un topic de Kafka es... C. Una replicación de los mensajes en HDFS. B. Un grupo de mensajes que siguen la misma estructura y pueden interpretarse igual. A. La unidad mínima que está replicada en todos los brokers. D. Ninguna de las respuestas anteriores es correcta. ¿Cuál de las siguientes opciones no es correcta acerca del módulo Spark Streaming?. D. La fuente de datos más habitual cuando usamos Spark Streaming es Kafka. C. Gracias a Structured Streaming se puede utilizar la API estructurada definida en Spark SQL. B. Solo tiene API para RDDs que todavía no ha sido migrada a DataFrames. A. La forma de procesar los datos es en microbatches. ¿Cómo se relacionan Apache Spark y Apache Kafka?. B. Spark puede guardar los DataFrames como tablas en el almacén de metadatos (metastore) de Kafka. D. Spark sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Kafka. A. Spark puede leer desde y escribir en Kafka datos en tiempo real. C. Kafka sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Spark. En una plataforma de Cloud Computing podemos... A. Utilizar herramientas de desarrollo de software ya instaladas, y esto se conoce como IaaS. B. Utilizar directamente las máquinas, sin nada instalado, a lo cual se le llama PaaS. C. Utilizar software para usuarios finales ya instalado y listo para usar, y esto se conoce como SaaS. D. Ninguna de las respuestas anteriores es correcta. ¿Cuál de los siguientes servicios de Cloud Computing NO proporciona una base de datos relacional?. A. Azure SQL Database. C. Azure Databricks. D. Google Cloud SQL. B. Amazon Relational Database Service (RDS). Completa la siguiente frase: Cuando creamos una aplicación en un notebook con Pyspark, el kernel del notebook tiene el rol de .... (1), y el procesamiento distribuido de los datos se lleva a cabo en los ... (2) que se crean en los ... (3) del cluster. B. (1) driver, (2) brokers, (3) nodos. C. (1) broker, (2) nodos, (3) workers. A. (1) broker, (2) executors, (3) nodos. D. (1) driver, (2) executors, (3) nodos. ¿Cuál de estos servicios cloud cumple la misma función que el servicio Dataproc de Google Cloud?. B. Amazon EMR. A. Amazon Aurora. D. Azure SQL Database. C. Azure Cognitive Services. Cuando tenemos un DataFrame de Spark en la variable mi_df y ejecutamos mi_df.write.parquet("/tmp/datos.parquet") ... C. Spark crea una nueva carpeta llamada /tmp/datos.parquet y dentro de ella se crean tantos ficheros distintos como particiones tenga el DataFrame. D. Spark crea en la carpeta /tmp de HDFS un único fichero Parquet llamado datos.parquet formado por tantos bloques de HDFS como particiones tuviera el DataFrame. A. Spark crea en la carpeta /tmp de HDFS tantos ficheros Parquet como particiones tenga el DataFrame. B. Spark crea en la carpeta /tmp de HDFS un fichero Parquet llamado datos.parquet cuyo tamaño es igual al total del DataFrame. ¿Cuál de los siguientes casos de uso es POCO adecuado para HDFS?. C. Almacenar la información de las pólizas de una compañía aseguradora para ser consultada por las agencias cuando interactúan con los clientes. D. Montar el lago de datos para efectuar la analítica sobre los clientes de una empresa de energía eléctrica. A. Almacenar información histórica de las pólizas de una compañía aseguradora desde su creación. B. Migrar distintas bases de datos tradicionales de una empresa de telecomunicaciones para realizar cuadros de mando sobre esos datos. El proceso que se crea en cada nodo del cluster al arrancar una aplicación con Spark se denomina... A. Worker. B. Datanode. C. Executor. D. Broker. En el sistema de ficheros HDFS, cuando se solicita la lectura de un fichero: B. Es el namenode quien proporciona los metadatos al cliente. D. Es el datanode quien proporciona los metadatos al cliente. A. Es el cliente quien proporciona los metadatos al namenode. C. Es el namenode quien proporciona los bloques del fichero al cliente. Durante el procesamiento de datos con Spark, si un nodo falla o cae: D. El usuario debe indicar en su código una función de callback que Spark invocará en caso de caída de algún nodo. A. Spark lo gestiona automáticamente y recalcula los datos necesarios en otra máquina gracias al DAG. B. El usuario debe hacer el código robusto para detectarlo y recuperarse. C. No es necesario recalcular porque Spark mantiene cada partición de los RDD replicada en varias máquinas. Seleccione la respuesta correcta sobre los dataframes de Spark: C. No es posible acceder al RDD envuelto por un dataframe. A. Son una estructura de datos que envuelve un RDD de objetos tipo Row. D. Al igual que los RDD, los dataframes están distribuidos en almacenamiento persistente de los nodos worker. B. Una ventaja sobre los RDD es que los dataframes no son inmutables. ¿Qué es lo que está replicado en Kafka?. D. Cada productor está replicado dentro de varios topics. A. Cada topic está replicado en varios productores. C. Cada partición está replicada en varios brokers. B. Cada broker está replicado en varios consumidores. En Impala, el proceso que lleva a cabo las consultas (las planifica, las distribuye a otras máquinas, lee y escribe datos, etc) es: D. impalad. B. stated. A. statestored. C. catalogd. Las transformaciones de Spark. D. Devuelven un valor. C. Devuelven un RDD. B. Devuelven otras transformaciones. A. No devuelven nada. Se quiere desplegar una base de datos SQL en una plataforma de cloud computing. El equipo de desarrolladores es experto en diseño y gestión de bases de datos SQL, pero no es experto en administración de sistemas. ¿Qué opción de las disponibles sería la más adecuada?. D. Usar un servicio on-premises. C. Usar un servicio SaaS. A. Usar un servicios IaaS. B. Usar un servicio PaaS. ¿Cuál de los siguientes servicios de seguridad NO ofrecen las plataformas de cloud computing estudiadas?. B. Gestión de identidad. D. Autenticación y autorización. A. Responsabilidad sobre los datos de la aplicación. C. Control de acceso. ¿Cuál de las siguientes NO es una ventaja de los servicios de cloud computing: C. Alta disponibilidad del servicio. A. Acceso físico a las máquinas que proporcionan el servicio. D. Robustez ante fallos. B. Elasticidad. Completa la terna: Dataproc, Azure HD Insight... B. Amazon S3. D. Ninguna de las opciones anteriores es correcta. A. Amazon SageMaker. C. Elastic Map Reduce. En el sistema de ficheros HDFS, cuando se solicita la escritura de un fichero: B. El namenode envía el contenido de los bloques del fichero a los datanodes. A. El namenode accede a los datanodes para escribir los bloques. D. El cliente envía el contenido de los bloques del fichero a los datanodes. C. El cliente envía el contenido de los bloques del fichero a namenode. Para cargar datos en un dataframe de Spark, podemos: C. No especificar esquema porque la inferencia de esquema que hace el propio Spark asigna el tipo correcto automáticamente sin coste de eficiencia. D. Especificar explícitamente y obligatoriamente el esquema para que Spark pueda cargar los datos. A. Pedir a Spark que infiera el esquema para que asigne tipos más específicos que String, si procede. B. No especificar esquema ni pedir a Spark que lo infiera, para obtener el tipo más adecuado para cada campo. Los mensajes que una aplicación productora envía a Kafka (seleccione la respuesta correcta). C. Se almacenan en almacenamiento persistente del clúster de Kafka hasta que los lee el primer consumidor, y una vez leído se eliminan. D. Se almacenan en el clúster de Kafka y se eliminan tras cierto tiempo en el clúster o cuando el volumen de mensajes alcanza cierto umbral, según configuración. B. Se almacenan en memoria del clúster de Kafka hasta que los lee el primer consumidor, y una vez leído se borran de memoria. A. Se almacenan en el clúster de Kafka de forma indefinida y sólo se pueden borrar de forma manual. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): C. Lee los mensajes en orden dentro de cada bróker. B. Lee los mensajes en orden dentro de cada topic. D. Kafka no garantiza ningún tipo de orden al consumir los mensajes. A. Lee los mensajes en orden dentro de cada partición. La pieza VectorAssembler de MLlib: B. Es un estimador genérico de algoritmos distribuidos. D. Es un transformador que codifica los valores de una variable categórica. C. Es un transformador que crea una nueva columna de tipo vector fusionando columnas existentes. A. Es un estimador para entrenar modelos vectoriales como RandomForest. Entre los servicios big data que ofrecen las plataformas de cloud computing estudiadas (elija la respuesta correcta): C. Todas las plataformas proporcionan únicamente servicios de consulta OLTP. D. Ninguna de las anteriores. A. Todas las plataformas proporcionan Hive como servicio gestionado. B. Todas las plataformas proporcionan un servicio de consultas OLAP (OnLine Analytical Processing, orientado a consultas batch) gestionado. En cualquiera de las plataformas de cloud computing estudiadas, los recursos de computación se distribuyen a lo largo de todo el mundo. Elija la respuesta correcta: C. Es recomendable elegir recursos de computación cercanos al desarrollador de la aplicación desplegada. B. Se deben escoger los recursos de computación más cercanos a la ubicación del desarrollador, ya que sólo son accesibles desde localizaciones cercanas. D. Es aconsejable elegir recursos de computación cercanos a los usuarios finales de la aplicación desplegada. A. Cualquiera de los servicios disponibles se ejecutan siempre en los recursos de computación más cercanos al desarrollador. La herramienta Dataproc de Google Cloud... B. Permite desplegar al vuelo una base de datos relacional de Google. C. Permite descargar HDFS y Spark para instalarlos y usarlos en nuestro ordenador portátil doméstico. D. Ninguna de las respuestas anteriores es cierta. A. Permite desplegar al vuelo un clúster que trae instaladas herramientas big data como Spark, HDFS y Kafka. ¿Por qué actualmente no se utilizan los RDDs en Spark?. A. Porque el código es menos intuitivo y más propenso a errores por parte del programador, además de no estar optimizados, a diferencia de los DataFrames. C. Porque no están disponibles en Python (pyspark), sino sólo en lenguaje Scala. D. Las respuestas A y B son correctas. B. Porque los RDDs escriben los resultados en disco el resultado intermedio de los cálculos. ¿Cuál es la mejor opción si queremos consultar mediante SQL un fichero masivo que ya existe y está almacenado en HDFS?. A. Crear un transformer de MLlib para transformar la consulta SQL en trabajos distribuidos de Spark. B. Crear una tabla manejada de Hive para poder consultar el fichero de forma optimizada. C. Crear un clúster de Kafka para consultar los datos del fichero en tiempo real mediante SQL. D. Crear una tabla externa de Hive apuntando a la ubicación del fichero. ¿Cómo se relacionan Spark y Kafka?. B. Spark puede escribir en Kafka datos calculados en tiempo real. D. Las opciones B y C son correctas. A. Kafka puede escribir en Spark para procesar en tiempo real. C. Spark puede leer de Kafka datos que transporta en tiempo real. ¿Qué tecnologías se asimilan a Apache Hive?. C. Amazon S3, Google BigQuery, Azure DataLake Storage. A. Amazon Redshift, Cloud SQL, Azure SQL Database. B. Amazon EMR, Google Cloud Dataproc, Azure Databricks. D. Amazon Redshift, Google BigQuery, Azure Synapse. Cuando aplicamos el método fit a un Estimador de Spark, pasando como argumento un DataFrame... A. Nos devuelve como resultado otro estimador. C. Nos devuelve como resultado el DataFrame ajustado. B. Nos devuelve como resultado un transformador. D. No es posible aplicar fit a un Estimator. ¿Cuál de los siguientes casos de uso es típico de Kafka?. D. Ninguno de los casos anteriores es habitual en Kafka. B. Un científico de datos utiliza el histórico de su empresa para entrenar un modelo predictivo. A. Una web envía constantemente información sobre clicks a Spark, que calcula resúmenes en tiempo real del comportamiento de los usuarios. C. Un analista de negocio lanza una consulta SQL sobre datos masivos almacenados en un cluster. ¿Cuál es el propósito del DAG en Spark?. B. Mantener la trazabilidad y resiliencia. D. Ejecutar acciones inmediatamente. C. Replicar particiones. A. Optimizar consultas SQL. Si un productor en Kafka configura acks=all, ¿qué implica?. B. Mayor rendimiento. C. Entrega más rápida de mensajes. D. Mayor riesgo de pérdida de mensajes. A. Mayor latencia. ¿Cuál es el servicio de Azure equivalente a Amazon S3?. C. Azure Cosmos. A. Azure Cognitive Services. B. Azure DataLake Storage. D. Azure SQL Database. ¿Cómo almacena la información Kafka para ser consumida?. B. En el metastore. C. En HDFS. A. En ficheros en formato binario. D. Ninguna de las respuestas anteriores es cierta. ¿Cuál de estos servicios cloud cumple la misma función que el servicio Dataproc de Google Cloud que has utilizado para desplegar un clúster de Spark?. B. Amazon EMR (Elastic Map Reduce). A. Amazon Aurora. C. Azure Cognitive Services. D. Azure SQL Database. Se quiere ajustar un modelo predictivo de análisis de sentimiento a un conjunto masivo de textos, usando Spark MLlib. Antes de entrenar el algoritmo predictivo, es necesario pre-procesarlos (dividir en palabras, quitar palabras sin significado, y codificarlas como números). Algunas de estas operaciones son estimadores y otras son transformadores. ¿Cuál sería la manera correcta de proceder?. D. Crear un pipeline sólo con los transformadores, ejecutar fit sobre el pipeline y después usar transform sobre los estimadores. A. Crear estimadores y transformadores independientes, haciendo fit o transform sobre cada uno según corresponda. C. Crear un pipeline con todos los estimadores y transformadores necesarios, y ejecutar fit sobre el pipeline. B. Crear un pipeline sólo con los estimadores, ejecutar fit sobre el pipeline y después ejecutar transform sobre los transformadores. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): C. Lee los mensajes en orden dentro de cada bróker. A. Lee los mensajes en orden dentro de cada partición. D. Kafka no garantiza ningún tipo de orden al consumir los mensajes. B. Lee los mensajes en orden dentro de cada topic. Qué afirmación sobre los metadatos de HDFS es cierta?. A. Se almacenan en el metastore de Hive. B Se almacenan en el datanode federado. C. Son datos acerca de la ubicación física de los bloques que forman cada fichero. D. Sólo se consultan en caso de fallo del namenode. Seleccione la respuesta correcta sobre Spark: A. Utiliza unas transformaciones y acciones que son exactamente lo mismo que los mappers y reducers, respectivamente, de MapReduce. B. Es más flexible que MapReduce gracias a las transformaciones y acciones que dispone. C. Es menos flexible que MapReduce por las limitaciones en el uso de transformaciones y acciones. D. Ninguna de las respuestas anteriores es correcta. Cuando ejecutamos una acción sobre un DataFrame en Spark... A. Cualquier job siempre tiene como mínimo dos stages puesto que siempre habrá que mover datos. B. El job creado por Spark para realizar la acción nunca tiene más de una stage porque Spark nunca mueve datos entre nodos. C. Para que todos los procesadores estén siempre ocupados en alguna tarea, lo ideal es que el DataFrame tenga menos particiones que CPUs totales. D. Spark crea un job para llevar a cabo esa acción. Para usar la librería de procesado de flujos de datos de Spark: A. Se recomienda usar Pipelines. B. Se recomienda usar streaming dataframes. C. Se recomienda usar RDDs con funciones específicas de streaming. D. Se recomienda usar DStreams, basados en RDDs. Seleccione la respuesta INCORRECTA sobre Apache Hive. A. Está indicado principalmente para procesado OLAP (en bloque). B. Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. C. Es una base de datos distribuida en un clúster Hadoop. D. Es una tecnología de código abierto. Se quiere utilizar la plataforma Google Cloud para desplegar un clúster en el que se ejecuten trabajos Spark para procesado en bloque de grandes cantidades de datos. Elija la respuesta correcta: A. No es posible desplegar un clúster Spark en Google Cloud. B. Sólo es posible conseguir el objetivo desplegando un clúster mediante el servicio Dataproc. C. La única forma de desplegar dicho clúster es usando varias instancias de Google Compute Engine y configurarlas manualmente para crear el clúster Spark. D. Ninguna de las anteriores. Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): A. Kafka no garantiza ningún tipo de orden al consumir los mensajes. B. Lee los mensajes en orden dentro de cada bróker. C. Lee los mensajes en orden dentro de cada topic. D. Lee los mensajes en orden dentro de cada partición. HDFS está optimizado para ficheros: A. modificados frecuentemente. B. de tamaño pequeño. C. de tamaño grande. D. de tamaño mediano. Un DataFrame en Spark es... A. Una estructura de datos que encapsula dentro un RDD de objetos Row. B. Una tabla de datos similar a la de una BD relacional pero distribuida en la memoria RAM de los executors. C. Un tipo especial de fichero manejado por Spark. D. Las respuestas A y B son ciertas. ¿Cómo se relacionan Spark y Kafka?. A. Kafka puede escribir en Spark para procesar en tiempo real. B. Spark puede escribir en Kafka datos calculados en tiempo real. C. Spark puede leer de Kafka datos que transporta en tiempo real. D. Las opciones B y C son correctas. Que fallo en HDFS es menos problemático?. A. La caída de un namenode. B. La caída de un datanode. C. La caída de un datanode federado. D. La caída de un executor. Seleccione la respuesta INCORRECTA sobre Apache Hive: A. Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. B. Es una tecnología de código abierto. C. Es una base de datos distribuida en un clúster Hadoop. D. Está indicado principalmente para procesado OLAP (en bloque). ¿Cuál de las siguiente tecnologías es más similar a BigQuery?. A. Apache Hive. B. Apache Spark. C. HDFS. D. Apache Kafka. Para utilizar una cola de Kafka desde el lenguaje de programación Java... A. No es posible utilizar Kafka desde Java; es necesario hacerlo desde Python. B. Basta descargar e importar la libreria de Kafka para Java, y tener previamente Kafka instalado y corriendo en un cluster. C. Es necesario tener instalado Spark en el mismo cluster además de Kafka. D. Es necesario tener instalado HDFS en el mismo cluster además de Kafka. Si la variable datos_df almacena un DataFrame de Spark, ¿Qué ocurre cuando hacemos datos_df.cache()?. A. Spark materializa el DataFrame en ese momento. B. Spark escribe el DataFrame en disco. C. Spark libera el contenido del DataFrame de la memoria. D. Spark marca el DataFrame para que no se libere cuando sea materializado. La redundancia en HDFS se consigue: A. Usando discos de almacenamiento externos al clúster. B. Copiando varias réplicas de los bloques de un fichero en el mismo nodo. C. Copiando varias réplicas de los bloques de un fichero en diferentes nodos. D. Copiando una réplica de los bloques de un fichero en el namenode, y otras de backup en los datanodes. Las tecnologías de cloud computing permiten a un usuario: A. Especificar el servidor (máquina física) concreto donde se ejecutará su software. B. Especificar la configuración necesaria del servidor donde se ejecutará su software. C. Ejecutar su software en la configuración de servidor que obligatoriamente le asigne la plataforma. D. Ninguna de las anteriores. ¿Cuál de estos servicios cloud cumple la misma función que el servicio Dataproc de Google Cloud que has utilizado para desplegar un cluster de Spark. A. Amazon Aurora. B. Amazon EMR (Elastic Map Reduce). C. Azure Cognitive Service. D. Azure SQL Database. Si se quieren manejar flujos de datos en tiempo real, ¿qué servicio AWS no sería adecuado?. A. Amazon Kinesis Streams. B. Amazon MSK. C. Amazon Redshift. D. Instancias EC2 con Kafka instalado. La alta disponibilidad de los namenodes de HDFS implica que... La caída de un namenode apenas deja sin servicio al sistema de ficheros durante un minuto antes de que otro namenode entre en acción. Es posible escalar los namenodes añadiendo más nodos. La caída de un datanode deja sin servicio al sistema durante pocos segundos hasta que sea sustituido. ¿A qué interfaz pertenecen los algoritmos de machine learning de Spark cuando aún no han sido entrenados?. Transformer. Estimator. Pipeline. DataFrame. Elige la respuesta correcta: La acción collect de Spark... No existe como acción; es una transformación. Aplica una función a cada fila del RDD de entrada y devuelve otro RDD. Lleva todo el contenido del RDD al driver y podría provocar una excepción. Lleva algunos registros del RDD al driver. ¿Qué inconveniente presenta MapReduce?. No es capaz de procesar datos distribuidos cuando son demasiado grandes. Entre las fases map y reduce siempre lleva a cabo escrituras a disco y movimiento de datos entre máquinas. Es una tecnología propietaria y no es código abierto. ¿Qué tipo de uso suele darse a los ficheros de HDFS?. Ficheros de cualquier tamaño que se almacenan temporalmente. Ficheros de gran tamaño que se crean, no se modifican, y sobre los que se realizan frecuentes lecturas. Ficheros de gran tamaño que suelen modificarse constantemente. La acción map de Spark... No existe como acción; es una transformación. Aplica una función a cada fila del RDD de entrada y devuelve otro RDD. Lleva todo el contenido del dataframe al driver y podría provocar una excepción. Lleva ciertos registros del RDD al driver. Indica qué caso de uso no es propio de S3: Sistema de arranque de una instancia EC2. Almacenamiento de ficheros accesibles desde instancias EC2. Almacenamiento de ficheros accesibles desde un navegador web. Almacenamiento de archivo de ficheros de escaso acceso. ¿A qué base de datos de código libre se asemeja BigTable?. Es un motor propietario único de Google, muy diferente a cualquier otra base de datos existente. MongoDB. Cassandra. HBase. Amazon SageMaker es un servicio de AWS destinado a: Construir y entrenar modelos de machine learning desde cero. Utilizar modelos de machine learning preconstruidos. Realizar consultas interactivas sobre grandes conjuntos de datos. Catalogar todos los datos existentes en los diferentes servicios AWS. La manera de ejecutar Impala en un cluster de ordenadores es: Mediante un proceso que está corriendo en cada máquina y accede directamente a los datos de HDFS de ese nodo. Mediante el motor de ejecución de Apache Spark que se ejecuta en el clúster y sobre el cual nos proporciona una abstracción SQL. Mediante las consultas SQL traducidas por Impala al metastore de Hive. Ninguna de las anteriores es correcta. Sobre Apache Hive. Existen versiones libres y de pago. Permite consultar archivos almacenados en HDFS utilizando lenguaje SQL. Requiere poseer una base de datos relacional que funcione como respaldo. Solo se puede usar como parte de la distribución de Cloudera. ¿Qué retos presentan los datos generados por personas en una red social?. Son datos no estructurados (imágenes, vídeos) más difíciles de procesar. Son datos masivos. Las dos respuestas anteriores son correctas. ¿Qué afirmación es cierta sobre el proceso de escritura en HDFS?. El cliente manda al namenode el fichero, que a su vez se encarga de escribirlo en los diferentes datanodes. El cliente escribe los bloques en todos los datanodes que le ha especificado el namenode. El cliente escribe los bloques en un datanode y este datanode envía la orden de escritura a los demás. Una empresa quiere almacenar los datos históricos de las nóminas de los empleados, con el único objetivo de hacer frente a una posible auditoría en los cinco años siguientes al pago de cada nómina. ¿Qué opción de almacenamiento de GCP es la más adecuada en cuanto a acceso y coste?. Cloud Storage Archive. Cloud Persistent Disks. BigTable. Cloud Storage Coldline. Una empresa quiere utilizar los servicios de AWS para almacenar datos personales y sensibles de sus clientes. ¿Cuál es el elemento más limitante a la hora de determinar dónde almacenar dichos datos?. El coste, ya que, dependiendo de dónde se almacenen dichos datos, este puede ser mayor o menor. La latencia, ya que se tardaría mucho en obtener los datos si están almacenados lejos de donde se realiza la consulta. La legislación, porque, al ser información sensible, solo se pueden almacenar en lugares muy concretos para no incurrir en delitos. Todos los elementos anteriores tienen la misma importancia y hay que tenerlos en cuenta por igual. ¿Qué tarea reemplaza el uso de servicios en la nube?. Compra e instalación de servidores. Actualización y mantenimiento de servidores. Dimensionamiento previo y adquisición de servidores para aumentar la capacidad según los requisitos de las aplicaciones. Todas las anteriores. Para ejecutar un clúster Hadoop en Microsoft Azure: Solo se puede usar el servicio HDInsight. Es obligatorio contratar una o varias instancias VM e instalar el clúster en ellas. Microsoft Azure no permite ejecutar clústeres Hadoop. Se puede usar el servicio HDInsight u optar por una alternativa IaaS. Si queremos aumentar la disponibilidad de un servicio GCP, ¿Qué debemos hacer?. Desplegarlo en la región más cercana a su uso. Desplegarlo en una región que no presente problemas legales con la información que gestiona. Desplegarlo como recurso regional o multirregional. Desplegar una instancia VM que esté siempre ejecutándose. Tras ejecutar la operación b = df.withColumn("nueva", 2*col("calif")): El DataFrame contenido en df tendrá una nueva columna, llamada nueva. Llevaremos al driver el resultado de multiplicar 2 por la columna calif. El DataFrame contenido en b tendrá una columna más que df. El DataFrame contenido en b tendrá una única columna llamada nueva. Hive se define como: Una base de datos SQL distribuida. Un motor de ejecución distribuido para consultas SQL. Una base de datos NoSQL distribuida. Un traductor de consultas SQL a trabajos de procesado distribuidos. ¿Qué es Apache Kafka?. Un sistema de mensajería que utiliza Spark para funcionar. Un bus de datos distribuido, en el que varias aplicaciones pueden leer y escribir. Un sistema de colas basado en MapReduce. Un sistema de data warehousing. ¿Es obligatorio especificar explícitamente el esquema del DataFrame cuando se leen datos de fichero?. No, porque solo se pueden leer ficheros estructurados como Parquet, que ya contienen información sobre su esquema. Sí, porque, si no se indica el esquema, Spark no es capaz de leer ficheros CSV, ya que no sabe con qué tipo almacenar cada campo. No, porque, si no se indica el esquema, Spark guardará todos los campos de los que no sepa su tipo como strings. No, porque, si no se indica el esquema y se intenta leer ficheros sin esquema implícito, Spark lanzará un error. ¿Cómo se puede definir cloud computing?. Es la interconexión de una serie de ordenadores. Es el proceso de planificar y ejecutar una serie de tareas. Son una serie de servicios de computación ofrecidos a través de Internet. Ninguna de las respuestas anteriores son correctas. ¿Cuál de las siguientes afirmaciones respecto a HDFS es cierta?. El tamaño de bloque debe ser siempre pequeño para no desperdiciar espacio. El factor de replicación es configurable por fichero, y su valor por defecto es 3. Las dos respuestas anteriores son correctas. En una operación de Spark en la que sea necesario movimiento de datos... Siempre es necesario escribirlos primero en el disco local del nodo emisor. No hay acceso al disco local puesto que Spark opera siempre en memoria. Spark nunca provoca movimiento de datos, a diferencia de MapReduce. Las respuestas A, B y C son incorrectas. Se quiere desplegar una base de datos relacional de forma rápida y que no suponga una carga de mantenimiento para el departamento de IT, más allá de la gestión de los datos contenidos. ¿Qué servicio AWS escogerías. Instancia EC2 e instalación de MySQL. AWS RDS. AWS DynamoDB. AWS ECS e instalación de MySQL. ¿Qué ocurre si creamos un StringIndexer para codificar las etiquetas de una variable en el dataset de entrenamiento y después creamos otro StringIndexer para codificar los datos de test en el momento de elaborar predicciones?. Obtendremos la misma codificación en los dos. Da un error, porque un mismo StringIndexer no puede añadirse a dos pipelines. Podríamos obtener codificaciones distintas de la misma etiqueta en los datos de entrenamiento y en los de test, lo que falsearía los resultados de las predicciones. Ninguna de las respuestas anteriores es correcta. Cuando usamos Kafka... Cada aplicación elige el tipo de mensajes que desea leer. Todas las aplicaciones reciben todos los mensajes. Solo las aplicaciones registradas en Spark pueden acceder al bus. Cada aplicación puede leer solo un tipo de mensajes. Las API estructuradas de DataFrames y Spark SQL... Son API que no se pueden combinar: una vez que se empieza a usar una de ellas, se tienen que hacer todas las tareas con la misma API. Se pueden aplicar funciones de la API de DataFrames sobre el resultado de consultas de Spark SQL. Se pueden aplicar el método sql para lanzar consultas SQL sobre DataFrames sin registrar. Ninguna de las opciones anteriores es correcta. El bróker encargado de supervisar qué brókeres se unen y cuáles dejan el clúster es: El bróker líder. El bróker controlador. El bróker sincronizado (in-sync). Se encarga Zookeeper. Elige la respuesta incorrecta: Un PairRDD... Es un tipo de RDD que permite realizar tareas de agregación y joins. Es un tipo de RDD que contiene una tupla con un número variable de componentes. Es un tipo de RDD cuyo primer componente se considera la clave y el segundo, el valor. Se define como cualquier otro RDD, pero con un formato concreto. ¿Cómo se organizan los recursos, los servicios y las políticas de seguridad que contrata y configura un usuario u organización en Google Cloud?. En folders, que contienen proyectos. En proyectos, que contienen folders. En proyectos y zonas. En zonas, que contienen diferentes folders. ¿Qué mecanismo ofrece la API estructurada de DataFrames para leer datos?. Método read de la Spark Session. Método read del Spark Context. No ofrece ningún método, sino que se utiliza la API de RDD para leer datos. Método ingest de la Spark Session. ¿Qué tipo de componentes ofrece Spark ML?. Estimadores y transformadores para ingeniería de variables y para normalizar datos. Estimadores y transformadores para preparar los datos para el formato requerido por los algoritmos de aprendizaje automático de Spark. Solo pipelines que no dan acceso a los estimadores internos. Las respuestas A y B anteriores son correctas. Cuando se crea un proyecto en Google Cloud, ¿cómo se interconectan los servicios que engloba?. Se crea una VPC, que contiene el rango de direcciones IP que se asignan los servicios. Hay que definir siempre manualmente las subredes de una VPC para tener disponibles direcciones IP que asignar a los servicios. Se crea automáticamente una subred dentro de la VPC, que contiene el rango de direcciones IP disponibles para asignar a los servicios. Un proyecto solo se puede interconectar con otro, pero los servicios dentro de un proyecto no se interconectan y, por tanto, no se necesitan direcciones IP. En Spark Streaming, una vez se ejecuta la acción start: El driver espera automáticamente a que concluya la recepción de flujo para finalizar su ejecución. Hay que ejecutar un método para indicar al driver que no finalice automáticamente y espere que a que concluya la recepción del flujo. Un flujo de datos no tiene fin y, por tanto, el driver nunca puede finalizar. Ninguna de las opciones anteriores es correcta. ¿Cuál es la estructura de datos fundamental en Spark?. RDD. DataFrame. SparkSession. SparkContext. ¿Cuál de estas funciones es típica de Kafka?. Transmitir mensajes generados por una aplicación a otras que los utilizan. Almacenar información accesible para distintas aplicaciones, tal como lo hace una base de datos. Realizar procesados de flujos de información. Ninguna de las opciones anteriores es correcta. Relaciona cada servicio GCP con el que sería su equivalente en proyectos Apache: Dataproc. Cloud Pub/Sub. BigQuery. Dataflow. ¿Cuál de las siguientes afirmaciones sobre Impala es correcta?. El motor de ejecución de Impala es configurable, igual que en Hive. Impala utiliza como motor de ejecución Apache tez. Impala utiliza como motor de ejecución Apache Spark. Ninguna de las opciones anteriores es correcta. Cuando un proceso productor de Kafka utiliza envío asíncrono: Se bloquea en espera de la respuesta que confirme que todo ha ido bien. Prosigue su ejecución, ya que, al ser asíncrono, no espera respuesta alguna. Prosigue su ejecución y Kafka invocará el método que el productor indicó cuando tenga disponible la respuesta. Ninguna de las respuestas anteriores es correcta. ¿Qué dos conceptos hacen posible los servicios de computación en la nube?. Virtualización y disminución de costes. Disminución de costes y abstracción. Disminución de costes y flexibilidad. Abstracción y virtualización. ¿Qué implica que un bróker contenga la partición líder de un topic?. Que será quien reciba y procese las peticiones de lectura y escritura a esa partición. Que decidirá si un consumidor está autorizado para suscribirse al topic. Que será quien centralice las peticiones de escritura que reciben todos los brókeres que contengan dicha partición. Las tres opciones anteriores son correctas. El comando de HDFS para moverse a la carpeta /mydata es ... hdsf dfs -cd /mydata. hdfs dfs -ls /mydata. No existe ningún comando equivalente en HDFS. ¿Qué tipo de servicio no es habitual entre los servicios en la nube?. Máquina virtual. Máquina física. Almacenamiento virtual. Interconexión de servicios. Elige la respuesta incorrecta: Si quisiéramos desplegar un clúster Hadoop en GCP, podríamos... Usar varias instancias VM configuradas manualmente como clúster e instalar las herramientas del ecosistema Hadoop deseadas. Usar el servicio Dataproc. Usar el servicio Dataflow. Usar varios contenedores GKE configurados manualmente como clúster e instalar las herramientas del ecosistema Hadoop deseadas. ¿Qué afirmación sobre las instancias de cómputo EC2 es incorrecta?. Permiten elegir la imagen (AMI) que instalar en ellas de entre una colección predefinida o una proporcionada por el usuario. Poseen un conjunto predeterminado de configuraciones de cómputo, memoria y red, de donde escoger obligatoriamente la configuración predefinida que se desee. Se pueden contratar tantas instancias EC2 como se desee. Cada instancia EC2 está ligada a un servicio EBS para almacenamiento persistente. Un ejemplo ideal de alguien que puede utilizar Hive es: Un analista con conocimientos de SQL que quiere consultar datos estructurados almacenados en HDFS. Un programador con conocimientos de MapReduce que quiere consultar imágenes y vídeos. Una persona de negocios, con alto conocimiento de Excel, que quiere consultar rápidamente datos masivos guardados en una base de datos relacional como MySQL. Los tres casos anteriores son buenos casos de uso. En cuanto a la seguridad, ¿qué esquema sigue GCP?. Un esquema de seguridad compartida, donde GCP se hace siempre cargo de todos los niveles, excepto de los datos. Un esquema de seguridad compartida, donde GCP se hace cargo de ciertos niveles, que dependen del servicio desplegado. El usuario debe hacerse cargo de la seguridad de todo el sistema, que sigue un modelo de cuatro capas. Un esquema de seguridad compartida de cuatro capas, donde el usuario solo se hace cargo de la capa a más alto nivel y Google Cloud, de todos los aspectos de las otras tres. Las tres <<v>> del big data se refieren a: Volumen, velocidad y variedad. Voracidad, volumen y velocidad. Ninguna de las respuestas anteriores es correcta. Elige la respuesta incorrecta. GCP proporciona una serie de servicios de AI bajo AI Platform, para usuarios no expertos en el dominio, los cuales quieran usar AI en sus aplicaciones sin desarrollar ningún modelo. GCP proporciona una serie de servicios de AI bajo AI Platform, para usuarios expertos en el dominio que quieran usar AI en sus aplicaciones desarrollando sus propios modelos. GCP proporciona una serie de servicios de AI bajo Cloud AI Building Blocks, para usuarios no expertos en el dominio, los cuales quieran usar AI en sus aplicaciones sin desarrollar ningún modelo. Entre los servicios AI para uso directo, se pueden encontrar herramientas de clasificación de imágenes o vídeo, o traductores entre diferentes idiomas. ¿Cómo se interconectan los servicios AWS que contrata un usuario?. Mediante una red global que comparten todos los servicios contratados por todos los usuarios en AWS. Mediante una red propia del usuario que conecta las direcciones IP de los servicios contratados. Los distintos servicios contratados son independientes y autocontenidos, por lo que no necesitan ni pueden comunicarse con otros. Mediante el servicio de interconexión AWS VPC. Para usar Hive: Solo se puede utilizar a través de un intérprete de línea de comandos. Se puede usar únicamente a través de una conexión JDBC. Es posible usarlo desde herramientas de BI que dispongan de conector ODBC. Ninguna de las respuestas anteriores es correcta. ¿Qué modelos de servicio cloud existen?. Público, privado e híbrido. IaaS, PaaS y SaaS. Microsoft Azure, Google Cloud Platform y Amazon Web Services. Servidores de cómputo, almacenamiento y bases de datos. ¿Qué acciones pueden realizarse en Spark Structured Streaming?. take. show. start. collect. ¿Qué es un executor de Spark?. Cada uno de los nodos del clúster de Spark. Un proceso creado en los nodos del clúster, preparado para recibir trabajos de Spark. Un nodo concreto del clúster que orquesta los trabajos ejecutados en él. Ninguna de las definiciones anteriores es correcta. ¿Cuál de las siguientes propiedades no es una ventaja de cloud computing?. Coste menor de infraestructura por economías de escala. Flexibilidad a la hora de escalar la infraestructura necesaria. Control total de la infraestructura que soporta los servicios. Alta disponibilidad de los servicios gracias a la replicación. El sistema de ficheros precursor de HDFS fue... GFS. Apache Hadoop. Apache MapReduce. ¿Cuál de las siguientes afirmaciones sobre Hive es correcta?. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los metadatos relacionados con dicha tabla. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los datos relacionados con esta tabla. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive nunca borra ningún dato ni metadato. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los datos y metadatos. Lo mejor si necesitamos más potencia de cómputo en un clúster big data es... Reemplazar algunas máquinas del clúster por otras más potentes. Aumentar el ancho de banda de la red. Añadir más máquinas al clúster, aprovechando todas las que ya había. ¿Cuál de las siguientes opciones es la mejor para desplegar un servicio de almacenamiento distribuido en AWS?. Varias instancias EC2 sobre las que el usuario instala un clúster Hadoop, que incluye HDFS. Varios contenedores ECS sobre los que el usuario instala un clúster Hadoop, que incluye HDFS. Un clúster EMR, con su propio sistema de almacenamiento distribuido. Un clúster EMR, con el sistema de almacenamiento HDFS. Si en un grupo de consumidores hay más consumidores suscritos a un topic que particiones tiene dicho topic: Kafka reparte los mensajes entre todos consumidores de una misma partición. Kafka no permite que esto ocurra y denegará la suscripción al consumidor. Uno o más consumidores quedarán ociosos, sin poder consumir mensajes. Todos los consumidores reciben mensajes de todas las particiones. La transformación map de Spark... No se puede aplicar a un DataFrame porque pertenece a la API de RDD. Se puede aplicar a un DataFrame porque pertenece a la API estructurada de DataFrames. Se puede aplicar a un DataFrame porque envuelve un RDD al que se puede acceder mediante el atributo rdd. No existe en Spark; map es una acción. ¿Cómo se distribuyen los recursos de la infraestructura de AWS?. Se dividen en zonas, que, a su vez, tienen dos o más subzonas. Se dividen en regiones, que, a su vez, engloban dos o más zonas de disponibilidad. Se dividen en zonas de disponibilidad, que, a su vez, contienen dos o más centros de datos. No existe ninguna división, todos los recursos son globales e indistinguibles. ¿Cuál es el método principal de un estimador de Spark ML?. El método fit. El método transform. El método estimate. El método describe. Elige la respuesta correcta: Cuando se ejecuta una transformación en Spark sobre un RDD... Se crea inmediatamente un RDD con el resultado de la transformación. Se modifica inmediatamente el RDD con el resultado de la transformación. Se añade la transformación al DAG, que creará un RDD con el resultado de la transformación cuando se materialice el RDD resultante. Se añade la transformación al DAG, que modificará el RDD original con el resultado de la transformación cuando se materialice el RDD resultante. ¿Cuánto ocupa en total un archivo de 500 MB almacenado en HDFS, sin replicación, si se asume el tamaño de bloque por defecto?. Ocupará 500 MB. Ocupará 512 MB que son 4 bloques de 128 MB, y hay 12 MB desperdiciados. Ocupará 500 MB multiplicado por el número de datanodes del clúster. Relaciona los servicios de Microsoft Azure con su temática correspondiente. Big Data. Bases de Datos. Almacenamiento. Computación. ¿Cuál es la operación con la que nos quedamos con el subconjunto de filas de un DataFrame que cumplen una determinada condición?. sample. filter. map. show. Cuando Spark ejecuta una acción... Se materializan en la memoria RAM de los workers todos los RDD intermedios necesarios para calcular el resultado de la acción, y después se liberan todos. Se añade la acción al DAG y no hace nada en ese momento. Se materializan los RDD intermedios necesarios que no estuviesen ya materializados, se calcula el resultado de la acción y se liberan los no cacheados. Ninguna de las respuestas anteriores es correcta. ¿Qué opción es más interesante para ejecutar tareas cortas y no críticas, que se podrían repetir si fuera necesario?. Instancias VM normales. Preemptible instances VM. Sole-tenant VM instances. One use VM instances. ¿Qué tipo de procesos se benefician especialmente de Spark?. Los procesos en modo batch como por ejemplo una consulta SQL. Los proceso aplicados a datos no demasiado grandes. Los algoritmos de aprendizaje automático que dan varias pasadas sobre los mismos datos. Las respuestas A, B y C son correctas. ¿Qué diferencia Spark MLlib de Spark ML?. Spark MLlib ofrece interfaz para DataFrames en todos sus componentes, mientras que Spark ML sigue utilizando RDD y ha quedado obsoleta. Spark MLlib no permite cachear los resultados de los modelos, mientras que Spark ML sí. Spark MLlib es más rápida entrenando modelos que Spark ML. Ninguna de las respuestas anteriores es correcta. Señala la respuesta correcta: Impala está pensado para procesados en bloque (batch), mientras que Hive está dirigido a peticiones interactivas. Impala está dirigido a peticiones interactivas, mientras que Hive está pensado para procesados en bloque (batch). Tanto Impala como Hive están pensados para peticiones interactivas. Tanto Impala como Hive están pensados para procesados en bloque. Si se quieren utilizar servicios relacionados con machine learning en Microsoft Azure: Es necesario disponer de un equipo de expertos en machine learning que entiendan y puedan usar los servicios que provee Microsoft Azure. Microsoft Azure no proporciona ningún servicio de machine learning. Es necesario contratar un servicio de cómputo sobre el que instalar todo el entorno necesario para desarrollar modelos. Existen tanto opciones para conocedores de machine learning, que disponen de mayor flexibilidad para construir sus modelos, como servicios de inteligencia artificial que no requieren conocimientos de machine learning. Microsoft Azure no está diseñado ni orientado a ofrecer servicios de machine learning de ninguna forma. En la sociedad actual, la mayoría de los datos que se generan a diario son... Datos no estructurados generados por las personas. Datos estructurados generados por máquinas. Datos estructurados generados por las personas. Cuando usamos namenodes federados... Cada datanode puede albergar datos de uno de los subárboles. La caída de un namenode no tiene ningún efecto en el clúster. Ninguna de las respuestas anteriores es correcta. Para utilizar Spark SQL, es necesario... Utilizar la función sql del objeto SparkContext. Utilizar la función sql del objeto SparkSession, a fin de ejecutar la consulta SQL sobre el DataFrame directamente. Registrar el DataFrame sobre el que se quieran ejecutar las consultas SQL como tabla o vista, antes de ejecutar cualquier consulta. Ninguna de las respuestas anteriores es correcta. ¿Cuál de las siguientes afirmaciones sobre Hive es correcta?. Hive siempre utiliza como motor de ejecución Apache Spark. MySQL puede funcionar como metastore de Hive. Un fichero de texto plano puede funcionar como metastore de Hive. Ninguna de las opciones anteriores es correcta. ¿Cuál es la principal fortaleza de Spark?. Opera en memoria principal, lo que hace los cálculos mucho más rápidos. Nunca da lugar a movimiento de datos entre máquinas (shuffle). Las respuestas A y B son correctas. Las respuestas A y B son incorrectas. ¿Qué compañías fueron precursoras de HDFS y MapReduce?. Google y Microsoft, respectivamente. Google en los dos casos. Google y Apache, respectivamente. Spark Streaming permite leer flujos de datos. Solo desde tecnologías de ingesta de datos como Apache Kafka. Desde cualquier fuente de datos, siempre que contenga un esquema, como, por ejemplo, una base de datos. Desde fuentes como Apache Kafka y HDFS, si activamos la inferencia de esquema. Las respuestas A, B y C son incorrectas. El término commodity hardware se refiere a... Máquinas remotas que se alquilan a un proveedor de cloud como Amazon. Máquinas muy potentes que suelen adquirir las grandes empresas. Máquinas de potencia y coste normales conectadas entre sí formando un clúster más potente. ¿Cuál de las siguientes opciones no es un tipo de nube?. Nube pública. Nube privada. Nube secundaria. Nube híbrida. Una empresa multinacional de comercio electrónico pretende predecir si un usuario que entra en su web y ha hecho click en un producto, estará o no interesado en otro producto de la tienda, relacionado con el primero, y con qué probabilidad ocurrirá esto. El objetivo es decidir si se incluirá ese segundo producto o no en la lista de "sugerencias relacionadas" que aparecen en la página del primer producto en el que hizo click. Para ello, desea construir un modelo predictivo. Justifique con dos frases por apartado la respuesta a las siguientes preguntas: (a) ¿En qué parte de la solución Spark Structured Streaming SÍ sería útil? (b) ¿En qué parte de la solución NO sería útil? (Responder en 5 líneas). a) ¿En qué parte de la solución Spark Structured Streaming SÍ sería útil? Spark Structured Streaming sería útil para procesar en tiempo real los clics de los usuarios en productos con el fin de tener los resultados actualizados. (b) ¿En qué parte de la solución NO sería útil? No sería útil en la fase de entrenamiento del modelo predictivo ya que esto se puede usar con MLlib. Explique y justifique en 4 líneas qué tecnologías (en plural) open-source tendría que utilizar una empresa de IoT dedicada a monitorizar la calidad del aire mediante sensores para entrenar un modelo predictivo sobre los datos que obtienen en tiempo real desde los sensores. No mencionar nada sobre la etapa de predicción, sino solo desde que el sensor recoge el dato, hasta que se realiza el entrenamiento del modelo. PISTA: pregúntese si se realiza en tiempo real el entrenamiento. No se puntuarán respuestas sin justificar. Recuerde que justificar no consiste en definir una tecnología. (Responder en 6 líneas). Utilizaría Kafka con el fin de recolectar la información de la calidad del aire de los sensores en tiempo real, luego lo almacenaria en HFDS; posteriormente utilizaría spark straming con el fin de realizar los calculos necesarios como insumo del modelo predictivo a generar. Por ultimo utilizaría spark MLLib en modo batch con el fin de realizar el entrenamiento. Tecnologías open-source para entrenar un modelo predictivo con datos IoT (6 líneas): Se pueden usar Apache Kafka para recibir y transportar datos en tiempo real desde los sensores, garantizando tolerancia a fallos y alta disponibilidad. Apache NiFi permite orquestar y transformar los flujos de datos antes de almacenarlos, facilitando su limpieza y estructuración. Apache Spark es útil para procesar grandes volúmenes de datos históricos y actuales en batch o micro-batch antes del entrenamiento. Finalmente, MLflow permite gestionar de forma reproducible el ciclo de vida del entrenamiento del modelo. Estas tecnologías se integran bien entre sí, permiten escalar horizontalmente y son compatibles con entornos cloud o locales. Además, todas son open-source y ampliamente usadas en entornos productivos de IoT. Explicar en 3 líneas cómo consigue Spark la robustez frente a fallos de cualquier DataFrame, a pesar de que no está replicado en varios nodos (Responder en 4 líneas). En el caso de fallos de cualquier dataframe, Spark cuenta con el DAG ya que contiene la trazabilidad de la ejecución de cada una de las transformaciones aplicadas y esto permite que si existe algún fallo este pueda rehacerse sin necesidad de tener una réplica en varios nodos. Spark consigue la robustez frente a fallos porque guarda una copia exacta del DataFrame en cada nodo. Así, si uno falla, otro nodo puede recuperarlo directamente desde su réplica. Esto garantiza que los datos no se pierdan y se pueda continuar el procesamiento. Explique en menos de 5 líneas qué son las regiones y zonas en un proveedor cloud, y qué configuración consigue la mayor robustez frente a fallos y por qué. No se puntuará una respuesta sin justificación. (Responder en 6 líneas). Las regiones son un area geográfica especifica que por lo general están en cada país; excepto EEUU ya que se distribuye de manera diferente. Las Zonas son aquellas donde se encuentran fisicamente los datacenters; para conseguir la mayor robustez cada región tendría 2 o más zonas disponibles pero como maximo 3 ya que suele ser muy costoso; por ejemplo en Google Cloud cada región está compuesto por 3 zonas. Las regiones son servidores grandes donde se guardan todos los datos, y las zonas son las partes internas de esos servidores. Para tener más robustez, solo se necesita usar una zona por región porque eso ya garantiza respaldo. Así se evitan fallos si un servidor se cae. Explicar en menos de 3 líneas por qué Structured Streaming no es un verdadero sistema de procesamiento en tiempo real. No se puntuará ninguna otra definición. (Responder en 3 líneas). Structured Streaming no es un sistema de procesamiento en tiempo real ya que este trabaja en micro batches; y se usa para realizar calculos sobre los datos y tener resultados actualizados. Structured Streaming no es un sistema de procesamiento en tiempo real porque no puede trabajar con datos en vivo. Solo funciona con datos almacenados en archivos y no puede actualizar resultados dinámicamente. Una entidad bancaria solía utilizar una herramienta de Business Intelligence conectada a una base de datos relacional. No obstante, su volumen de datos ahora es tan ingente que los cuadros de mando sobre agregaciones calculadas al vuelo en SQL han dejado de responder, por lo que se ha decidido reemplazar la base de datos por HDFS para almacenar toda la información. Explica en tres líneas cómo conseguir que los cuadros de mando sigan funcionando, detallando todas las modificaciones que habría que llevar a cabo. (Responder en 4 líneas). Llevaría la información de la base de datos relacional a archivos y estos los almacenaría en HDFS, luego utilizaría impala con el fin de crear las agregaciones interactivas en lenguaje SQL y finalmente mediante un ODBC conectaría la herramienta de Business Intelligence donde ejecutarían los cuadros de mando. Copiaría la base de datos relacional completa a HDFS y luego conectaría directamente la herramienta de BI a HDFS para ejecutar los mismos dashboards. Así no habría necesidad de cambiar nada en la lógica de negocio ni en las consultas SQL. Explique en menos de 5 líneas por qué existen en Spark MLlib piezas que son entrenables sin ser modelos predictivos, y ponga algún ejemplo indicando qué es lo que se entrena. No se puntuará el ejemplo sin la explicación. (Responder en 7 líneas). Las piezas que son entrenables pero que no son modelos predictivos son los estimadores; entre estos se encuentran OneHotEncoder, los string indexers los cuales sirven para variable categorica a una variable Double iniciando en 0.0 . Por ejemplo en un concesionario esta interesado en predecir cual de las clases de los tipos de vehiculos es la más atractiva con el fin de generar promociones para esto se tienen las variables Clase de vehiculo, Venta, Mes de la venta, Tienda y Precio; para esto se aplicaría String Indexer con el fin de categorizar la clase del vehiculo y luego aplicaría el metodo fit y devolvería un objeto tipo modelo. En Spark MLlib todas las piezas que se entrenan son modelos predictivos. No existen transformadores que requieran entrenamiento porque solo aplican funciones simples a los datos. Por ejemplo, OneHotEncoder convierte texto en números sin necesidad de aprender nada. Enumerar los tres orígenes de los datos que se están generando masivamente en la actualidad y poner un ejemplo de cada uno. (Responder en 4 líneas). - Persona - persona: Datos no estructurados generados a partir de imágenes, videos, encuestas. - Persona - Maquina: Datos estructurados o semi estructurados, como asignación de citas medicas, compra de vuelos. - Máquina - Máquina: Datos estructurados, como un marcapasos que transimte el ritmo cardiaco en un sistema hospitalario. - Persona - persona: Datos estructurados generados al completar encuestas digitales. - Persona - máquina: Datos no estructurados como imágenes médicas tomadas por un escáner. - Máquina - máquina: Datos duplicados que no tienen valor analítico, como copias de respaldo entre servidores. En una gran entidad bancaria de ámbito internacional, JUSTIFICAR (no basta mencionar), en dos líneas de texto cada una, la tecnología que se debería utilizar (y por qué) para (a) enviar al sistema los datos de una transacción realizada desde un cajero, y (b) ajustar un modelo predictivo de la cantidad de dinero que va a sacar un usuario, utilizando el histórico completo de transacciones realizadas en el pasado por los clientes de un país. No mencionar nada sobre almacenamiento. (Responder en 4 líneas). a) Usaría Kafka ya que permite realizar transferencia de datos en tiempo real, esto con el fin de obtener las transacciones bancarias en tiempo real del cajero. b) Usaria Spark MLlib ya que el volumen de información de las transacciones historicas del banco es muy grande, lo cual me permite ajustar el modelo predictivo con el fin de responder a la pregunta dada. a) Usaría Hadoop porque permite almacenar la información de cada transacción en un sistema distribuido. Así los datos estarán seguros y se podrán consultar más adelante cuando sea necesario. b) Usaría Excel para hacer gráficas del dinero retirado y estimar manualmente cuánto va a sacar un usuario. Es una herramienta fácil de usar y no requiere conocimientos avanzados de programación. Se dispone del histórico de calificaciones de todas las actividades de evaluación (los 10 tests de autoevaluación, las tres tareas entregables, y la calificación del examen final) de todos los alumnos de Ingeniería para el Procesado Masivo de Datos de los últimos 10 años. Cada año se llevan a cabo dos convocatorias, con una media de 150 alumnos en cada convocatoria. A la dirección de la Escuela le gustaría predecir la calificación que van a tener los alumnos en el examen final antes de llevar a cabo dicho examen, a partir de sus calificaciones de las actividades de evaluación continua. Razone y justifique en menos de 4 líneas (a) si Spark MLlib sería o no una buena elección, y en caso afirmativo, (b) para qué la utilizaría exactamente en este problema. No se puntuará el apartado (a) si no se explica una justificación. (Responder en 4 líneas). a) Si lo usaría ya que permite procesar gran cantidad de información que este de manera distribuida y para este caso los almacenaría en HDFS. b) Lo usaría para llevar a cabo la predicción de la calificación del examen final usando un modelo de regresión. a) No usaría Spark MLlib porque solo sirve para trabajar con datos en tiempo real, y este problema es de análisis histórico. Además, Spark no puede manejar datasets pequeños como este porque necesita muchos nodos. b) Si se usara, serviría para cargar los datos en memoria y mostrarlos en dashboards para visualizar las notas de los alumnos. Explique en menos de 3 líneas qué tipo de servicio cloud es Office 365 atendiendo al modelo de servicio (según la clasificación vista en clase), y justifique por qué pertenece a dicha categoría y no a otra. (La respuesta sólo se puntuará si la justificación es correcta) (Responder en 4 líneas). Office 365 es un modelo de servicio SaaS ya que este tipo de modelo es enfocado en usuarios finales que generalmente se accede bajo una suscripción con una cuenta en este caso de Microsoft. No es un servicio Paas ya que no se maneja una plataforma para desarrollo y tampoco es IaaS porque no se administra la infraestructura de Office365. Office 365 es un servicio IaaS porque permite a los usuarios acceder a recursos como almacenamiento, servidores y redes en la nube. Esto le da al usuario la flexibilidad de configurar su entorno para usar las aplicaciones de Microsoft. Office 365 es un servicio PaaS porque permite trabajar en línea con aplicaciones como Word y Excel, y los desarrolladores pueden personalizar algunas funciones. Esto lo convierte en una plataforma desde la cual se pueden ejecutar aplicaciones sin preocuparse por el sistema operativo. Explicar en menos de 4 líneas por qué, cuando entrenamos una regresión logística del paquete scikit-learn sobre un cluster, no aprovechamos todos los procesadores, pero cuando entrenamos una regresión logística con pyspark, sí. (Responder en 4 líneas). Al usar scikit-learn cuando se entrena un modelo de regresión logistica solo se usaría un nodo del cluster y un procesador por lo que no se aprovecharía las ventajas que dan los sistemas distribuidos, en cambio con pyspark usando MLlib si se usaría el cluster con todos sus procesadores. Scikit-learn aprovecha todos los procesadores del cluster automáticamente cuando se entrena una regresión logística. En cambio, PySpark solo usa un nodo porque está basado en Python, que no permite procesamiento paralelo real. Atendiendo al modelo de servicio, justificar en menos de 3 líneas cada uno qué tipo de servicios son (a) Google Drive, y (b) Dataproc. No se puntuará una respuesta sin justificación. (Responder en 6 líneas). a) Google Drive: Es un servicio de almacenamiento compartido entre los usuarios finales y este es SaaS ya que generalmente se accede bajo una suscripción con una cuenta en este caso de Google. b) Dataproc: Es una herramienta para desarrollo que nos permite crear un cluster de cero a traves de linea de comandos el cual genera un entorno listo para big data y es un servicio PaaS ya que este crea un ambiente para desarrolladores. a) Google Drive es un servicio IaaS porque permite almacenar archivos en la nube usando recursos de red y discos virtuales de Google.El usuario controla su espacio de almacenamiento como si fuera un servidor personal. b) Dataproc es un servicio SaaS porque ejecuta tareas de Big Data sin que el usuario tenga que saber cómo funciona internamente. Solo se necesita enviar los datos y esperar los resultados, como en cualquier aplicación online. Elija un único proveedor de servicios Cloud, y explique en 2 frases para cada apartado, cómo podría desplegar en ese proveedor concreto una Base de Datos relacional utilizando (a) un servicio IaaS (indique el nombre del servicio necesario y la manera en la que se puede usar para desplegar su base de datos), y (b) un servicio PaaS (indique el nombre del servicio y en qué difiere del servicio anterior para la misma finalidad) (Responder en 4 líneas). Azure: a) Utilizaría un servicio de Azure Virtual Machine el cual permite crear maquinas virtuales y allí instalaria un motor de base de datos como MySQL. b) Azure SQL Database el cual es un servicio PaaS utilizado para bases de datos relacionales en azure; este difiere ya que la administración de la infraestructura estara a cargo del proveedor de la nube. AWS: a) Utilizaría Amazon EC2, que permite crear máquinas virtuales sobre las que puedo instalar un sistema operativo y un motor como MySQL o PostgreSQL. b) Usaría Amazon RDS, un servicio PaaS que ofrece bases de datos relacionales como MySQL o PostgreSQL sin necesidad de gestionar la infraestructura. Google: a) Utilizaría Google Compute Engine, que me permite crear máquinas virtuales donde puedo instalar y configurar manualmente un motor como MySQL. b) Usaría Cloud SQL, que es un servicio PaaS para bases de datos relacionales gestionadas como MySQL, PostgreSQL y SQL Server. Azure: a) Utilizaría Azure SQL Database como servicio IaaS, ya que puedo crear bases de datos directamente sin tener que instalar nada. b) Usaría Azure Virtual Machine como PaaS, porque me da un entorno donde puedo subir mis datos sin preocuparme por el sistema operativo. AWS: a) Usaría Amazon RDS como IaaS, ya que permite crear y almacenar bases de datos relacionales desde cero en la nube. b) Usaría Amazon EC2 como servicio PaaS, ya que me deja ejecutar software como MySQL sin tener que configurar los detalles internos. Google Cloud: a) Usaría Cloud SQL como IaaS porque permite acceder a una base de datos sin instalar servidores. b) Usaría Google Compute Engine como PaaS porque me deja usar una máquina virtual para montar mi base de datos con comandos simples. Teniendo en cuenta que los modelos predictivos generalmente NO soportan (desde el punto de vista del modelo estadístico) ser entrenados con "un dato cada vez", explique en 4 líneas con qué tecnología(s) podría entrenar un modelo una empresa que recibe datos en tiempo real para predecir la calidad del aire. No mencionar nada sobre la fase de predicción. (Responder en 5 líneas). Utilizaría Apache Kafka para capturar en tiempo real los datos de sensores sobre la calidad del aire y transmitirlos a un sistema de almacenamiento. HDFS serviría para almacenar los datos históricos. Spark Streaming procesaría los datos en microbatch, aplicando calculos necesarios. Finalmente, Spark MLlib entrenaría el modelo predictivo de manera periódica. Utilizaría Apache Kafka para enviar los datos directamente al modelo de machine learning a medida que llegan los sensores. El modelo se entrenaría en tiempo real con cada dato nuevo, lo que garantiza que siempre esté actualizado. No se requiere almacenamiento intermedio porque los datos se procesan al instante. Esto hace que el modelo aprenda continuamente sin necesidad de microbatches. Explicar el concepto de shuffle de datos en un cluster de ordenadores (Responder en 2 líneas). El shuffle en un clúster de ordenadores es el proceso de redistribución de datos entre nodos durante ciertas operaciones como distinct, groupBy o join. El shuffle en un clúster de ordenadores es el proceso mediante el cual se eliminan los datos duplicados de cada nodo para optimizar el almacenamiento. Este proceso solo ocurre al finalizar el procesamiento, cuando los resultados se guardan. Imagine que usted tiene un perfil de desarrollador de software empresarial. Está diseñando una aplicación que, en un momento dado, requiere que la voz del usuario sea transcrita a texto. Elija uno de los proveedores cloud, e indique en menos de 4 líneas cómo podría ayudarle ese proveedor a resolver este problema concreto. (Responder en 4 líneas). Google: Usaría el servicio Cloud Speech-to-Text, que permite transcribir audio a texto en tiempo real o desde archivos de audio almacenados. Se puede integrar fácilmente en una aplicación mediante su API, que admite múltiples idiomas y modelos optimizados según el contexto (como conversaciones o comandos). Esto facilita la transcripción precisa sin necesidad de desarrollar modelos de reconocimiento de voz desde cero. Azure: Usaría el servicio Azure Speech to Text de Azure Cognitive Services permite transcribir la voz del usuario a texto. Se integra mediante su API REST. Además, admite personalización del modelo de reconocimiento según el dominio de la aplicación y permite transcripción en tiempo real o desde archivos de audio almacenados en Azure Blob Storage. AWS: Usaria el servicio Amazon Transcribe permite convertir voz en texto con alta precisión. Se accede mediante la API de AWS. Soporta transcripción en tiempo real y desde archivos almacenados en Amazon S3, con opciones para mejorar la precisión mediante vocabularios personalizados y filtrado de palabras. Google: Usaría Google Cloud Storage para transcribir la voz del usuario, ya que al subir el archivo de audio, el servicio lo convierte automáticamente en texto. No es necesario usar ningún otro servicio ni API adicional porque el texto se genera dentro del bucket. Azure: Usaría Azure Blob Storage para procesar la voz del usuario a texto directamente desde un contenedor. Este servicio convierte automáticamente los archivos de audio en texto al almacenarlos. AWS: Usaría Amazon S3 para convertir voz en texto, ya que permite almacenar grabaciones y extraer su contenido textual sin necesidad de programar. Solo con subir el archivo al bucket, se activa la transcripción sin intervención adicional. Explique en un máximo de 3 líneas una similitud y una diferencia entre Hive y BigQuery, sin mencionar nada sobre si son código abierto o propietarias, ni tampoco sobre el lenguaje de consulta SQL. Una similitud sería que ambos están diseñados para procesar y analizar grandes volúmenes de datos almacenados en sistemas distribuidos. Y una diferencia sería que BigQuery tiene su propio motor de ejecución mientras que Hive utiliza externos. Una similitud es que ambos se usan para almacenar datos de forma estructurada como si fueran bases de datos relacionales. Una diferencia es que Hive solo funciona con datos en tiempo real y BigQuery solo con archivos planos. Esto hace que Hive sea mejor para análisis inmediatos y BigQuery solo para datos históricos. ¡Enhorabuena! Acaba de crear su propia empresa orientada al procesamiento de datos de marketing de empresas de comercio online. Actualmente su cartera tiene pocos clientes pero el volumen de datos que le solicitan analizar va aumentando, y según las previsiones del equipo financiero, la cantidad de empresas que solicitarán sus servicios dentro de aproximadamente un año multiplicará por 10 a las de su cartera actual. Aplicándolo a esta situación, explique, con UNA frase para cada apartado, cómo pueden ayudarle los proveedores de Cloud Computing (a) en el momento actual, y (b) dentro de un año. a) En el momento actual contrataría los recursos que se necesitan para procesar el volumen de datos actuales con el fin de pagar por el uso real. b) Dentro de un año, cualquiera de los 3 proveedores de nube tal como Azure, AWS y Google ofrecen servicios de escalabilidad la cual permite aumentar la infraestructura que soportan el aumento del volumen de datos. a) En el momento actual, instalaría servidores propios para no depender de ningún proveedor externo y así tener control total desde el inicio. b) Dentro de un año, migraría todos los datos a la nube porque entonces sí será necesario escalar, aunque la infraestructura ya esté configurada de forma fija. Imagine que es sábado por la tarde, ha iniciado su sesión en Netflix y está navegando por los contenidos que ofrece con el fin de elegir la película que quiere ver. Justifique en UNA frase para cada apartado, qué tecnología utilizaría para (a) entrenar un modelo predictivo de qué película puede gustarle más, y (b) alimentar ese modelo en tiempo real para mostrarle al usuario, cuando ha hecho click en una película en concreto, pero todavía no ha confirmado que quiere verla, un score indicando cuánto le va a gustar. Respuestas sin justificar no serán tenidas en cuenta. (Responder en 4 líneas). a) El modelo lo entrenaría con Spark MLlib el cual maneja datos distribuidos y se usa para grandes volúmenes de información. b) Usaría Kafka con el fin de capturar los datos en tiempo real, y procesarlos con Spark Streaming en microbatches con el fin de realizar los calculos necesarios para el score de la afinidad de la pelicula seleccionada. a) Entrenaría el modelo con Excel, ya que permite trabajar con datos y hacer predicciones si se usan fórmulas avanzadas. b) Usaría Google Drive para capturar los clics de los usuarios y calcular automáticamente cuánto les gustará una película con una hoja compartida en tiempo real. |