option
Cuestiones
ayuda
daypo
buscar.php

SISTEMAS DE BIG DATA (CE)

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
SISTEMAS DE BIG DATA (CE)

Descripción:
Tema 1, 2 y 3

Fecha de Creación: 2025/01/29

Categoría: Otros

Número Preguntas: 149

Valoración:(1)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

Una de las siguientes afirmaciones es cierta: El procesamiento en paralelo se realiza dentro de la misma máquina y el distribuído en varias máquinas. El procesamiento distribuído se realiza dentro de la misma máquina y el paralelo en varias máquinas. Tanto procesamiento en paralelo como distribuído se realizan dentro de la misma máquina. Tanto procesamiento en paralelo como distribuído se realizan en varias máquinas.

El acrónimo OLTP designa: Un sistema que está orientado a transacciones. Un sistema que está orientado a analítica descriptiva. Un sistema de ficheros distribuído en los nodos de un clúster. Un sistema que está orientado a generación de modelos predictivos.

Una de las siguientes no es una de las ventajas clave que pueden conseguirse mediante el uso de clusters de máquinas: Alto rendimiento. Alta disponibilidad. Menor consumo energético. Escalabilidad.

Una de las siguientes afirmaciones es cierta en relación a procesamiento paralelo de tareas: Todas las tareas pueden paralelizarse para que se ejecuten más rápido usando varias máquinas. Algunas tareas no pueden paralelizarse para que se ejecuten más rápido usando varias máquinas. Si conseguimos paralelizar una tarea, la potencia equivalente de cómputo es la suma de las potencias de cada nodo del cluster. Cualquier tarea siempre tiene al menos una parte que puede ejecutarse en paralelo para ganar tiempo.

Un clúster es: Un conjunto de computadoras conectadas mediante red para trabajar como una única unidad. Una máquina lo suficientemente potente como para almacenar y procesar grandes cantidades de datos. Un conjunto de computadoras que trabajan de forma independiente y están conectadas mediante red. Un conjunto de computadoras que pueden seguir funcionando aunque no tengan conexión a red.

Sólo para una de las siguientes estrategias de procesamiento se necesita tener mucho tiempo disponible para procesar los datos: En tiempo real. Transaccional. Por lotes. Streaming.

Según el teorma CAP: No podemos conseguir a la vez consistencia, disponibilidad y tolerancia al particionamiento. No podemos conseguir a la vez consistencia, aislamiento y tolerancia a particionamiento. La base de datos no puede almacenar más información que la suma del espacio de almacenamiento de sus nodos. Podemos conseguir a la vez consistencia, disponibilidad y tolerancia al particionamiento.

Una de las siguientes no es una de las capas típicas de una arquitectura para Big Data: Capa de visualización. Capa de ingestión. Capa de consolidación. Capa de almacenamiento.

Un almacén de datos está pensado para poder realizar funciones transaccionales. ¿Verdadero o falso?. Verdadero. Falso.

De las siguientes, una no es una operación con datos que se consiga gracias a tecnologías Big Data: Almacenar los datos de un modo distribuído y replicado para conseguir una mayor disponibilidad de los mismos. Ser capaces de reproducir ficheros de audio o vídeo. Tratar los datos de forma distribuída empleando varias máquinas que trabajan en paralelo. Aplicar técnicas de minería de datos para crear modelos predictivos con cantidades de datos que no caben en una única máquina.

En una base de datos diseñada según el principio BASE: Se consigue atomicidad, consistencia, aislamiento y durabilidad. El sistema es básicamente disponible, de estado blando y de consistencia eventual. El sistema es básicamente disponible, de estado blando y siempre consistente. No podemos almacenar datos que incluyan algún tipo de compresión.

De entre las 5 Vs que definen el reto de Big Data, la V de volumen tiene que ver con: El elevado volumen de espacio necesario para ubicar las máquinas que conforman un clúster lo suficientemente potente. El hecho de que en cada posible fichero de vídeo o audio el sonido puede haberse guardado a diferente volumen. La gran cantidad de bytes de datos que es necesario almacenar y tratar. La complejidad distribuir una enorme cantidad de datos en los distintos volúmenes o unidades de almacenamiento.

De entre las 5 Vs que definen el reto de Big Data, la V de valor tiene que ver con: El alto precio que hay que pagar por los datos. La valentía que implica el acometer este tipo de proyectos. El valor que se puede obtener revendiendo datos a terceros. Cómo de útiles son los datos para la institución, empresa o persona que los usa.

Los sistemas para Big Data de hoy en día son capaces de trabajar con cantidades de datos de: Como máximo 1 terabyte (TB). Cualquier cantidad de datos que nos podamos imaginar. Como máximo 1 petabyte (PB). Petabytes (PB) o incluso exabytes (EB).

El acrónimo OLAP designa: Un método para la generación de modelos predictivos. Un sistema que está orientado a trabajo transaccional. Una base de datos distribuída. Un sistema que está orientado a procesar consultas de tipo analítico en tiempo real.

Una de los siguientes es el orden de etapas desde que ocurren los eventos hasta que de ellos se genera valor: Eventos->Información->Datos->Conocimiento->Sabiduría->Valor. Eventos->Datos->Conocimiento->Información->Sabiduría->Valor. Eventos->Datos->Información->Sabiduría->Conocimiento->Valor. Eventos->Datos->Información->Conocimiento->Sabiduría->Valor.

Las 4 características del principio ACID son: Aislamiento, Concurrencia, Independencia y Durabilidad. Atomicidad, Consistencia, Independiencia y Durabilidad. Atomicidad, Concurrencia, Aislamiento y Durabilidad. Atomicidad, Consistencia, Aislamiento y Durabilidad.

Las tecnologías de Big Data se complementan con otras disciplinas como la Minería de Datos para obtener valor de los datos. ¿Verdadero o falso?.

De entre las 5 Vs que definen el reto de Big Data, la V de velocidad tiene que ver con: La alta velocidad que necesitan tener los microprocesadores con los que se tratan los datos. La velocidad a la que se degrada la información. El bajo tiempo que transcurre desde que se genera el dato hasta que es adquirido por el sistema. La cantidad de datos que siguen generándose constantemente.

Un dataset no debería contener ficheros de texto plano. ¿Verdadero o falso?. Verdadero. Falso.

Las metodologías y tecnologías Big Data surgen principalmente debido a: El hecho de tener que tratar con grandes cantidades de datos que desbordan los recursos de máquinas individuales. El hecho de tener que tratar con grandes cantidades de datos que desbordan los recursos de cualquier clúster de máquinas. El hecho de necesitar limpiar de ruido los datos que se reciben desde múltiples fuentes. La necesidad de que los datos se almacenen replicados para evitar que se pierdan de forma accidental.

De entre las 5 Vs que definen el reto de Big Data, la V de variedad tiene que ver con: La gran variedad de temáticas de los contenidos cuyos datos hay que tratar. La gran variedad de representaciones en las cuales se generan datos (texto, imagen, vídeo, audio,...). La gran variedad de opciones existentes a la hora de definir las capas que componen el sistema. La gran variedad de motores de base de datos que tenemos a nuestra disposición para realizar los proyectos.

Big Data suele traducirse al castellano como: Grandes Datos. Gran Información. Macrodatos. Megadatos.

De entre las 5 Vs que definen el reto de Big Data, la V de veracidad tiene que ver con: El hecho de que muchos de los post que encontramos en redes sociales contienen información falsa. La dificultad en encontrar fuentes de información de pago que realmente sean fiables. El hecho de que los datos no siempre cuentan con la calidad deseada o no son totalmente fieles a la realidad. El hecho de que las fuentes Open Data, que son las más económincas, suelen contener información falsa.

De los siguientes, uno no está entre los aportes o beneficios que podemos obtener gracias a poder tratar con gran cantidad de datos: Identificar nuevos mercados. Dar soporte a la toma de decisiones. Realizar descubrimientos científicos. Editar imágenes.

La capa de colección en una arquitectura para Big Data es: Aquella en la que se gestiona el almacenamiento de los datos. Aquella en se determina para cada dato si va a ser utilizado o no para realizar analíticas. Aquella de la que se obtienen los datos para visualización. Aquella en la que se pasa de los datos que vienen de diversas fuentes a un conjunto de datos unificado y ya casi listo para ser usado.

El lenguaje comúnmente empleado para interactuar con bases de datos se llama: XML. SQL. MySQL. RDBMS.

La sabiduría se obtiene del conocimiento del mismo modo que los datos se obtienen de la información. ¿Verdadero o falso?. Verdadero. Falso.

Según el principio SCV: No podemos almacenar datos a una velocidad más rápida de lo que se procesan. Un sistema de procesamiento distribuído no puede tener a la vez características de velocidad, consistencia y volumen. No podemos conseguir a la vez consistencia, aislamiento y tolerancia a particionamiento. Un sistema de procesamiento distribuído puede tener a la vez características de velocidad, consistencia y volumen.

Un procesamiento distribuido implica: Distintos procesos para un mismo trabajo ejecutándose dentro del mismo procesador. Procesamiento transaccional. Procesamiento para analítica. Distintos procesos para un mismo trabajo ejecutándose en distintas máquinas.

HDFS es: Un tipo de conector más rápido que USB 3.0. El sistema de ficheros distribuido en el que se basa Hadoop. Una especificación para unidades de disco duro. El sistema de ficheros distribuido de Google.

Que una base de datos sea schema-on-read significa: Que podemos realizar escrituras sin necesidad de cumplir con un esquema determinado. Que cada vez que leemos un dato estamos escribiendo también el esquema de la tabla. Que cada vez que leemos un dato estamos leyendo también el esquema de la tabla. No hay bases de datos que sean schema-on-read.

En bases de datos distribuidas, sharding es: Un mecanismo para replicar los datos por el cluster. Un mecanismo para particionar un conjunto de datos en subconjuntos más pequeños para facilitar su distribución por el clúster. Un mecanismo para asegurar la total tolerancia a fallos en los nodos. No significa nada en el mundo de las bases de datos distribuidas.

En un clúster HDFS encontraremos: Un nodo trabajando como Datanode y varios trabajando como Namenode. Varios nodos trabajando como Namenode y Datanode de forma indistinta. Un número arbitrario de nodos trabajando como Namenode y al menos 2 trabajando como Datanode. Un nodo trabajando como Namenode y varios trabajando como Datanode.

Un sistema de ficheros es: Cualquier lector de CD o de DVD. Una utilidad que permite comprimir ficheros. La infraestructura necesaria para poder almacenar y organizar datos en unidades de almacenamiento. La infraestructura necesaria para poder almacenar documentos.

Un almacenamiento distribuido en memoria es adecuado cuando necesitamos tratar con muy grandes cantidades de datos. ¿Verdadero o falso?. Verdadero. Falso.

Las bases de datos clave-valor son: Relacionales. Schema-on-write. Agnósticas respecto de los valores almacenados. Monoclave.

Uno de los siguientes no es un tipo de sistema de ficheros: EXT4. FAT32. NET7. NTFS.

HDFS es un componente de Apache Hadoop. ¿Verdadero o falso?.

Que una base de datos sea schema-on-write significa: Que cada vez que escribimos un registro escribimos también el esquema. Que cada vez que escribimos un registro podemos actualizar el esquema. No hay bases de datos que sean schema-on-write. Que debe establecerse el formato de los datos a almacenar antes de comenzar a escribirlos.

En una base de datos orientada a grafo: Tanto nodos como relaciones pueden tener propiedades. Sólo los nodos pueden tener propiedades. Sólo las relaciones pueden tener propiedades. Ni nodos ni relaciones pueden tener propiedades.

En el intérprete de comandos de MongoDB una de las siguientes líneas encuentra los documentos cuyo campo "edad" es mayor a 33 en la colección "personas" de la base de datos "db": personas.db.find( { "edad": { $gt: 33 } } );. db.personas.find( { "edad": { $gt: 33 } } );. db.personas.find( { "edad": ">33" } );. db.personas.findGreaterThan( { "edad": 33 } );.

En bases de datos distribuidas, replicación consiste en: Almacenar copias de cada dato en todos los nodos del clúster. Almacenar copias de un mismo conjunto de datos en 2 nodos del clúster. Almacenar copias de un mismo conjunto de datos en varios nodos del clúster. Que cada nodo contenga una copia completa de la base de datos.

Si nuestro HDFS está configurado para bloques de 128 MB y queremos almacenar un fichero de 28 MB entonces se desperdician 100 MB de almacenamiento. ¿Verdadero o falso?. Verdadero. Falso.

Una de las siguientes operaciones no se puede realizar en bases de datos documentales: Selección por el valor de un atributo o campo. JOIN. Acceso a través de una clave. Actualización de un dato.

Para acceder a HDFS mediante lenguajes de programación usaremos: El propio lenguaje pero usando una sintaxis específica. Paquetes o librerías, si están disponibles para el lenguaje que estamos utilizando. Sólo puede hacerse si usamos Python. No puede accederse desde lenguajes de programación pero sí por línea de comandos.

Una de las siguientes afirmaciones es cierta en relación a HDFS: Los ficheros se particionan en bloques de 64 MB. Los ficheros se particionan en bloques de 256 kB. Los ficheros se particionan en bloques, y por defecto esos bloques son de 128 MB. Los ficheros se guardan completos sin parcitionar.

Un fichero es: Un conjunto de carpetas. Una versión comprimida de un archivo. Una secuencia de bytes alojada en disco duro. La unidad atómica de almacenamiento empleada por un sistema de ficheros para almacenar datos.

Cuando todos los nodos de un sistema de almacenamiento distribuido en memoria ya tienen instalada la máxima RAM posible y queremos ampliar más el almacenamiento: No se puede ampliar. Es independiente de la RAM, porque todo se está guardando en disco. Añadimos más discos. Añadimos más nodos al clúster.

El almacenamiento distribuido en memoria tiene la desventaja de que: No ofrece de por sí durabilidad en los datos. No tiene desventajas. El acceso a memoria tiene más latencia que si usamos unidades de almacenamiento no volátil. Trabajar con grandes cantidades de memoria RAM impone requisitos específicos de refrigeración en el centro de datos.

Si queremos poder usar la librería Snakebite en Python añadiremos la siguiente línea al principio de nuestros scripts: import Snake. from snake import Snake. from snakebite.client import Client. from Client import Snakebite.

Una de las siguienes afirmaciones no es correcta respecto de las bases de datos columnares: No son muy eficientes para accesos a nivel de fila. Pueden escalar para manejar grandes volúmenes de datos. Son una opción válida para soporter datos en sistemas tipo OLAP. Guardan documentos en sus columnas.

Un árbol de directorio es: Una estructura que nos permite organizar ficheros dentro de carpetas. Una estructura de datos almacenada en la memoria RAM del sistema. Un conjunto de metadatos acerca de un fichero. Una colección de nodos de árbol enlazados mediante aristas.

Los sistemas de ficheros distribuidos consiguen redundancia gracias a que: El contenido de cada fichero es almacenado en todos los nodos del clúster. El contenido de cada fichero es almacenado en más de un nodo del clúster. Todos los nodos cuentan con discos duros conectados en RAID. No se consigue redundancia.

En bases de datos distribuidas, sharding y replicación son: Incompatibles. Compatibles. Inconsistentes. Inapropiados.

HDFS permite almacenar datos sin necesidad de estos tengan que cumplir con un esquema establecido de antemano. ¿Verdadero o falso?.

El mecanismo de sharding en bases de datos distribuidas facilita la distribución de la carga de trabajo. ¿Verdadero o falso?.

Para acceder a HDFS mediante línea de comandos usaremos: "hdfs fs. "hadoop hdfs". Los comandos de fichero típicos de Unix/Linux (como por ejemplo "mkdir", "mv" o "rm"). "hadoop fs" o "hdfs dfs .

HDFS está optimizado para trabajar con una gran cantidad de ficheros de reducido tamaño. ¿Verdadero o falso?. -Verdadero. Falso.

En HDFS el Namenode puede detectar cuándo un Datanode deja de estar accesible. ¿Verdadero o falso?.

Según el RGPD: Los interesados pierden los derechos de acceso, rectificación, cancelación y oposición. Los interesados mantienen los derechos de acceso, rectificación, cancelación y oposición, pero ahora en una versión más completa. Los interesados mantienen los derechos de acceso, rectificación, cancelación y oposición tal cual los tenían con anteriores leyes. Los interesados mantienen los derechos de acceso, rectificación, cancelación y oposición, pero ahora en una versión más resumida.

Una de las siguientes no es una de las principales características de Apache Flume. Permite crear topologías para tratar los flujos de datos hasta llegar al resultado final. Está basado en eventos y se adapta a fuentes en streaming. Permite conectar con bases de datos relacionales. Es tolerante a fallos.

Las fases del proceso ETL son: Extraer, transformar, liberar. ETL no es ningún proceso que tenga que ver con tratamiento de datos. Exportar, transformar, cargar. Extraer, transformar, cargar.

Uno de los siguientes no es uno de los derechos del interesado en relación al tratamiento de sus datos, según el RGPD: Derecho al olvido. Derecho a la portabilidad. Derecho a la elección del soporte en el que se almacenan. Derecho de rectificación.

Apache Flume es: Una herramienta de línea de comandos que nos permite obtener datos desde bases de datos relacionales. Un software distribuido que permite obtener datos en streaming desde gran cantidad de fuentes no estructuradas o semiestructuradas. Un software distribuido que permite obtener datos desde bases de datos relacionales. Un software distribuido especialmente indicado para obtener datos desde HDFS.

Si enviamos datos de un sistema OLTP a uno OLAP con intención de emplear el segundo de ellos para realizar la analítica: Estamos realizando la transferencia de datos en el sentido inverso al común. Estamos realizando la transferencia de datos en el sentido inverso al que es lógico. Descargamos al OLAP de la carga transaccional. Descargamos al OLTP de la carga de la analítica.

Según el RGPD, el interesado: Es la persona física o jurídica, autoridad pública, servicio u otro organismo que trate datos personales por cuenta del responsable del tratamiento. Es una persona física identificada o identificable sobre la que los datos personales se están tratando. Es la persona física o jurídica, autoridad pública, servicio u otro organismo al que se comuniquen datos personales. Es la persona física o jurídica, autoridad pública, servicio u otro organismo al que se comuniquen datos personales.

Una de las siguientes no es una de las medidas de seguridad que deben aplicarse al tratar datos personales según el RGPD: La seudonimización de los datos personales. La capacidad de restaurar los datos personales de forma rápida. La implementación de procesos que faciliten su tratamiento distribuido. La implementación de procesos de verificación y evaluación.

Según el RGPD, la condición básica para poder tratar los datos personales del interesado es: Que el interesado forme parte del tratamiendo de los datos. Que exista un contrato entre el interesado y el responsable del tratamiento de los datos. Que se satisfagan los intereses legítimos tanto del interesado como del responsable del tratamiento. Que el interesado dé su consentimiento.

Una de las siguientes no es una de las actividades relacionadas con gestión de datos en las que está presente el Gobierno de Datos: Optimización de recursos. Calidad. Documentación. Integración.

Apache Sqoop es: Es un software distribuido que permite obtener datos en streaming desde gran cantidad de fuentes no estructuradas. Una herramienta de línea de comandos que nos permite obtener datos en streaming desde gran cantidad de fuentes no estructuradas. Una herramienta de línea de comandos que nos permite obtener datos desde bases de datos relacionales. Es un software distribuido pensado para permitir obtener datos desde sistemas de ficheros distribuidos.

La diferencia entre los conceptos ETL e integración de datos es que: No hay diferencias. En ETL se produce una copia de los datos y en integración de datos idealmente siguen residiendo en las fuentes originales. La integración de datos se produce a continuación del proceso de ETL. La integración de datos se produce previamente al proceso de ETL.

El Gobierno de Datos incluye: Planificación, ejecución y documentación. Planficiación, implementación y documentación. Planificación, ejecución y seguimiento. Ejecución, monitorización, documentación y seguimiento.

Los propietarios del dato (o data owners): Tienen perfil IT. Tienen perfil ejecutivo con función transversal (negocio e IT). Atienden las peticiones de tecnología del CDO. Tienen perfil de negocio.

Una de las siguientes no es un tipo de fuente típico en la fase de extracción del proceso ETL: Logs de servidores web. Cuadros de mando de inteligencia de negocio. Bases de datos relacionales. Ficheros en diversos formatos.

Cuando el almacenamiento de destino de un proceso ETL permite guardar un registro histórico para cada posible dato: En ningún caso puede guardarse un registro histórico debido a que los datos se eliminan siempre. En ningún caso puede guardarse un registro histórico debido a que los datos se sobreescriben siempre. Podemos acceder a los metadatos de cada dato desde el mismo interfaz de usario. Podemos comprobar los distintos valores que ha ido teniendo el dato a lo largo del tiempo.

Según el RGPD: Un responsable sólo puede encargar un tratamiendo de datos a quien cumpla con garantías técnicas y organizativas para cumplir con el RGPD. Un responsable sólo puede encargar un tratamiendo de datos a quien pueda demostrar experiencia previa en el área, y debe existir un contrato escrito entre responsable y encargado. Un responsable no puede subcontratar ningún tratamiento de datos. Un responsable sólo puede encargar un tratamiendo de datos a quien cumpla con garantías técnicas y organizativas para cumplir con el RGPD, y debe existir un contrato escrito entre responsable y encargado.

La LOPD-GDD se escribió: Para sustituir al RGPD al quedar éste desfasado. Antes que el RGPD. Es una traducción del RGPD al castellano. Para estar acorde con el RGPD.

Una de las siguientes no es una de las principales características de Apache Sqoop: Permite conectar con fuentes de datos no estructuradas. Cuenta con interfaz de línea de comandos. Cuenta con mecanismos para evitar sobrecargar las fuentes. Permite importaciones en masa.

La fase de transformación de ETL requiere comprender el significado que tienen los datos en las fuentes de origen y que deben tener en destino. ¿Verdadero o falso?.

Cuando al almacenamiento de destino de un proceso ETL llegan datos nuevos: Los datos preexistentes siempre se ven afectados. Los datos preexistentes se eliminan. Los datos preexistentes nunca se ven afectados. Los datos preexistentes pueden no verse afectados.

Uno de los objetivos generales del Gobierno de Datos es: Facilitar a las organizaciones la gestión distribuida de los datos. Facilitar a las organizaciones el almacenamiento redundante de los datos. Facilitar a las organizaciones el acceso a fuentes de datos en streaming. Facilitar a las organizaciones la gestión de sus datos como los activos que son.

Una de las siguientes afirmaciones es correcta en relación a la fase de extracción del proceso ETL: Hay un número muy limitado de posibles fuentes de datos. Siempre se accede a una única fuente de datos. Existe gran variedad de posibles fuentes de datos, cada una con su formato y/o protocolo. Existe gran variedad de posibles fuentes de datos pero las herramientas ETL son compatibles con todas ellas.

El Gobierno de Datos: Es la gestión de los datos. Es el ejercício de control y autoridad y comunicación sobre la gestión realizada de los datos. Se realiza para facilitar la monitorización de los nodos del clúster. Es una de las actividades incluidas dentro de la gestión de datos.

El Chief Data Officer (o CDO): Tiene como cometido resolver problemas tecnológicos. Es responsable del modelo de datos. Es el responsable de un departamentos que usa/produce datos. No juega ningún papel en relación a Gobierno de Datos.

Uno de los siguientes no es un destino típico de un proceso ETL: Bases de datos orientadas a grafo. HDFS. Amazon S3. Almacenes de datos para OLAP.

Según el RGPD, los responsables del tratamiento de datos están obligados a: Garantizar su cumplimiento y estar en condiciones de demostrarlo. Garantizar su cumplimiento y remitir informes periódicos a las autoridades competentes. Garantizar su cumplimiento. Garantizar su cumplimiento por parte de toda la plantilla y de aquellos terceros con los que se subcontrate el tratamiento.

El siguiente es el orden de las distintas técnicas de integración de datos, de menos a más automatizada: Manual, basada en aplicación, basada en middleware, virtual. Virtual, manual, basada en aplicación, basada en middleware. Manual, virtual, basada en aplicación, basada en middleware. Virtual, basada en middleware, basada en aplicación, manual.

Una de las siguientes no es un tipo de transformación realizado típicamente durante el proceso de ETL: Normalización de los datos en función de las claves externas. Seleccionar sólo determinadas columnas o atributos de cada registro. Realizar unificaciones de datos que provienen de distintas fuentes. Transponer filas en columas o columnas en filas.

¿Que problema de base origina la aparición de las metodologías y tecnologías Big Data?. El tener datos que no se sabe de dónde proceden. El tener grandes cantidades de datos que no caben en el almacenamiento conjunto de varias máquinas. El tener grandes cantidades de datos que desbordan los recursos de máquinas individuales. La incapacidad de realizar analítica en una única máquina.

Si en algún atributo de la especificación de un dispositivo hardware vemos un valor de 1 kB, ¿a cuántos bytes corresponde?. A 1000 bytes siempre. A 1020 bytes siempre. Dependiendo de la situación, quizás se refiera a 1 kB (que corresponde a 1000 bytes), o a 1KiB (que corresponde a 1024 bytes). A 1024 bytes siempre.

¿A qué tipo de información corresponde, generalmente, un fichero con extensión .json?. Estructurados. No estructurados. Semiestructurados. Metadatos.

¿A qué nos referimos cuando decimos que hay ruido en los datos?. A que el fichero de audio se grabó con un micrófono de baja calidad. A que guardamos el sonido en un ambiente ruidoso. A que parte de los datos no contienen información usable o de la que se pueda obtener algún tipo de valor. No puede haber ruido en los datos.

¿Cuáles de los siguientes son posibles beneficios de las metodologías y tecnologías Big Data?(Respuesta Múltiple). Soportar la toma de decisiones. Mejorar las operaciones en empresas e instituciones. Ayudar a detectar enfermedades. Ayudar a los científicos a realizar nuevos descubrimientos.

¿Cuáles de los siguientes son eventos susceptibles de generar datos?(Respuesta múltiple). Un pago con tarjeta. Un alta de usuario en una web. Una medida de presión atmosférica en una estación meteorológica. Un análisis de sangre de un paciente en un hospital.

¿Qué hacemos si un clúster necesita más capacidad de almacenamiento?. Hacemos escalado vertical de todos los nodos, aumentando el tamaño de almacenamiento de cada uno. Hacemos escalado horizontal, añadiendo mas nodos al clúster. Hacemos escalado en diagonal, aumentando el almacenamiento en los nodos que tengan menos espacio disponible. Hacemos escalado vertical, añadiendo mas nodos al clúster.

¿Cuál de las siguientes afirmaciones es cierta en relación a las bases de datos relacionales?. Utilizan MySQL como lenguaje de consulta. No es necesario conocer los tipos de datos que se van a almacenar desde un primer momento, sino que se determina al realizar su lectura. Podemos utilizar el tipo de datos RDBMS, en el cual cabe cualquier número de bytes ya que se guarda en ficheros espefícos fuera de la base de datos. Si creamos índices para las columnas sobre las que vayamos a hacer búsquedas, éstas se ejecutarán más rápido.

¿Cuál de las siguientes afirmaciones es correcta respecto de un dataset?. Siempre vienen en ficheros de texto plano. Contienen datos de usuarios. No pueden contener datos de usuarios porque constituye un uso prohibido. Que contenga imágenes no significa que no pueda contener también texto, audio o vídeo.

¿Un almacén de datos puede incluir en su interior una base de datos relacional?. Sí. No, sólo puede incluír subsistemas OLAP. No, sólo bases de datos de tipo NoSQL.

A la hora de enviar datos entre dos nodos de un clúster, ¿en qué caso será más rapida la comunicación?. Es vital que haya pocos metros de cable entre los nodos. Será más rápido cuantos menos saltos entre switches haya que hacer para llegar de un nodo a otro. Lo más rápido siempre es enviarlos a otro CPD si éste cuenta con máquinas más rápidas. Los nodos de un clúster no pueden comunicarse entre sí.

¿Cuál es la diferencia entre procesamiento en tiempo real y procesamiento en streaming?. Tiempo real implica que los resultados se producen en poco tiempo, mientras que en streaming implica que es capaz de tener en cuenta datos que van entrando constantemente. Son lo mismo. Streaming significa que es transaccional, mientras que en tiempo real significa que no es transaccional. Streaming significa que el procesamiento es rápido, mientras que en tiempo real significa que todo ocurre a la velocidad a la que lo solicita el usuario.

Cuando hablamos de OLTP, ¿qué tipo de base de datos se está empleando por lo general?. Una base de datos orientada a grafos. No será una base de datos común sino que todo se estará almacenando en la memoria RAM del sistema. Una base de datos relacional. No se emplea una base de datos sino un almacenamiento distribuído como HDFS o S3.

¿Cuáles son rasgos típicos de las estructuras de datos empleadas para OLAP?. Almacenamiento en unidades SSD para un acceso más rápido. Almacenamiento en memoria RAM de estructuras multidimensionales. Almacenamiento en memoria RAM de datos previamente normalizados. Estructuras multidimensionales que se almacenan en sistemas distribuídos tipo HDFS o S3.

¿Qué capa se encarga de integrar los datos de modo que queden unificados con sentido propio para la tarea que se va a realizar con ellos?. La capa de ingestión. La capa de colección. La capa de almacenamiento. La capa de procesamiento.

¿Qué queda representado en el paisaje de Big Data?. Las distintas capas por las que pasan los datos. La posible distribución de los nodos de un clúster dentro de un centro de datos. Las herramientas y utilidades que se pueden utilizar. Las herramientas y utilidades que sirven para obtener datos de diversas fuentes.

¿Qué nivel de RAID emplearemos si tenemos 3 discos de 4TB cada uno y queremos poder ver una única unidad de 8TB de modo que no se pierdan datos si uno de los discos se rompe?. RAID 0. RAID 1. RAID 3. RAID 5.

¿Cómo se consigue la redundancia en los sistemas de ficheros distribuidos?. Gracias a que en cada nodo hay al menos 2 discos duros conectados en RAID. No se consigue redundancia. Gracias a que el contenido de cada fichero es almacenado en más de un nodo del clúster. Gracias a que el contenido de cada fichero es almacenado en todos los nodos del clúster.

¿Como se consigue la durabilidad de los datos en sistemas de almacenamiento distribuido en memoria?. No se consigue a menos que realmente no sea sólo en memoria. No se consigue porque la memoria RAM siempre puede fallar en algún momento. Se consigue gracias a que siempre queda al menos un nodo funcionando con todos los datos en memoria. Se consigue gracias a que los datos están replicados de modo que con que queden 2 nodos funcionando es suficiente para no perder nada.

Cuál es la especificación recomendada para los nodos de un clúster HDFS?. Máquinas específicas de alto precio, con fuente de alimentación y discos duros redundantes. Máquinas que puede comprar el cliente final, pero de altas prestaciones. Será suficiente con las máquinas más baratas que se puedan encontrar siempre que haya muchas. Máquinas adquiridas de segunda mano, aunque sean antiguas.

¿Por qué razón los bloques en HDFS son por defecto de 128MB?. Porque de ese modo en muchas ocasiones todo el fichero cabe en un único bloque. Son grandes para minimizar los accesos a disco y así poder trabajar prácticamente a la velocidad de transferencia de la unidad de almacenamiento. Los bloques son de tamaños arbitrarios. Los bloques no son de 128 MB sino de 128 kB.

¿Cómo se puede acceder a HDFS?. Sólo por línea de comandos. Por línea de comandos o a través de lenguajes de programación usando librerías. Únicamente a través de lenguajes de programación usando librerías. No accedemos, porque HDFS opera de modo independiente.

¿Cómo se puede acceder a HDFS desde Python?. No se puede. A través de librerías. El propio lenguaje lo permite por defecto. Sólo mediante llamadas al sistema a hadoop fs o a hdfs dfs.

¿Qué significa schema-on-read?. Que no es necesario ningún esquema en ningún momento. Que hay que establecer el esquema de las tablas en el momento de hacer la primera lectura. Que tanto datos como esquema tienen que coincidir cuando se hacen las escrituras. Que los datos se pueden escriben sin atender a ningún esquema preestablecido, porque si se utiliza algún tipo de esquema es en todo caso al leerlos.

¿A qué nos referimos si decimos que empleamos sharding en un clúster?. A que los datos se almacenan de forma distribuida. A que los nodos trabajan todos al mismo nivel de jerarquía. A que cada dato está replicado en más de un nodo. A que los cojuntos de datos se han particionado en subconjuntos más pequeños para facilitar su distribución por el clúster.

¿A qué nos referimos si decimos que empleamos replicación en un clúster?. A que los conjuntos de datos se han particionado para facilitar su distribución por los nodos. A que cada dato se almacena al menos en 2 nodos. A que cada dato se almacena al menos en 3 nodos. A que los nodos cuentan con parejas de discos duros en RAID.

¿Cuál de las siguientes afirmaciones es correcta en relación a sharding y replicación?. Ambas pueden funcionar a la vez. Primero se pone a funcionar de forma replicada y después se activa el sharding. Primero se pone a funcionar con sharding y después se activa la replicación. En teoría son cosas distintas, pero en la práctica resultan intercambiables.

¿Cuál de las siguientes afirmaciones es correcta en relación a las bases de datos documentales?. Se utilizan para almacenar documentos de Microsoft Office. Se utilizan para almacenar de forma segura documentación legal de cualquier tipo. Guardan documentos en formato textual, codificado típicamente en JSON. Almacenan tablas cuyas celdas son documentos.

¿Cuál de las siguientes afirmaciones es correcta en relación a las bases de datos clave-valor?. Guardan claves arbitrarias asociadas a valores predefinidos. Guardan claves predefinidas asociadas a valores arbitrarios. Guardan valores predefinidos asociados a claves arbitrarias. Guardan valores arbitrarios asociados a claves.

¿Cuál de las siguientes afirmaciones es correcta en relación a las bases de datos columnares?. En ellas los datos se almacenan por columnas. En ellas cada registro viene representado por una columna. En ellas una columna puede contener otras columnas. Son equivalentes a las relacionales salvo por una cuestión de nomenclatura.

¿Cómo cambiamos entre bases de datos desde el intérprete de comandos de MongoDB?. change_to <db>. use <db>. open <db>. init <db>.

¿Qué significa lo siguiente en el intérprete de comandos de MongoDB? db.movies.find( { "awards.wins": { $gt: 100 } } );. Dentro de la base de datos movies, encontrar documentos cuyo campo wins tenga valor 100. Dentro de la colección movies de la base de datos db, encontrar documentos cuyo campo wins tenga valor 100. Dentro de la colección movies de la base de datos db, encontrar documentos cuyo campo wins dentro del campo awards tenga valor 100. Dentro de la colección movies de la base de datos db, encontrar documentos cuyo campo wins dentro del campo awards tenga valor mayor de 100.

¿Cuál de las siguientes afirmaciones es correcta en relación a ETL e integración de datos?. Son equivalentes en todo caso. El proceso es el mismo pero en integración de datos el destino es un almacén de datos. Integración de datos es uno de los pasos que se realizan dentro del proceso de ETL. No son equivalentes.

La fase de extracción del proceso ETL consiste en extraer los metadatos incluídos dentro de los ficheros. Verdadero. Falso.

La fase de transformación es en la que se realiza todo el proceso de transformación de los datos para dejarlos en el formato finalmente deseado. Verdadero. Falso.

En la fase de carga de ETL es cuando se cargan datos desde disco a memoria. Verdadero. Falso.

¿En qué momento es mejor realizar la fase de extracción en un proceso de ETL?. Cualquier momento es bueno. Siempre por la noche. Si va interferir con el correcto funcionamiento de los sistemas que contienen las fuentes se realizará en el momento en el que tales sistemas o fuentes se encuentren menos cargados. Siempre por la mañana.

¿Cuál de las siguientes no es un posible tipo de transformación a realizar con los datos en un proceso de ETL?. Realizar unificaciones de datos que vienen de distintas fuentes. Eliminar el contenido de una base de datos. Transponer filas en columas o columnas en filas. Seleccionar sólo determinadas columnas o atributos de cada registro.

¿Qué les ocurre a los datos que ya hay en el almacenamiento destino de un ETL cuando llegan datos nuevos?. Se eliminan. Se actualizan. Depende el uso. En ocasiones se eliminan, en ocasiones no quedan afectados y en ocasiones son modificados. Depende el uso. En ocasiones se eliminan y en ocasiones son modificados.

Apache Sqoop es un software distribuido que permite obtener datos en streaming desde gran cantidad de fuentes no estructuradas o semiestructuradas. Verdadero. Falso.

Apache Sqoop es una herramienta de línea de comandos que nos permite obtener datos desde bases de datos relacionales. Verdadero. Falso.

Apache Sqoop permite enviar datos a HDFS. Verdadero. Falso.

Apache Flume permite enviar datos a HDFS. Verdadero. Falso.

¿Cuáles de las siguientes son características propias de Apache Sqoop?. Se puede emplear mediante interfaz de línea de comandos. Obtiene datos desde fuentes no estructuradas. Tiene mecanismos para evitar sobrecargar las fuentes. Permite acceso programático mediante JDBC.

¿Cuáles de las siguientes son características propias de Apache Flume?. Permite conectar con cualquier fuente JDBC. Alto ancho de banda y baja latencia. Tolerancia a fallos. Basado en eventos.

El proceso de Integración de Datos: Consiste en una replicación modificada de los datos. Busca entregar una visión unificada de los datos a aquellos usuarios o procesos que vayan a utilizarlos. Es un paso previo al proceso de ETL. Es una de las actividades englobadas dentro del proceso de ETL.

¿Cuál de los siguientes niveles de integración de datos es el que nos permite acceder a los datos mediante una visión unificada de los mismos?. Integración basada en aplicación. Integración virtual. Integración basada en middleware. Integración manual.

El interesado es la persona física o jurídica, autoridad pública, servicio u otro organismo al que se comuniquen datos personales, se trate o no de un tercero. Verdadero. Falso.

El responsable del tratamiento es la persona física o jurídica, autoridad pública, servicio u otro organismo que trate datos personales por cuenta del responsable del tratamiento. Verdadero. Falso.

El delegado de protección de datos es la persona física o jurídica, autoridad pública, servicio u organismo distinto del interesado, del responsable de tratamiento, del encargado de tratamiento y de las personas autorizadas para tratar los datos personales bajo la autoridad directa del responsable o del encargado. Verdadero. Falso.

¿Un encargado de tratamiento de datos puede subcontratar a su vez el tratamiento de datos?. No puede en ningún caso. Sí, pero únicamente contando con la autorización previa y por escrito del responsable y mediante contrato con el interesado de modo que éste sepa que la ley se está cumpliendo. Sí, en cualquier caso. Sí, pero únicamente contando con la autorización previa y por escrito del responsable y mediante contrato con el subcontratado de modo que quede obligado a cumplir con sus mismas obligaciones.

¿Cuáles de las siguientes son medidas de seguridad que se deben cumplir al tratar datos personales?. El cifrado de los datos personales. La ocultación de fechas de nacimiento. La replicación en distintos clusters de toda la información. La capacidad de restaurar los datos personales de forma rápida.

¿Cuáles de los siguientes son aspectos que cubre el RGPD?. Transferencias internacionales de datos. Supervisión por las autoridades de protección de datos. Responsabilidades y sanciones. Tipos de impuestos aplicables. Códigos de conducta.

¿Cuál es la relación existente entre Gestión de Datos y Gobierno de Datos?. El Gobierno de Datos supervisa la Gestión de Datos. El Gobierno de Datos es supervisado por la Gestión de Datos. Son equivalentes. El Gobierno de Datos es una de las actividades contempladas dentro de la Gestión de Datos.

¿Cuáles de los siguientes están entre los objevos del Gobierno de Datos?. Asegurar la calidad de los datos. Evitar la necesidad de realizar procesamiento por lotes. Rebajar las necesidades de memoria RAM de los nodos del clúster. Asegurar la correcta gestión de metadatos. Asegurar que el ciclo de vida de los datos es claro y está controlado.

¿Cuáles de las siguientes son actividades en las que está presente el Gobierno de Datos?. Definición del modelo de metadatos, incluyendo tanto su descripción técnica como de negocio. Optimización del desempeño de los microprocesadores. Políticas y actividades para la documentación de los datos a lo largo de su ciclo de vida. Almacenamiento de datos, mecanismos de despliegue y administración de procesos de carga. Control de la temperatura alcanzada por los componentes de los nodos. Diseño y desarrollo de políticas, estándares, auditoría de la seguridad y cumplimiento regulatorio. Políticas y actividades para la documentación de los datos a lo largo de su ciclo de vida. Monitorización de las funciones de red.

El data owner es aquel que ejecuta la gestión de los datos. Verdadero. Falso.

Los custidios del dato atienden las peticiones de tecnología de los propietarios de los datos. Verdadero. Falso.

El CDO es responsable de implementar las políticas y procesos definidos. Verdadero. Falso.

Los data stewards son responsables de implementar las políticas y procesos definidos. Verdadero. Falso.

Denunciar Test