option
Cuestiones
ayuda
daypo
buscar.php

Modulo 10 Arquitectura de BigData

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Modulo 10 Arquitectura de BigData

Descripción:
Modulo 10 Arquitectura de BigData

Fecha de Creación: 2018/09/23

Categoría: Informática

Número Preguntas: 445

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

El término arquitectura Big Data se refiere a un entorno tecnológico compuesto por mecanismos Big Data y artefactos tecnológicos que sirven como plataforma para desarrollar soluciones Big Data. Verdadero. Falso.

Los patrones de diseño se aplican principalmente a través de la implementación de mecanismos Big Data. Verdadero. Falso.

Un patrón de diseño puede considerarse una solución de diseño comprobada para un problema de diseño común. Verdadero. Falso.

Asociaciones Patrón-Mecanismo, seleccione las sentencias correctas. Cada patrón está asociado con uno o más mecanismos que representan artefactos de tecnología Big Data comunes. Un mecanismo puede implementarse cuando se aplica el patrón, o puede verse directamente afectado por la aplicación del patrón. No todos los mecanismos asociados al patrón pueden ser necesarios para aplicar el patrón. A veces, uno o más mecanismos asociados pueden actuar como una alternativa a otros para la forma en que se aplica el patrón. La aplicación de un patrón puede no estar limitada al uso de sus mecanismos asociados. Otros componentes necesarios de los artefactos se explican como parte de las descripciones de los patrones. Tenga en cuenta también que los mecanismos no están asociados con patrones compuestos.

Los Mecanismos representan artefactos tecnológicos que se pueden combinar para formar arquitecturas de tecnología Big Data. Verdadero. Falso.

Los patrones de diseño representan soluciones comprobadas para problemas comunes. Verdadero. Falso.

Los patrones de diseño de Big Data se aplican (parcial o completamente) mediante la implementación de diferentes combinaciones de mecanismos Big Data. Verdadero. Falso.

Los patrones compuestos están compuestos por combinaciones específicas de patrones de miembros centrales (requeridos) y de extensión (opcionales). Verdadero. Falso.

La serialización es el proceso de transformar objetos o entidades de datos en bytes para la persistencia (en la memoria o en el disco) o el transporte de una máquina a otra a través de una red. El proceso de transformación opuesto de bytes a objetos o entidades de datos se denomina deserialización. Verdadero. Falso.

Un motor de serialización proporciona la capacidad de serializar y deserializar datos en una plataforma de Big Data. Verdadero. Falso.

En las plataformas de Big Data, la serialización es necesaria para establecer la comunicación entre máquinas mediante el intercambio de mensajes entre ellas y para datos persistentes. Verdadero. Falso.

Los bytes serializados pueden codificarse utilizando un formato binario o un formato de texto sin formato. Verdadero. Falso.

Los diferentes motores de serialización pueden proporcionar diferentes niveles de velocidad, extensibilidad e interoperabilidad. Verdadero. Falso.

un motor de serialización debería serializar / deserializar los datos a una velocidad rápida, estar dispuesto a cambios futuros y trabajar con una variedad de productores de datos y consumidores. Verdadero. Falso.

la serialización y deserialización de datos dentro y fuera se logra en formatos no propietarios, como: XML. JSON. BSON.

La compresión es el proceso de compactación de datos para reducir su tamaño, mientras que la descompresión es el proceso de datos no compactados para devolver los datos a su tamaño original. Verdadero. Falso.

Un motor de compresión proporciona la capacidad de comprimir y descomprimir datos en una plataforma de Big Data. Verdadero. Falso.

si los datos se almacenan sin comprimir, es posible que el espacio de almacenamiento disponible no se utilice de manera eficiente. Verdadero. Falso.

Con respecto a la compresión de datos seleccione las sentencias correctas: se puede usar para aumentar efectivamente la capacidad de almacenamiento del espacio de disco / memoria. ayuda a reducir el costo de almacenamiento.

Una plataforma Big Data es una combinación de múltiples recursos, que son provistos por diferentes mecanismos, cada uno con su propia configuración de seguridad única. Esto requiere desarrollar y mantener políticas de seguridad separadas e integración basada en API. Verdadero. Falso.

Con respecto al motor de seguridad seleccione las sentencias correctas. Actúa como un único punto de contacto para asegurar una plataforma de Big Data, proporcionando autenticación, autorización y funciones de auditoría de acceso. Actúa como guardia perimetral para el clúster con declaración y gestión de políticas de seguridad centralizadas, lo que permite la seguridad basada en roles. puede proporcionar un control detallado sobre cómo se accede a los datos desde una variedad de dispositivos de almacenamiento. ayuda a abordar las cuestiones de cumplimiento normativo. puede integrarse con los sistemas de gestión de identidad y acceso (IAM) de la empresa para habilitar el inicio de sesión único (SSO). proporcionan confidencialidad de los datos al habilitar el cifrado de datos para los datos en reposo (datos almacenados en un dispositivo de almacenamiento) y en movimiento (datos en tránsito a través de una red).

En una plataforma Big Data generalmente existe un entorno basado en clústeres que abarca desde unos pocos hasta un gran número de nodos. Verdadero. Falso.

Debido a la naturaleza multinodo de una plataforma Big Data, el aprovisionamiento, la configuración, la administración cotidiana y la supervisión de la salud de un clúster pueden ser una tarea desalentadora. Verdadero. Falso.

Con respecto al Cluster Manager seleccione las sentencias correctas: proporciona administración centralizada de un clúster. permite la implementación simplificada de los servicios principales sobre el clúster y su posterior supervisión.

Con respecto a MapReduce seleccione las sentencias correctas: un servicio. un motor de procesamiento.

con respecto a HDFS seleccione las sentencias correctas: un sistema de archivos distribuido. hace referencia a un proceso en segundo plano que ejecuta un mecanismo de Big Data.

En lugar de instalar, gestionar y supervisar servicios en cada nodo individualmente, un Cluster Manager proporciona un panel de control desde el que se pueden realizar centralmente estas tareas mediante simples clics de ratón a partir de la creación y ejecución de scripts de línea de comandos. Verdadero. Falso.

con respecto al cluster manager seleccione las sentencias correctas: proporciona una vista centralizada para monitorear la salud del clúster, el estado de los servicios y la utilización de los recursos. proporciona la configuración de varias alertas de nivel de nodo y de nivel de clúster. admite la implementación de nuevos servicios y la adición de nodos a un clúster. ayuda a reducir la sobrecarga de administración del clúster y hace que el diagnóstico sea más eficiente.

el cluster manager es más rápido y más fácil de descubrir por qué un servicio en particular responsable de un dispositivo de almacenamiento específico no se está ejecutando. Verdadero. Falso.

Con respecto al cluster manager: El efecto neto es una administración de clúster simplificada que minimiza el tiempo de inactividad del clúster y permite un análisis Big Data confiable y oportuno. Verdadero. Falso.

el cluster manager puede integrarse con otras herramientas de administración de infraestructura para proporcionar una vista unificada y la capacidad de realizar ajustes de rendimiento. Verdadero. Falso.

El gestor de gobierno de datos controla la gestión del ciclo de vida de los datos para garantizar que los datos de calidad estén disponibles de forma controlada, segura y oportuna. Verdadero. Falso.

El gestor de gobierno de datos ayuda a garantizar el cumplimiento normativo, la gestión de riesgos y el establecimiento de un linaje de datos. Verdadero. Falso.

En un entorno de Big Data, la característica de variedad junto con los escenarios de acceso desconocido pueden hacer que la gestión de datos sea una tarea desafiante. Verdadero. Falso.

Un gestor de gobierno de datos proporciona los medios para realizar varias tareas de gobierno de datos de forma centralizada. Verdadero. Falso.

Un gestor de gobierno de datos proporciona información sobre: donde reside el conjunto de datos. quién es el dueño / administrador de los datos. cuál es el formato de los datos. cuando el conjunto de datos fue adquirido. la fuente del conjunto de datos. fecha de vencimiento (si corresponde). información de esquema a través de la búsqueda de metadatos. un visor de linaje para establecer procedencia.

Un gestor de gobierno de datos admite la gestión del ciclo de vida de los datos a través de: la creación de políticas de retención de datos y desalojo. El establecimiento de políticas de seguridad que especifican las condiciones bajo las cuales se aplica el cifrado a un conjunto de datos o campos específicos de un conjunto de datos. La creación de políticas que establecen procedimientos de gestión de recuperación de desastres. proporciona información sobre el nivel de confianza y sensibilidad de los datos. Esta información incluye si los datos pueden almacenarse o no en un entorno de nube, así como cualquier limitación geográfica para la persistencia de los datos.

Para garantizar una mayor privacidad y confidencialidad de los datos dentro de un clúster, un gestor avanzado de gobierno de datos puede permitir un control más preciso sobre el almacenamiento de datos al especificar qué nodos pueden almacenar qué tipos de conjuntos de datos. Verdadero. Falso.

Con respecto al Motor de visualización: Para dar sentido a grandes cantidades de datos y para realizar análisis de datos exploratorios con el fin de encontrar ideas significativas, es importante interpretar correctamente los resultados obtenidos del análisis de datos. Esta interpretación depende de la capacidad de la plataforma Big Data para presentar datos en una forma visual. Verdadero. Falso.

Un motor de visualización traza gráficamente grandes cantidades de datos utilizando técnicas de visualización tradicionales, incluyendo el gráfico de barras, el gráfico de líneas y el gráfico circular, junto con las técnicas de visualización contemporáneas, Big Data, como mapas de calor, nubes de palabras, mapas y diagramas de chispa. Verdadero. Falso.

un motor de visualización puede permitir la creación de cuadros de mandos con funciones de filtrado, agregación, desglose y análisis hipotético, junto con la exportación de datos para vistas específicas. Verdadero. Falso.

Un motor de visualización mejora en gran medida la productividad del científico de datos y del analista de negocios. Verdadero. Falso.

Un motor de visualización proporciona una base para crear visualización de autoservicio para Business Intelligence (BI) y analítica. Verdadero. Falso.

Una plataforma de Big Data ofrece una gama de características, que incluyen la importación, el almacenamiento, el procesamiento y el análisis de datos, así como la creación de flujos de trabajo a través de diversos mecanismos. La interacción con cada uno de estos mecanismos utilizando sus interfaces predeterminadas puede ser difícil y lenta debido a la naturaleza no uniforme de los mecanismos. Es posible que se necesiten herramientas adicionales para facilitar esta interacción y dar sentido a los resultados del procesamiento. Portal de productividad.

Con respecto al Portal de Productividad: lleva más tiempo pasar de la importación de datos a la visualización de datos, lo que afecta aún más la productividad y el valor general atribuido a la exploración de Big Data y a la percepción (la característica de valor). Verdadero. Falso.

Un portal de productividad proporciona una interfaz gráfica de usuario (GUI) centralizada para realizar actividades clave que son parte del trabajo con Big Data, incluida la importación y exportación de datos, manipulación de almacenamiento de datos, ejecución de trabajos de procesamiento de datos, creación y ejecución de flujos de trabajo, consulta de datos, visualización esquemas y realización de búsquedas. Verdadero. Falso.

Un portal de productividad proporciona una interfaz unificada para configurar y administrar los mecanismos subyacentes del entorno de la solución Big Data, como establecer las configuraciones para el motor de seguridad. Verdadero. Falso.

un portal de productividad puede encapsular un motor de visualización para proporcionar vistas gráficas más significativas de los datos. Verdadero. Falso.

Al utilizar una interfaz de apuntar y hacer clic para trabajar con la plataforma Big Data, el portal de productividad facilita y agiliza la instalación de la plataforma Big Data con los datos requeridos, la gestión y el procesamiento de esos datos y la exportación de los resultados procesados. Verdadero. Falso.

Un Gestor de Datos puede proporcionar información sobre los niveles de confianza y sensibilidad de los datos, los campos que se enmascararán y los requisitos de cifrado específicos. Verdadero. Falso.

Un portal de Productividad puede encapsular un motor de visualización para proporcionar datos de vistas más significativos y gráficos. Verdadero. Falso.

En lugar de instalar, gestionar y supervisar servicios en cada nodo individualmente, el Administrador de clústeres proporciona un panel desde el que estas tareas se pueden realizar centralmente con simples clicks del Mouse en lugar de ejecutar scripts de línea de comandos. Verdadero. Falso.

Un Motor de Seguridad actúa como un único punto de contacto para asegurar una plataforma de Big Data, proporcionando autenticación, autorización y funciones de auditoria de acceso. Verdadero. Falso.

Un Motor de Visualización proporciona la capacidad de trazar gráficamente grandes cantidades de datos utilizando técnicas de visualización tradicionales, como el gráfico de barras, el gráfico de líneas y el gráfico circular, junto con las técnicas de visualización contemporáneas, Big Data, como mapas de calor, nube de palabras, mapas y diagramas de chispa. Verdadero. Falso.

Un portal de Productividad proporciona una interfaz de usuario centralizada para realizar actividades clave como parte del trabajo con Big Data, incluida la importación y exportación de datos, manipulación del almacenamiento de datos, ejecución de trabajos de procesamiento de datos, creación y ejecución de flujos de trabajo, consulta de datos, ver esquemas y realizar búsquedas. Verdadero. Falso.

Un Gestor de Clústers Cluster manager también ayuda a reducir los gastos generales de administración del clúster y hace que los diagnósticos, como averiguar por qué un servicio particular responsable de un dispositivo de almacenamiento específico no se está ejecutando, sean más fáciles y más rápidos de realizar. Verdadero. Falso.

Para garantizar una mayor confidencialidad de los datos dentro de un clúster, un Gestor de Gobierno de Datos puede habilitar aún más el control detallado sobre el almacenamiento de datos al especificar qué nodos pueden almacenar qué tipos de conjuntos de datos. Verdadero. Falso.

Son los tipos fundamentales de arquitecturas de procesamiento de datos: Arquitectura todo compartido. Arquitectura nada compartido.

La arquitectura de todo-compartido es una arquitectura de nivel de máquina de múltiples procesadores (CPU) que comparten memoria y almacenamiento en disco. Verdadero. Falso.

un procesador multinúcleo, dentro del contexto de una arquitectura de todo compartido, cada núcleo representa un solo procesador. Verdadero. Falso.

La arquitectura de todo compartido se puede implementar de dos maneras diferentes: SMP y DSM. Verdadero. Falso.

Con respecto a Multiprocesamiento Simétrico (SMP): La memoria se combina y se comparte entre todos los procesadores, SMP también se conoce como acceso a la memoria uniforme (UMA). Verdadero. Falso.

Con respecto a Memoria compartida distribuida (DSM): Existen varios grupos de memoria. Por lo tanto, la memoria no se comparte entre los procesadores. DSM también se conoce como acceso a memoria no uniforme NUMA. Verdadero. Falso.

SMP y DSM se aplican a una máquina única. Verdadero. Falso.

La Arquitectura de todo compartido es adecuada para cargas de trabajo transaccionales donde los datos que se procesan son pequeños y se pueden almacenar en una sola máquina. Verdadero. Falso.

Con respecto a la Arquitectura todo compartido: Como todos los recursos (procesador, memoria y disco) existen dentro de los límites de una sola máquina, el intercambio de datos solo ocurre dentro de esos límites. Por lo tanto, los datos transaccionales se pueden procesar rápidamente sin ninguna latencia utilizando un marco de programación simple. Como todos los recursos están estrechamente unidos en una arquitectura de todo compartido, la escalabilidad se convierte en un problema. Verdadero. Falso.

Con una arquitectura de todo compartido, para hacer frente a las mayores demandas de recursos para CPU y / o espacio en disco, la única opción es escalar reemplazando las máquinas existentes con máquinas de gama alta (costosas). Ampliar permite más procesamiento y ofrece mayor capacidad de almacenamiento. Verdadero. Falso.

cualquier tipo de arquitectura que dependa de escalamiento vertical tiene un límite superior debido a limitaciones de tecnología, como un número máximo de limitaciones de procesador o memoria. Verdadero. Falso.

El escalado es un requisito de procesamiento de Big Data que no es compatible con la arquitectura de todo compartido. Verdadero. Falso.

Una arquitectura nada compartido es un tipo de arquitectura distribuida que consiste en máquinas totalmente independientes. Cada máquina tiene sus propios procesadores, memoria, discos y sistema operativo y están conectados en red como un solo sistema. Verdadero. Falso.

La arquitectura de nada compartido es autosuficiente y no tiene recursos compartidos. Por esta razón, es una arquitectura altamente escalable que brinda soporte de escalamiento horizontal, lo que significa que se pueden agregar máquinas adicionales según sea necesario. Verdadero. Falso.

con respecto a La arquitectura de nada compartido: aunque es altamente escalable, este enfoque arquitectónico requiere el uso de marcos de programación complejos distribuidos. Verdadero. Falso.

Las técnicas habituales de procesamiento de datos empleadas en una arquitectura de uso no compartido incluyen fragmentación y replicación de datos donde los grandes conjuntos de datos se dividen y replican en varias máquinas. Verdadero. Falso.

Con respecto a la Arquitectura nada compartido: con el procesamiento de Big Data, los recursos de procesamiento y datos pueden ubicarse conjuntamente, reduciendo así la frecuencia y el volumen de transferencia de datos. Verdadero. Falso.

Con respecto a Arquitectura nada compartido: MPP: El procesamiento masivo en paralelo (MPP) es una arquitectura que se puede aplicar al procesamiento de consultas distribuidas en una arquitectura de nada compartido. Verdadero. Falso.

MPP se emplea principalmente en bases de datos de alta gama y dispositivos de bases de datos como IBM Netezza y Teradata. Verdadero. Falso.

Las bases de datos basadas en arquitectura MPP generalmente utilizan hardware de alta gama y una interconexión propietaria para vincular máquinas con el fin de habilitar el rendimiento requerido para analítica de alta velocidad. Verdadero. Falso.

Aunque son costosas, las bases de datos de MPP brindan cumplimiento de atomicidad, consistencia, aislamiento y durabilidad (ACID) al mismo tiempo que admiten la consulta de datos mediante el lenguaje de consulta estructurado (SQL). Verdadero. Falso.

Las bases de datos de MPP generalmente requieren que los datos existan en un formato estructurado al momento de cargar los datos en la base de datos. En otras palabras, un esquema necesita existir. Verdadero. Falso.

El conocimiento previo sobre la estructura de los datos hace que las bases de datos MPP sean muy rápidas para consultar grandes conjuntos de datos. Verdadero. Falso.

El requisito de formato estructurado introduce la necesidad de realizar un paso adicional de ETL antes de que los datos no estructurados puedan cargarse en la base de datos de MPP. Verdadero. Falso.

MapReduce (un motor de procesamiento por lotes) es un marco de procesamiento de datos distribuidos, que requiere una arquitectura de nada compartido. Verdadero. Falso.

MapReduce hace uso de hardware básico donde las máquinas generalmente se conectan en red utilizando tecnología de red de área local (LAN). Verdadero. Falso.

Las plataformas de procesamiento basadas en MapReduce, como Hadoop, no requieren el conocimiento de la estructura de datos al tiempo de carga, por lo tanto, MapReduce es ideal para procesar datos semiestructurados y no estructurados en apoyo de la ejecución de consultas analíticas. Verdadero. Falso.

sin ningún conocimiento de la estructura de datos, el procesamiento de datos es más lento con MapReduce en comparación con MPP debido a la imposibilidad de optimizar la ejecución de consultas. Verdadero. Falso.

las bases de datos de MPP como MapReduce hacen uso de la arquitectura de nada compartido y se basan en el principio de divide y conquistaras. Verdadero. Falso.

los sistemas MPP como MapReduce se pueden usar para el procesamiento Big Data. Sin embargo, desde el punto de vista de la escalabilidad, los sistemas MPP, en comparación con MapReduce, brindan soporte limitado para la ampliación, ya que generalmente están basados en dispositivos. Verdadero. Falso.

Los sistemas MPP son una opción más costosa que MapReduce, que aprovecha el hardware básico de bajo costo. Verdadero. Falso.

Las bases de datos de MPP admiten SQL. Verdadero. Falso.

MapReduce, un marco para procesar datos, requiere interacción a través de un lenguaje de programación de propósito general, como java. Verdadero. Falso.

Arquitectura nada compartido: tipo de arquitectura distribuida consiste en máquinas totalmente independientes conectadas en red como un único sistema. Verdadero. Falso.

SMP: tipo de arquitectura a nivel de máquina consiste en un conjunto de memoria compartida entre todos los procesadores. Verdadero. Falso.

Arquitectura todo compartido: tipo de arquitectura a nivel de máquina consiste en múltiples procesadores (CPU) compartiendo memoria y almacenamiento en disco. Verdadero. Falso.

DSM: tipo de arquitectura a nivel de máquina consiste en múltiples grupos de memoria que no se comparten entre todos los procesadores. Verdadero. Falso.

MPP: enfoque de procesamiento de consultas compatible con ACID se basa en la arquitectura de nada compartido. Verdadero. Falso.

Al usar MPP, antes de que los datos puedan cargarse en la base de datos, ¿qué operación debe aplicarse para garantizar que los datos estén en un formato estructurado?. ETL.

Arquitectura nada compartido: tipo de arquitectura generalmente implica grandes transferencias de datos entre máquinas ya que los datos asignados para el procesamiento pueden no existir en la misma máquina. Verdadero. Falso.

la infraestructura tecnológica representa el entorno subyacente que permite el diseño y la ejecución de un sistema de software. Verdadero. Falso.

Con respecto a Infraestructura Tecnológica: incluye componentes de hardware, como servidores, servidores virtuales, estaciones de trabajo, switches y clústeres, y componentes de software, como los sistemas operativos, los sistemas de archivos, las bases de datos y los tiempos de ejecución del lenguaje. Verdadero. Falso.

Una infraestructura tecnológica define las capacidades generales de procesamiento y almacenamiento de una empresa de TI. Además, una infraestructura tecnológica establece las restricciones dentro de las cuales se debe diseñar la arquitectura tecnológica. Verdadero. Falso.

la arquitectura tecnológica representa "el diseño fundamental de un sistema de software". Verdadero. Falso.

la Arquitectura Tecnológica: incluye componentes, como librerias, ejecutables, conectores, herramientas de línea de comandos / GUI y frameworks de software. Verdadero. Falso.

Se puede definir arquitectura tecnológica para diferentes niveles de artefactos de software que van desde una única librería de software hasta el conjunto de sistemas de software en toda la empresa de TI. Verdadero. Falso.

Tipos de arquitectura tradicional. Arquitectura de componentes. Arquitectura de aplicaciones. Arquitectura de integración. Arquitectura de tecnología empresarial.

Una arquitectura de componentes representa el diseño de un único programa de software, que representa un módulo, está estructurado dentro de un entorno de software distribuido / modular". Verdadero. Falso.

Una arquitectura de aplicación representa el diseño y la estructura de un sistema de software completo que puede desplegarse por sí mismo. Verdadero. Falso.

En un entorno de software modular / distribuido, una arquitectura de aplicación generalmente consiste en una cantidad de módulos y algo de almacenamiento. Verdadero. Falso.

la arquitectura de aplicación (aparte de otras especificaciones) generalmente incluye las especificaciones de las arquitecturas de componentes múltiples. Verdadero. Falso.

Una arquitectura de integración describe el diseño utilizado para integrar dos o más aplicaciones, y abarca además las arquitecturas de tecnología de las aplicaciones integradas. Verdadero. Falso.

Arquitectura de integración: implica conectores, lógica de intercambio de información y cualquier componente desarrollado a medida. Verdadero. Falso.

Una arquitectura de integración documentada proporciona un punto de referencia para garantizar la integración continua frente a los cambios en las arquitecturas de las aplicaciones integradas. Verdadero. Falso.

Una arquitectura de tecnología empresarial representa un paisaje de tecnología empresarial, incluidas sus respectivas arquitecturas. Verdadero. Falso.

A diferencia de las otras tres arquitecturas tecnológicas, que pueden documentarse antes de su desarrollo, la arquitectura empresarial puede documentarse generalmente una vez que otras arquitecturas están en su lugar. Verdadero. Falso.

El alcance de la arquitectura de tecnología abarca las arquitecturas de componentes, aplicaciones e integración. Verdadero. Falso.

Tipos de Arquitectura Big Data: Arquitectura de Mecanismo Big Data. Arquitectura de Solución Big Data. Arquitectura de integración de Big Data. Arquitectura de Plataforma Big Data.

La arquitectura de mecanismo de Big Data se refiere a la arquitectura de tecnología de un "mecanismo de Big Data individual que proporciona una funcionalidad específica, como un motor de transferencia de datos o un motor de consulta". Verdadero. Falso.

Un mecanismo de Big Data generalmente es un paquete de software completo que puede existir solo, pero que solo se da cuenta de todo su potencial cuando se combina con otros mecanismos de Big Data. Verdadero. Falso.

La arquitectura de solución Big Data representa un entorno de solución diseñado para abordar un problema de Big Data específico, como el análisis de datos de sensor en tiempo real o un sistema de recomendación. Verdadero. Falso.

Una solución de Big Data generalmente es un proceso de Big Data que comprende etapas múltiples donde el procesamiento complejo se divide en pasos modulares llamados tareas. Verdadero. Falso.

Una solución de Big Data que se integra con otras partes de un ecosistema empresarial brinda el máximo valor porque los datos que contiene o los resultados analíticos que genera pueden ser utilizados por otros sistemas empresariales tradicionales, como el almacén de datos empresarial o un sistema ERP. Verdadero. Falso.

La arquitectura de integración Big Data, incluye: la arquitectura de la solución Big Data, cualquier sistema empresarial conectado y componentes de integración. Verdadero. Falso.

Con respecto a una solución de Big Data, generalmente hay dos puntos de integración: uno para importar los datos sin procesar que deben procesarse y el otro para exportar los resultados o, en algunos casos, exportar los datos limpios ingeridos. Verdadero. Falso.

Con respecto a la Arquitectura de integración Big Data: emplean múltiples motores o conectores de transferencia, como ODBC. Verdadero. Falso.

La arquitectura de plataforma Big Data es la arquitectura tecnológica subyacente que admite la ejecución de múltiples soluciones Big Data. Verdadero. Falso.

la existencia de un motor analítico además de un motor de consulta indica que la empresa emplea algún nivel de analítica predictiva. Verdadero. Falso.

Una arquitectura de tecnología empresarial documenta todo el panorama tecnológico de una empresa. Verdadero. Falso.

Una arquitectura de aplicación describe la estructura de un sistema de software completo que puede implementarse por sí mismo. Verdadero. Falso.

una infraestructura tecnológica define las capacidades generales de procesamiento y almacenamiento de una empresa de TI, y establece las restricciones dentro de las cuales debe diseñarse la arquitectura de tecnología. Verdadero. Falso.

Una arquitectura de componentes describe cómo un único programa de software, que representa un módulo, está estructurado dentro de un entorno de software distribuido / modular. Verdadero. Falso.

A diferencia de otras arquitecturas tecnológicas que se pueden documentar antes de su desarrollo, la arquitectura empresarial solo se puede documentar una vez que el resto de las arquitecturas estén en su lugar. Verdadero. Falso.

La arquitectura de integración de Big Data incluye la arquitectura de la solución Big Data, los sistemas empresariales tradicionales y los componentes de integración. Verdadero. Falso.

La arquitectura de tecnología de un mecanismo de Big Data individual que proporciona una funcionalidad específica se conoce como arquitectura de mecanismo de Big Data. Verdadero. Falso.

La arquitectura plataforma de Big Data es la arquitectura tecnológica subyacente que admite la ejecución de múltiples soluciones Big Data. Verdadero. Falso.

Una solución de Big Data representa un entorno de solución creado para abordar un problema de Big Data específico. Verdadero. Falso.

Una arquitectura de plataforma de Big Data también se puede considerar un superconjunto de la arquitectura de datos tradicional, ya que el primero es el desarrollo de la arquitectura de datos para datos en bruto y Arquitectura. Verdadero. Falso.

Una arquitectura lógica representa los componentes de alto nivel de un sistema, su funcionalidad y cómo están conectados entre sí. Verdadero. Falso.

la misma arquitectura lógica se puede implementar físicamente de varias maneras. Verdadero. Falso.

La arquitectura lógica analítica de Big Data define los componentes lógicos necesarios para la implementación de una solución analítica de Big Data. Verdadero. Falso.

La arquitectura lógica analítica de Big Data consta de las siguientes diez capas. Verdadero. Falso.

La arquitectura lógica analítica de Big Data Capas Horizontales: capa de fuentes de datos. capa de adquisición de datos. capa de almacenamiento. capa de procesamiento. capa de análisis. capa de visualización. capa de utilización.

La arquitectura lógica analítica de Big Data Capas Verticales: capa de gestión. capa de seguridad. capa de gobierno.

La capa de fuentes de datos comprende todas las fuentes de datos que se han identificado durante la etapa de Identificación de datos del ciclo de vida del análisis de Big Data. Verdadero. Falso.

Con respecto a la Capa de fuentes de datos: los datos se producen en una fuente, como una API, una base de datos o una ubicación web, que es parte de un sistema separado. Verdadero. Falso.

Las fuentes de datos se clasifican de la siguiente manera: Tipo de acceso: ¿tiene acceso de datos abierto o restringido?. Método de acceso: ¿los datos están disponibles a través de una conexión simple o necesitan extraerse de un recurso web?. Coste de acceso: ¿los datos están disponibles libremente o hay un costo asociado con su adquisición, como en un mercado de datos?. Tipo de conjunto de datos: el formato subyacente de los datos producidos por la fuente (estructurado, no estructurado o semiestructurado). Velocidad de producción de datos: la velocidad a la que la fuente de datos genera los datos. Ubicación del conjunto de datos: la ubicación desde la que estarán disponibles los datos, que puede ser interna o externa a la empresa, incluida la nube.

La capa de adquisición de datos proporciona funcionalidad para adquirir datos de las fuentes en la capa de fuentes de datos. verdadero. Falso.

Para las fuentes de datos estructurados internos, se puede usar un motor de transferencia de datos relacionales. Para fuentes de datos semiestructuradas y no estructuradas, ya sean internas o externas, se puede utilizar un evento de motor de transferencia de datos de archivos. En el caso del procesamiento en tiempo real de datos o análisis de flujo, generalmente se usa un motor de transferencia de datos de evento. Verdadero. Falso.

Cuando se utiliza un motor de transferencia de datos de evento, los datos ingeridos pueden ser filtrados generalmente en vuelo mediante la eliminación de datos no deseados o corruptos. Verdadero. Falso.

en el caso de un motor de transferencia de datos relacionales, los datos corruptos o deseados pueden filtrarse en la fuente mediante la especificación de un criterio de selección restringido. Verdadero. Falso.

en el caso de un motor de transferencia de archivos, el archivo debe ser ingerido antes de que pueda ser examinado para el proceso de filtración. Verdadero. Falso.

Con respecto a Capa de adquisición de datos: esta capa también incluye mecanismos para agregar automáticamente metadatos a los datos ingeridos para garantizar la calidad y mantener la procedencia y la compresión de los datos. Verdadero. Falso.

La etapa de adquisición de datos y filtrado del ciclo de vida del análisis Big Data es compatible con la capa de adquisición de datos. Verdadero. Falso.

Con respecto a la Capa de Adquisición de Datos: Bajo ciertas circunstancias, la adquisición de datos puede requerir la integración de API, que además garantiza el desarrollo de librerías personalizadas (código) o desarrollo de servicios, que residen en la capa. Verdadero. Falso.

la capa de almacenamiento consiste en los dispositivos de almacenamiento que almacenan los datos adquiridos y generalmente consiste en un sistema de archivos distribuidos y al menos una base de datos NoSQL. Verdadero. Falso.

en el caso del procesamiento de datos en tiempo real, la capa de almacenamiento también consiste en tecnologías de almacenamiento en memoria que permiten el análisis rápido de datos de alta velocidad a medida que llegan. Verdadero. Falso.

Con respecto a la Capa de Almacenamiento: los datos ingeridos se almacenan primero en el sistema de archivos distribuidos en una forma comprimida (además de la eliminación de datos no deseados y corruptos). Verdadero. Falso.

un sistema de archivos distribuidos proporciona la forma más económica de almacenar grandes volúmenes de datos. Verdadero. Falso.

Desde el sistema de archivos distribuidos, los datos se pueden preprocesar y poner en una forma más estructurada utilizando un dispositivo de almacenamiento NoSQL adecuado. Verdadero. Falso.

Con respecto a la capa de almacenamiento: Se requiere una forma estructurada (pero no necesariamente relacional) porque el análisis exploratorio de datos y la derivación y aplicación de modelos estadísticos y de aprendizaje automático requieren datos a los que se pueda acceder de forma estandarizada. Verdadero. Falso.

Aunque la conversión a una forma estructurada puede no parecer obvia en el caso de la aplicación de técnicas de análisis semántico, incluso técnicas como la analítica de texto primero convierten un documento en una forma estructurada antes de realizar la agrupación, clasificación o búsqueda. Verdadero. Falso.

Tipos de bases de datos NoSQL. clave-valor. familia de columnas. documento. gráfico NoSQL.

Una base de datos clave-valor proporciona almacenamiento sin formato donde el valor (los datos almacenados) puede ser de cualquier tipo, como un archivo o una imagen, y es accesible a través de una clave. Verdadero. Falso.

Una base de datos de documentos es capaz de almacenar cada registro en una forma jerárquica a la que se puede acceder mediante una clave, imitando un documento físico que puede tener múltiples secciones. Verdadero. Falso.

Una base de datos familia de columnas es como una base de datos relacional que almacena datos en filas y columnas. Sin embargo, en lugar de almacenar un valor por columna, se pueden almacenar múltiples pares clave-valor dentro de una sola columna. Verdadero. Falso.

Una base de datos gráfica almacena datos en forma de entidades conectadas donde cada registro se denomina nodo o vértice y la conexión entre las entidades se denomina borde, que puede ser unidireccional o bidireccional. Verdadero. Falso.

Antes de que los datos puedan almacenarse en una base de datos NoSQL, generalmente se lleva a cabo un ejercicio de modelado de datos. Verdadero. Falso.

En una base de datos NoSQL, el énfasis está más en la estructura del agregado individual, que es un registro independiente que no tiene relaciones con otros registros. Verdadero. Falso.

Para las bases de datos de clave-valor, se documenta la descripción y el tipo de la entidad que se está almacenando, como la imagen del producto y png. Verdadero. Falso.

Con respecto a bases de datos NoSQL: un archivo de registro, los nombres de campo, junto con la información del tipo de campo, también se graban. Verdadero. Falso.

Para las bases de datos de documentos, se documenta la estructura jerárquica de los diferentes documentos que se almacenan, junto con sus tipos. Verdadero. Falso.

Para las bases de datos de familia de columnas, se registran los nombres de campo de cada entidad y cualquier subcampo dentro de cada campo, junto con sus tipos de datos. Además, según los requisitos de análisis, es importante decidir entre almacenar datos como filas anchas o como columnas altas. Verdadero. Falso.

Para las bases de datos de gráficos, además de documentar los atributos y tipos de cada entidad, también se registran las posibles conexiones (los bordes) entre las entidades. Verdadero. Falso.

Con respecto a la Capa de almacenamiento: esta capa también alberga motores de serialización y compresión para almacenar datos en un formato apropiado y reducir el espacio de almacenamiento, respectivamente. Verdadero. Falso.

La capa de procesamiento proporciona una gama de capacidades de procesamiento que juegan un papel fundamental en la generación de valor a partir de una variedad de datos voluminosos que llegan a una alta velocidad en un período de tiempo significativo. Verdadero. Falso.

Con respecto a la Capa de procesamiento: Además del gestor de recursos y los motores de coordinación, aunque esta capa puede contener los mecanismos del motor de procesamiento tanto en lotes como en tiempo real, según el tipo de analítica realizada, solo una vez el motor de procesamiento, tal como el motor de proceso por lotes, puede estar presente. Verdadero. Falso.

Con respecto a la Capa de procesamiento: las capacidades de esta capa indican los tipos de soluciones de Big Data que se pueden construir. Verdadero. Falso.

Con respecto a la Capa de procesamiento, La funcionalidad proporcionada por esta capa se utiliza para admitir la entrega de las siguientes capacidades: Ingresos / egreso de datos: un motor de transferencia de datos puede utilizar un motor de procesamiento para transferir datos. Regateo de datos: actividades de preprocesamiento de datos, incluida la validación de datos, la limpieza y la unión. Análisis de datos: actividades analíticas, incluida la consulta, el análisis de datos exploratorios y la generación de modelos.

Con respecto a la Capa de procesamiento: Esta capa se puede dividir además en las capas de procesamiento por lotes y en tiempo real. Verdadero. Falso.

el procesamiento por lotes implica un motor de procesamiento por lotes que procesa lotes de grandes cantidades de datos almacenados en un dispositivo de almacenamiento basado en disco. Verdadero. Falso.

procesamiento por lotes: es la forma más común de procesamiento de datos empleada en un entorno de Big Data para las operaciones de disputa de datos, exploración de datos y desarrollo y ejecución de modelos estadísticos y de aprendizaje automático. Verdadero. Falso.

procesamiento por lotes: Debido a su naturaleza de procesamiento, los resultados de procesamiento no están disponibles instantáneamente. Verdadero. Falso.

procesamiento por lotes: Los datos se ingresan generalmente a través de archivos y / o motores de transferencia de datos relacionales, se guardan en el dispositivo de almacenamiento basado en disco y luego se procesan utilizando un motor de procesamiento por lotes. Verdadero. Falso.

El procesamiento en tiempo real involucra un motor de procesamiento en tiempo real que procesa continuamente la llegada de datos (flujos) o datos que llegan a intervalos (eventos) a medida que llegan. Verdadero. Falso.

procesamiento en tiempo real: En lugar de conservar los datos en un dispositivo de almacenamiento basado en disco, el procesamiento en tiempo real persiste en los datos en un dispositivo de almacenamiento basado en memoria. Verdadero. Falso.

procesamiento en tiempo real: Aunque proporciona resultados intangibles, la configuración de dicha capacidad no solo es compleja sino también costosa debido a la dependencia del almacenamiento basado en la memoria (la memoria es más costosa que el disco). Verdadero. Falso.

procesamiento en tiempo real: Los datos se ingresan a través de una transferencia de datos de eventos, se guardan en un dispositivo de almacenamiento basado en memoria y luego se procesan utilizando un motor de procesamiento en tiempo real. Verdadero. Falso.

procesamiento en tiempo real: aunque el almacenamiento en memoria se usa inicialmente, los datos también se guardan en el almacenamiento basado en disco para un análisis profundo o uso futuro. Verdadero. Falso.

Para proporcionar el máximo valor , una capa de procesamiento en tiempo real debe proporcionar baja latencia, alto rendimiento, alta disponibilidad y alta tolerancia a fallas. Verdadero. Falso.

Al procesar datos en tiempo real, generalmente hay estrategias para procesar datos: Procesamiento de Flujo de Eventos (ESP). Procesamiento Complejo de Eventos (CEP).

El procesamiento en tiempo real generalmente se refiere al procesamiento de datos basados en eventos. Verdadero. Falso.

procesamiento en tiempo real: la ejecución de consultas de datos, que requiere una respuesta instantánea, sobre datos ya persistentes adquiridos mediante la importación por lotes también cae en el dominio del procesamiento en tiempo real. Verdadero. Falso.

Procesamiento de flujo de eventos (ESP): la corriente entrante de datos o eventos, que generalmente proviene de una sola fuente y está ordenada por tiempo, se analiza continuamente mediante la aplicación de algoritmos o la ejecución de consultas. Verdadero. Falso.

En casos de uso simple: ESP implica la limpieza de datos, la transformación y la generación de algunas estadísticas, como suma, media, mínimo o máximo, que luego se alimentan a un panel de Control. Verdadero. Falso.

Con respecto a ESP, En casos de uso complejo: se pueden ejecutar algoritmos estadísticos o de aprendizaje automático con tiempos de ejecución rápidos para detectar un patrón o una anomalía o para predecir el estado futuro. Verdadero. Falso.

procesamiento de flujo de eventos (ESP): También se pueden incorporar otros conjuntos de datos residentes en memoria para realizar analítica que proporcionan resultados sensibles al contexto. Verdadero. Falso.

procesamiento de flujo de eventos: Aunque los resultados de procesamiento se pueden utilizar directamente (un panel de control o una aplicación), pueden actuar como desencadenantes para otra aplicación que realice una acción preconfigurada, como realizar ajustes computacionales o realizar análisis adicionales. Verdadero. Falso.

el procesamiento del flujo de eventos se enfoca más en la velocidad que en la complejidad. La operación necesita ser ejecutada de una manera comparativamente simple para ayudar a una ejecución más rápida. Además, es más fácil de configurar que el CEP pero proporciona menos valor. Verdadero. Falso.

procesamiento de eventos complejos (CEP): múltiples flujos o eventos que generalmente se originan en fuentes dispares y se extienden a lo largo de diferentes intervalos de tiempo, son analizados simultáneamente para encontrar correlaciones, patrones, comportamiento anómalo y condiciones de error. Verdadero. Falso.

procesamiento de eventos complejos (CEP): Al igual que ESP, el objetivo es ayudar a tomar decisiones de tiempo de recuperación ya sea de forma automática o mediante intervención humana en el momento en que se reciben los datos. Verdadero. Falso.

Cuando se compara con ESP, CEP proporciona más valor pero es más difícil de configurar, ya que implica conectarse con múltiples fuentes de datos y ejecutar lógica compleja. Verdadero. Falso.

procesamiento de eventos complejos (CEP): Se aplican algoritmos complejos de correlación e identificación de patrones, y la lógica comercial y los KPI también se tienen en cuenta para descubrir patrones de eventos complejos transversales. Verdadero. Falso.

CEP se puede considerar un superconjunto de ESP. A menudo, ambos enfoques se pueden implementar juntos de tal manera que los eventos sintéticos generados como el resultado de ESP se puedan ingresar para el CEP. Verdadero. Falso.

CEP proporciona una rica analítica. Sin embargo, debido a su naturaleza compleja, el tiempo de penetración puede verse afectado negativamente. Verdadero. Falso.

La capa de análisis proporciona una interfaz fácil de interactuar para analizar datos en la capa de almacenamiento y consiste en la consulta y los motores analíticos. Verdadero. Falso.

Dependiendo del tipo de análisis que se realice, esta capa solo puede consistir en un motor de consulta, como en el caso de la analítica descriptiva y de diagnóstico. Sin embargo, cuando se realiza una analítica profunda, como en el caso de la analítica predictiva y prescriptiva, también existe un motor analítico. Verdadero. Falso.

Capa de análisis: Esta es la capa que convierte grandes cantidades de datos en información sobre los que se puede actuar. Verdadero. Falso.

Capa de análisis: absorbe la capa de procesamiento con el objetivo de facilitar el análisis de datos e incrustar aún más el alcance de la Plataforma de Big Data a los científicos de datos y analíticos de datos. Verdadero. Falso.

Capa de análisis: Las actividades respaldadas por esta capa incluyen: limpieza de datos, extracción de datos, análisis de datos exploratorios, preparación de datos para el desarrollo de modelos de aprendizaje estadístico / automático, desarrollo de modelos, evaluación de modelos y ejecución de modelos. Verdadero. Falso.

Capa de análisis: La funcionalidad provista por esta capa corresponde a la etapa de análisis de datos del análisis de vida de Big Data. Verdadero. Falso.

En una implementación real, la capa de análisis consiste en librerías de código abierto, inteligencia de Negocios (BI) o software analítico. Verdadero. Falso.

Capa de análisis: En el caso de librerías de código abierto, la interacción se basa principalmente en línea de comandos, con una interfaz gráfica de usuario (GUI) básica en algunos casos. Verdadero. Falso.

Capa de análisis: el software de terceros proporciona una GUI con funcionalidad de apuntar y hacer clic para el desarrollo del modelo de aprendizaje estadístico / automático y otras consultas de datos generales. Verdadero. Falso.

La capa de visualización hospeda el motor de visualización y proporciona la funcionalidad requerida por la etapa de visualización de datos del ciclo de vida de análisis de Big Data. Verdadero. Falso.

la capa de análisis también puede abarcar algún nivel de características de visualización de datos. Verdadero. Falso.

Capa de visualización: Esta capa también es fundamental para el concepto de BI de autoservicio, donde los usuarios empresariales pueden acceder directamente a datos empresariales sin solicitarlo primero al equipo de TI, pueden realizar los análisis necesarios y pueden crear los informes y paneles de control necesarios por sí mismos. Verdadero. Falso.

Capa de visualización: Para garantizar la longevidad de la plataforma analítica de Big Data, es necesario evaluar la compatibilidad del motor de visualización con respecto a los tipos de fuentes de datos a las que se puede conectar, ya que los resultados del análisis normalmente persisten en un dispositivo de almacenamiento, como Base de datos NoSQL. Verdadero. Falso.

La capa de utilización brinda la oportunidad de desarrollar una comprensión de los resultados del análisis en un generador gráfico. Verdadero. Falso.

Capa de utilización: si se obtiene el máximo beneficio de los resultados del análisis, deben incorporarse a la empresa de alguna forma. Verdadero. Falso.

La capa de utilización proporciona los resultados del análisis para que una empresa pueda aprovechar una oportunidad o mitigar un riesgo de forma proactiva. Verdadero. Falso.

Capa de utilización: Esta capa representa la funcionalidad requerida por la etapa de utilización o Resultados de análisis del ciclo de vida del análisis de Big Data. Verdadero. Falso.

Capa de utilización: La funcionalidad proporcionada por la capa de utilización variará en función del patrón de utilización de los resultados del análisis. Esto incluye la exportación de resultados al panel de control y a las aplicaciones de alerta (portal en línea), sistemas operacionales (CRM, SCM, ERP y sistemas de comercio electrónico) y procesos comerciales automatizados (procesos basados en el Lenguaje de ejecución de procesos empresariales). Verdadero. Falso.

Capa de utilización: se proporcionan productos de datos que permiten la generación de resultados computacionales, como la detección de datos atípicos, recomendaciones, predicciones o puntajes que pueden utilizarse para optimizar las operaciones comerciales. Verdadero. Falso.

Capa de utilización: uno o más motores de transferencia de datos están presentes que permiten la exportación de los resultados del análisis desde el (los) dispositivo (s) de almacenamiento a sistemas o aplicaciones descendentes. Verdadero. Falso.

Capa de utilización: Para automatizar todo el proceso de exportación, un motor de flujo de trabajo que reside en la capa de administración se usa en combinación con un motor de transferencia de datos. Verdadero. Falso.

Capa de utilización: permite el acceso automático a los resultados de análisis almacenados en los dispositivos de almacenamiento basados en disco o memoria. Verdadero. Falso.

La capa de gestión está encargada de la supervisión automática y continua, así como del mantenimiento de una plataforma de Big Data para garantizar su integridad operativa. v. f.

La funcionalidad admitida por esta capa se relaciona con los requisitos operacionales de una plataforma Big Data, incluida la configuración del clúster, la expansión del clúster, las actualizaciones del sistema y del software en todo el clúster y el diagnóstico de fallas y monitoreo de estado del clúster. v. f.

La capa de gestión logra el aprovisionamiento de la funcionalidad requerida alojando un gestor de clúster (cluster manager). v. f.

el administrador del clúster recopila métricas de varios componentes que se ejecutan dentro de diferentes capas, como las capas de almacenamiento, procesamiento y análisis, y muestra su estado actual usando un panel de control. v. f.

Para el mantenimiento del clúster, como agregar un nuevo nodo al clúster, desconectar un nodo o instalar un nuevo servicio y tareas de administración de desastres, se utiliza una interfaz gráfica de usuario (GUI). v. f.

Capa de gestión: se debe elegir un administrador de clúster interoperable y externo. v. f.

Capa de gestión: Además de la gestión operativa, esta capa también proporciona funciones de procesamiento de datos y gestión de datos a través del motor de flujo de trabajo y los mecanismos del portal de productividad. v. f.

La capa de seguridad es responsable de proteger varios componentes que operan dentro de otras capas de la plataforma Big Data. v. f.

Esta capa proporciona funcionalidad para la autenticación, autorización y confidencialidad mediante el cifrado de datos en reposo y en movimiento. v. f.

la capa de seguridad alberga el motor de seguridad. Las características de seguridad proporcionadas por esta capa se usan principalmente para asegurar la capa de adquisición de datos, capa de almacenamiento, capa de procesamiento y capa de análisis. v. f.

Capa de seguridad: Esta capa proporciona funcionalidad para la creación, aplicación y administración de políticas de seguridad, así como para monitorear el acceso a los recursos a través de la auditoría. v. f.

Capa de seguridad: Uno de los principales objetivos de esta capa es garantizar que solo el usuario previsto con el nivel de acceso correcto pueda acceder al recurso solicitado, como el dispositivo de almacenamiento o el motor de procesamiento. v. f.

La capa de gobierno proporciona una funcionalidad que garantiza que el almacenamiento y el acceso a los datos dentro de la plataforma Big Data se administren a lo largo de toda la vida útil de los datos. v. f.

Capa de gobierno: Ayuda a definir políticas para: adquirir datos de fuentes internas y externas, qué campos necesitan ser anonimizados / eliminados / encriptados, qué constituye información de identificación personal, cómo deben persistir los datos procesados, la publicación de los resultados analíticos y cuánto deben durar los datos almacenados. Verdadero. Falso.

capa de gobierno: puede incluir políticas para: Qué tipo de encriptación se debe usar para datos en reposo y en movimiento La integración de nuevos componentes o herramientas dentro de la plataforma Big Data La adquisición de nuevos recursos de hardware La evolución de la plataforma Big Data. v. f.

La capa de almacenamiento comprende todas las fuentes de datos que se han identificado durante la etapa de identificación de datos del ciclo de vida del análisis Big Data. f. v.

La capa de fuentes de datos también incluye mecanismos para agregar automáticamente metadatos a los datos ingresados para garantizar la calidad y mantener la procedencia y la compresión de los datos. f. v.

Los datos que se han sometido a operaciones de transformación, validación y limpieza generalmente se almacenan en una de las bases de datos NoSQL. v. f.

Las capacidades de la capa de procesamiento indican los tipos de soluciones Big Data que se pueden construir. v. f.

La funcionalidad provista por la capa de procesamiento se utiliza para el ingreso / egreso de datos, la disputa de datos y las capacidades de análisis de datos. v. f.

El procesamiento de eventos complejos (CEP) implica el análisis continuo, a través de la aplicación de algoritmos o ejecución de consultas, de flujo entrante de datos o eventos que generalmente provienen de una única fuente y está ordenado por tiempo. f. v.

El procesamiento de eventos complejos (CEP) implica el análisis simultáneo de flujos o eventos, que generalmente se originan de fuentes dispares y se distribuyen en diferentes intervalos de tiempo, para encontrar correlaciones, patrones, comportamiento anómalo y condiciones de error. v. f.

La capa de análisis puede o no consistir en un motor analítico. v. f.

Solo la capa de visualización abarca características de visualización de datos. f. v.

La capa de visualización representa la funcionalidad requerida por la utilización de la etapa de resultados de análisis del ciclo de vida de análisis de Big Data. f. v.

La funcionalidad admitida por la capa de gestión se relaciona con los requisitos operacionales de una plataforma Big Data, incluida la configuración del clúster, la expansión del clúster, las actualizaciones del sistema y del software en todo el clúster y el diagnóstico de errores y estado del clúster. v. f.

Además del procesamiento de datos, la capa de procesamiento también brinda funcionalidad de administración de datos a través del motor de flujo de trabajo y los mecanismos del portal de productividad. f. v.

Uno de los principales objetivos de la capa de seguridad es garantizar que solo el usuario previsto con el nivel de acceso correcto pueda acceder al recurso de solicitud, como el dispositivo de almacenamiento o el motor de procesamiento. v. f.

La capa de gobierno puede proporcionar más funciones para gestionar otros aspectos de la plataforma de Big Data, como la creación de políticas. v. f.

En el procesamiento por lotes, en lugar de conservar los datos en un dispositivo de almacenamiento basado en disco, los datos se conservan en un dispositivo de almacenamiento basado en memoria. f. v.

Hadoop es una plataforma de Big Data. v. f.

Big Data Pipeline Patrón compuesto: Una Data Pipeline es un flujo de trabajo basado en datos, cada tarea involucra la entrada, operación y salida. v. f.

Cada Data Pipeline consta de múltiples tareas unidas de manera secuencial, de modo que el resultado de la tarea anterior se convierte en la entrada de la siguiente tarea. Tal combinación de tareas denota una sola etapa. v. f.

El patrón compuesto Big Data Pipeline representa un entorno de solución fundamental compuesto por un pipeline de procesamiento con ingreso de datos, almacenamiento, procesamiento y capacidades de egreso. v. f.

Un Big Data Pipeline puede ser muy simple, que consiste en una sola etapa, o muy complejo, que consta de múltiples etapas. v. f.

El conjunto completo de actividades, desde el ingreso de datos hasta el egreso de datos, se puede considerar como una conexión Big Data, que implica una variedad de operaciones desde la limpieza de datos hasta el cálculo estadístico. v. f.

Dependiendo de la funcionalidad requerida, una Big Data Pipeline representa una solución de Big Data parcial o completa para respaldar el análisis de Big Data. v. f.

El patrón compuesto de Big Data Pipeline está compuesto por los siguientes patrones principales: Poly Source Poly Storage Big Data Processing Environment Poly Sink Automated Dataset Execution. v. f.

El patrón compuesto de Poly Source representa una parte de un entorno de solución Big Data capaz de ingresar datos de gran volumen y alta velocidad a partir de una gama de fuentes de datos estructuradas, no estructuradas y semiestructuradas. v. f.

El patrón compuesto de Poly Source se compone de los siguientes patrones principales: Relational Source File-based Source Streaming Souce y los siguientes patrones opcionales: Fan-in Ingress Fan-out Ingress. v. f.

Relational Source Pattern Patrón de fuente relacional: los datos deben importarse desde bases de datos relacionales a la plataforma de Big Data para realizar diversas tareas de análisis de datos. Esto se puede habilitar mediante la aplicación del patrón de diseño Relational Source Pattern, que implica el uso de un motor de transferencia de datos relacionales. v. f.

El patrón de diseño Relational Source Pattern generalmente se aplica cuando los datos se deben extraer de sistemas OLTP internos, sistemas operativos, como sistemas CRM, ERP y SCM, o almacenes de datos. v. f.

El patrón Relational Source Pattern está asociado con el motor de transferencia de datos (relacional), motor de procesamiento, dispositivo de almacenamiento, motor de flujo de trabajo, portal de productividad, gestor de recursos, motor de coordinación. v. f.

Un portal de productividad normalmente encapsula un motor de transferencia de datos relacionales para la importación de señalar y hacer clic. v. f.

¿Cómo se pueden importar grandes cantidades de datos en una plataforma de Big Data desde una base de datos relacional?. Patron Relational Source.

Patrón Relational Source: se realiza una conexión directa desde la plataforma Big Data a la base de datos relacional back-end.

Patrón Relational Source: Se utiliza un motor de transferencia de datos que emplea diferentes conectores para conectarse directamente a diferentes bases de datos relacionales y ejecutar consultas SQL para seleccionar los datos que se deben importar. v. f.

Patrón Relational Source: agrega una capacidad a la plataforma Big Data que le permite establecer una conexión directa con la base de datos relacional a través de una interfaz de usuario. La interfaz de usuario se utiliza para establecer una conexión con la base de datos relacional y especificar qué datos se deben importar. Además de proporcionar una interfaz única y uniforme para conectarse con múltiples bases de datos, la aplicación de este patrón ahorra más tiempo al no tener que moverse entre dos sistemas. v. f.

Patrón Relational Source: Se introduce un componente de motor de transferencia de datos relacional dentro de la plataforma Big Data. Este componente utiliza internamente diferentes controladores y conectores para conectarse a diferentes bases de datos relacionales. El usuario especifica la cadena de conexión y la tabla desde la que los datos deben importar o una consulta SQL para personalizar la importación de datos. En algunos casos, para acelerar la importación de grandes cantidades de datos relacionales, el motor de transferencia de datos relacionales puede usar internamente un motor de procesamiento que paraleliza el proceso de importación mediante la ejecución de múltiples comandos SQL en paralelo. En función de la disponibilidad de conectores adecuados, este patrón también se puede aplicar para extraer datos de los almacenes de datos. v. f.

Patrón Relational Source: La aplicación de este patrón puede verse obstaculizada si un conector específico de la base de datos no está disponible. Sin embargo, normalmente se puede usar un conector genérico en tales circunstancias aunque proporcione velocidades de transferencia de datos por debajo de lo óptimo. v. f.

File-based Source Pattern Patrón de fuente basado en archivo: La adquisición de grandes cantidades de datos no estructurados de una variedad de fuentes de datos se puede automatizar a través de la aplicación de este patrón de diseño. v. f.

File-based Source Pattern Patrón de fuente basado en archivo: Además de los archivos de texto, los archivos de imagen, audio y video también pueden importarse a través de la aplicación de este patrón de diseño. v. f.

el File-based Source Pattern patrón Fuente basada en archivo también cubre la adquisición de datos semiestructurados, como datos formateados en XML o JSON. v. f.

¿Cómo se pueden importar grandes cantidades de datos no estructurados en una plataforma Big Data desde una variedad de diferentes fuentes de manera confiable?. File-based Source Fuente basada en archivo.

File-based Source Fuente basada en archivo: Los datos no estructurados se importan como archivos usando un sistema que busca automáticamente los archivos en las ubicaciones de origen configuradas. v. f.

File-based Source Pattern Patrón de fuente basado en archivo: Se usa un sistema basado en agentes que recopila archivos de la ubicación de origen y los reenvía a la plataforma de Big Data. v. f.

File-based Source Pattern Patrón de fuente basado en archivo: Mecanismos Motor de transferencia de datos (archivo), Dispositivo de almacenamiento, Motor de flujo de trabajo, Portal de productividad. v. f.

File-based Source Pattern Patrón de fuente basado en archivo: La copia manual de archivos se automatiza mediante la introducción de un sistema en la plataforma Big Data que se puede configurar de manera centralizada para buscar archivos en más de una ubicación. Tal como el sistema elimina las ineficiencias relacionadas con la copia ad-hoc de archivos y proporciona una interfaz central para configurar múltiples fuentes de datos. v. f.

el patrón Fuente basado en archivos solo es aplicable para el ingreso de datos por lotes. v. f.

este patrón se aplica normalmente junto con el patrón de Reducción de tamaño de datos para reducir el tamaño de los datos antes de que persistan los datos en el dispositivo de almacenamiento. File-based Source Pattern Patrón de fuente basado en archivo.

Streaming Souce Pattern Patrón de fuente de transmisión: Los datos que fluyen a altas velocidades deben capturarse instantáneamente para que puedan procesarse sin demora para obtener el máximo valor. v. f.

El patrón de fuente de transmisión Streaming Souce Pattern se implementa principalmente mediante el uso de un motor de transferencia de datos de eventos que se basa en un modelo de suscripción de publicación y además utiliza una cola para garantizar la disponibilidad y la fiabilidad. v. f.

El patrón de fuente de transmisión Streaming Souce Pattern: cubre tanto los datos humanos como los generados por la máquina, y trata exclusivamente de datos no estructurados y semiestructurados. v. f.

El patrón de diseño de almacenamiento de acceso en tiempo real a menudo se aplica en combinación con el patrón de diseño de fuente de transmisión Streaming Souce Pattern cuando los datos de alta velocidad deben analizarse en tiempo real. v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: Con base en el conjunto de características admitidas, un motor de transferencia de datos de eventos puede proporcionar algún nivel de limpieza de datos en vuelo y cálculo estadístico simple, como contar, mínimo, máximo, funcionalidad. v. f.

¿Cómo se pueden importar datos de alta velocidad de manera confiable en una plataforma Big Data en tiempo real?. Streaming Souce Pattern Patrón de fuente de transmisión.

Streaming Souce Pattern Patrón de fuente de transmisión: Un sistema de ingreso de datos en tiempo real es una configuración que recopila datos de origen (es) configurado (s) a medida que se produce y luego lo(s) reenvía continuamente al (a los) destino (s) configurado (s). v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: Se implementa un sistema de suscripción de publicación basado en un sistema de colas, capturando el flujo entrante de datos como eventos y luego reenviando estos eventos al (los) suscriptor (es). v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: Mecanismos Motor de transferencia de datos (evento), dispositivo de almacenamiento, portal de productividad. v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: En lugar de cotejar los eventos de datos individuales como un archivo, se implementa un sistema que captura los eventos a medida que son producidos por la fuente de datos y reenviados a la plataforma Big Data para su procesamiento instantáneo. Hacerlo permite la captura de datos en tiempo real sin incurrir en ningún retraso. v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: Se introduce un mecanismo de motor de transferencia de datos de evento con la plataforma Big Data. El motor de transferencia de datos de eventos está configurado para especificar las fuentes de datos y el destino. Una vez configurado, el motor de transferencia de datos de eventos automáticamente ingresa eventos a medida que son generados por la fuente. Una vez que se ingresa un evento, se publica en los suscriptores configurados. Generalmente, se utiliza una cola para almacenar los eventos, proporcionando tolerancia a fallas y escalabilidad. v. f.

Streaming Souce Pattern Patrón de fuente de transmisión: Este patrón generalmente se aplica junto con el almacenamiento de acceso en tiempo real y los patrones de procesamiento en tiempo real de alta velocidad. v. f.

El patrón compuesto de Poly Storage Patrón compuesto de almacenamiento Poly: representa una parte de una plataforma de Big Data capaz de almacenar datos de gran volumen, alta velocidad y alta variedad tanto para la transmisión como para el acceso aleatorio. v. f.

El patrón compuesto de Poly Storage Patrón compuesto de almacenamiento Poly: se compone de los siguientes patrones principales: Random Access Storage =Almacenamiento de acceso aleatorio Streaming Access Storage Realtime Access Storage=Almacenamiento de acceso en tiempo real Automatic Data Reaplication and Reconstruction=Replicación y reconstrucción automática de datos y por los siguientes patrones opcionales: Data Size Reduction=Reduccion de Tamaño de datos Cloud-Based Big Data Storage=Almacenamiento de Big Data basado en la nube Confidential Data Storage=Almacenamiento de datos confidenciales. v. f.

Para asegurarse de que los datos no se eliminen y los clientes aún puedan tener acceso si hay fallas de hardware, se puede aplicar el Patrón de Reconstrucción y Replicación Automática de Datos Automatic Data Replication and Reconstruction Pattern, que requiere el uso de un sistema de archivos distribuidos o de una base de datos NoSQL. v. f.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos: dichos dispositivos de almacenamiento implementan funcionalidades que crean automáticamente réplicas de un conjunto de datos y los copian en varias máquinas. v. f.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos: el dispositivo de almacenamiento detecta automáticamente cuándo una réplica no está disponible y recrea la réplica perdida de una de las réplicas disponibles. v. f.

El Patrón de Reconstrucción y Replicación Automática de Datos Automatic Data Replication and Reconstruction Pattern: también se aplica cuando se aplican los patrones de Descomposición del conjunto de datos y Fragmentación Automática de datos. v. f.

¿Cómo se pueden almacenar grandes cantidades de datos de manera tolerante a fallas de modo que los datos permanezcan disponibles frente a fallas de hardware?. Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos Se guardan varias copias de los datos y las copias perdidas debido a fallas de hardware se reconstruyen automáticamente. v. f.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos: Se utiliza una tecnología de almacenamiento de Big Data que implementa la replicación automática de datos de modo que el mismo conjunto de datos se almacena en más de un equipo y además proporciona la reconstrucción automática de copias perdidas de datos. v. f.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos: Mecanismos Dispositivo de almacenamiento (sistema de archivos distribuido / NoSQL). v. f.

El conjunto de datos que se debe almacenar se copia automáticamente en varias máquinas en un clúster. De esta forma, si una máquina deja de estar disponible, aún se puede acceder a los datos desde una máquina diferente. Además, se agrega funcionalmente para reconstruir automáticamente una copia de datos que se perdió debido a una falla de la máquina. Además de proporcionar tolerancia a fallas y alta disponibilidad, la aplicación del patrón de Replicación y Reconstrucción Automática de Datos Automatic Data Replication and Reconstruction Pattern brinda un mayor acceso a los datos de alto rendimiento y permite la ampliación. v. f.

Automatic Data Replication and Reconstruction Pattern Patrón automático de replicación y reconstrucción de datos: Se utiliza un dispositivo de almacenamiento que proporciona replicación automática de datos. Se puede utilizar un sistema de archivos distribuido o una base de datos NoSQL. Cuando se copia un conjunto de datos a dicho dispositivo de almacenamiento, el dispositivo de almacenamiento crea un número determinado de réplicas y las copia en diferentes máquinas. Normalmente, el número de réplicas se basa en una configuración que se puede personalizar. En caso de que una réplica no esté disponible debido a una falla de la máquina, el cliente que intenta acceder a los datos se dirige sin problemas a otra réplica cargada en una máquina diferente. Además, el dispositivo de almacenamiento detecta automáticamente cuándo una réplica no está disponible y la recrea en una máquina diferente para garantizar que siempre exista la cantidad de réplicas configuradas. v. f.

El patrón de Replicación y Reconstrucción de Datos automática Automatic Data Replication and Reconstruction Pattern: se aplica normalmente cada vez que se aplican los patrones de Descomposición del Conjunto de Datos y Desglose Automático de Datos para proporcionar tolerancia a fallas cuando un conjunto de datos se divide en partes más pequeñas y se disemina por el clúster. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: En un entorno de solución de Big Data donde se acumulan grandes cantidades de datos en un corto período de tiempo, el almacenamiento de datos en su forma original puede consumir rápidamente el almacenamiento disponible y puede requerir la instalación continua de dispositivos de almacenamiento para aumentar la capacidad de almacenamiento. Además, los requisitos para mantener todos los datos en línea y mantener el almacenamiento redundante para la tolerancia a fallas implican más espacio de almacenamiento. El patrón de Reducción de tamaño de datos se aplica en estas situaciones para reducir la huella de almacenamiento de datos, hacer que la transferencia de datos sea más rápida y disminuir el costo de almacenamiento de datos. v. f.

La aplicación del patrón de Reducción de tamaño de datos Data Size Reduction Pattern: requiere principalmente el uso de un motor de compresión. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: Aunque reduce la huella de almacenamiento, la aplicación de este patrón puede aumentar el tiempo de procesamiento en general, ya que los datos primero necesitan descomprimirse. Por lo tanto, se necesita emplear un motor de compresión eficiente. v. f.

¿Cómo se puede reducir el tamaño de los datos para permitir un almacenamiento más rentable y una mayor movilidad del movimiento de datos cuando se enfrentan a grandes cantidades de datos? Data Size Reduction Pattern Patrón de reducción de tamaño de datos. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: El espacio de almacenamiento de los datos brutos entrantes se reduce antes de que los datos se almacenen dentro de la plataforma Big Data. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: Los datos adquiridos se comprimen ya sea en vuelo en caso de transmisión de datos o después de adquirir el conjunto de datos en el caso de datos de lote mediante la aplicación de técnicas de compresión. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: Mecanismos Motor de compresión, dispositivo de almacenamiento, motor de transferencia de datos, motor de procesamiento, administrador de recursos, motor de coordinación. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: Se agrega un componente a la plataforma Big Data que reduce el tamaño de los datos antes de guardarlos en el dispositivo de almacenamiento. Esto no solo mantiene el costo de almacenamiento bajo, sino que además facilita un movimiento de datos más rápido dentro del clúster, lo que ayuda a lograr un procesamiento de datos más rápido. v. f.

Data Size Reduction Pattern Patrón de reducción de tamaño de datos: Se introduce un mecanismo de motor de compresión dentro de la plataforma Big Data que trabaja estrechamente con el motor de transferencia de datos para comprimir los datos a medida que se adquieren. En otras circunstancias, los datos ya adquiridos se pueden procesar para crear un conjunto de datos de tamaño reducido, o la salida del motor de procesamiento se puede configurar para comprimirse automáticamente. La aplicación de este patrón requiere un poco de atención ya que la aplicación incorrecta puede aumentar el tiempo total de procesamiento de datos y ser un desperdicio de recursos de procesamiento. Esto requiere el uso de un motor de compresión eficiente que requiere menos ciclos de procesamiento para comprimir una descompresión de datos, pero al mismo tiempo proporciona una reducción óptima en el tamaño del conjunto de datos. Un motor de compresión que proporciona más compresión requiere más potencia de cálculo y tiempo, y viceversa. v. f.

El patrón compuesto de almacenamiento de acceso aleatorio Random Access Storage: representa una parte de una plataforma de Big Data capaz de almacenar datos de alto volumen y alta variedad y hacer que esté disponible para acceso aleatorio. v. f.

Para habilitar la escritura y lectura aleatorias de datos, se puede aplicar el patrón de Almacenamiento de acceso aleatorio Random Access Storage. v. f.

Random Access Storage Almacenamiento de acceso aleatorio: el uso de un dispositivo de almacenamiento en forma de una base de datos NoSQL. v. f.

El patrón compuesto de almacenamiento de acceso aleatorio Random Access Storage está compuesto por los siguientes patrones requeridos: High Volume Binary Storage High Volume Tabular Storage High Volume Linked Storage High Volume Hierarchical Storage Automatic Data Sharding. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: El almacenamiento de datos no estructurados generalmente involucra escenarios de acceso donde no se realizan actualizaciones parciales de datos y siempre se accede a elementos de datos (registros) específicos en su totalidad, como una imagen o datos de sesión de usuario. Dichos datos se pueden tratar como BLOB a los que solo se puede acceder a través de una clave única. para proporcionar un almacenamiento eficiente de dichos datos, el patrón de almacenamiento binario de alto volumen se puede aplicar para estipular el uso de un dispositivo de almacenamiento en forma de una base de datos NoSQL de clave-valor que sirva para operaciones de insertar, seleccionar y eliminar . v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Para lograr acceso de datos de baja latencia, se puede usar un dispositivo de almacenamiento basado en memoria.Sin embargo, esto aumenta el costo de configurar la plataforma Big Data. v. f.

¿Cómo se puede almacenar una variedad de datos no estructurados de una manera escalable, de modo que se pueda acceder aleatoriamente basándose en un identificador único? High Volume Binary Storage Almacenamiento binario de alto volumen. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Los datos no estructurados se almacenan en base a una técnica de almacenamiento simple basada en clústeres que implementa el acceso a las unidades de datos a través de las claves. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Se utiliza una tecnología de almacenamiento Big Data basada en NoSQL que trata a cada unidad de datos como datos binarios y proporciona acceso a ella a través de una clave única, de modo que cada unidad de datos puede recuperarse, reemplazarse o eliminarse individualmente. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Mecanismos Dispositivo de almacenamiento (clave-valor), motor de serialización. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Se implementa una solución de base de datos contemporánea que admite escalar y almacenar datos como un objeto binario grande (BLOB) al que se puede acceder en función de un identificador. v. f.

High Volume Binary Storage Pattern Patrón de almacenamiento binario de alto volumen: Se introduce una clave-valor NoSQL dentro de la plataforma Big Data. Dicha base de datos generalmente proporciona acceso basado en API para insertar, seleccionar y eliminar datos sin ningún soporte para actualizaciones parciales, ya que la base de datos no tiene conocimiento interno sobre la estructura de los datos que almacena. Tal base de datos NoSQL es buena para almacenar grandes cantidades de datos en su forma original porque todos los datos se almacenan como un objeto binario. Además, una base de datos NoSQL de clave-valor también puede utilizarse cuando el caso de uso implica operaciones de lectura y escritura a alta velocidad. Además de una base de datos genérica basada en disco, clave-valor NoSQL, un dispositivo de almacenamiento basado en memoria, como una cuadrícula de memoria que proporciona almacenamiento de clave-valor, también se puede usar para obtener la misma funcionalidad con el beneficio adicional de baja latencia acceso a los datos. Cabe señalar que la aplicación del patrón de almacenamiento binario de alto volumen delega la responsabilidad de interpretar (serialización / deserialización) los datos al cliente que lee los datos. Por lo tanto, la lectura exitosa de los datos por parte de cualquier cliente requiere conocimiento sobre la naturaleza de los datos que se almacenan. Además, como el acceso solo es posible a través de la clave, es posible que deba implementarse una nomenclatura de denominación de clave lógica para la recuperación rápida de las unidades de datos requeridas. v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen: En el entorno Big Data, el gran volumen no solo se refiere a conjuntos de datos altos (una gran cantidad de filas) sino también a conjuntos de datos anchos (una gran cantidad de columnas). En algunos casos, cada columna puede contener una cantidad de otras columnas. Una base de datos relacional no se puede usar en tales circunstancias debido al límite en las columnas y la incapacidad de almacenar más de un valor en una columna. El patrón de almacenamiento tabular de alto volumen se puede aplicar a almacenar dichos datos, lo que estipula el uso de un dispositivo de almacenamiento implementado a través de una base de datos de familia-columna NoSQL que sirve para las operaciones de insertar, seleccionar, actualizar y eliminar . v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen: El uso de una base de datos de familia-columna permite almacenar datos en un almacenamiento más tradicional, similar a una tabla, donde cada registro puede consistir además en grupos lógicos de campos a los que generalmente se accede conjuntamente. v. f.

¿Cómo se pueden almacenar grandes cantidades de datos no relacionales en forma de tabla, donde cada registro puede consistir en un gran número de campos o grupos de campos relacionados? High Volume Tabular Storage Almacenamiento tabular de alto volumen. v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen Los datos se almacenan en una tecnología de almacenamiento basada en clústeres que admite el almacenamiento de tipo tabla con la capacidad de agrupar columnas relacionadas dentro de una columna principal. v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen: Se utiliza una tecnología de almacenamiento Big Data basada en NoSQL que proporciona abstracción de fila / columna y permite almacenar y recuperar múltiples pares clave-valor dentro de una columna y además proporciona una interfaz similar a SQL o API para crear, leer, actualizar y eliminar operaciones (CRUD). v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen: Mecanismos Dispositivo de almacenamiento (familia de columnas), motor de serialización. v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen: Una tecnología de base de datos orientada a columnas se usa para almacenar datos. Dicha base de datos se implementa en un clúster y admite la creación de una gran cantidad de columnas. Cada columna puede contener además múltiples pares clave-valor. Al estar orientado a columnas, ayuda a acelerar las consultas analíticas donde se solicitan datos para la misma columna para un gran número de entidades. v. f.

Se utiliza una base de datos NoSQL familia de columnas para habilitar el patrón de almacenamiento tabular de alto volumen. Dicha base de datos permite normalmente agregar múltiples pares clave-valor debajo de una columna y además permite que las filas dentro de la misma tabla tengan diferentes columnas. Se puede lograr cierto nivel de conformidad de esquema especificando un esquema de tabla antes de que se llene la tabla. Algunas implementaciones de familia de columnas pueden admitir tipos de datos genéricos como entero, flotante y doble, mientras que otros pueden conservar datos en columnas en forma binaria, en cuyo caso puede ser necesaria cierta serialización antes de que se almacenen los datos y la deserialización cuando se recuperan los datos. Dichas bases de datos pueden proporcionar acceso basado en SQL o basado en API. v. f.

High Volume Tabular Storage Pattern Patrón de almacenamiento tabular de alto volumen Este patrón también es aplicable cuando una base de datos relacional necesita reemplazarse con una alternativa altamente escalable, siempre que NO se requiera soporte de ACID. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen: Un aspecto destacado dentro del campo de la identificación de patrones es el análisis de las entidades conectadas. Debido al gran volumen de datos en entornos Big Data, el análisis eficiente y oportuno de dichos datos requiere un almacenamiento especializado. El patrón de almacenamiento vinculado de alto volumen se puede aplicar a almacenar datos que consisten en entidades vinculadas. Este patrón se implementa típicamente mediante el uso de un dispositivo de almacenamiento basado en una base de datos NoSQL de gráficos que permite definir las relaciones entre las entidades. El uso de las bases de datos graficas NoSQL permite encontrar grupos de entidades conectadas entre un gran conjunto de entidades, investigando si las entidades están conectadas entre sí o calculando distancias entre entidades. v. f.

¿Cómo se pueden almacenar conjuntos de datos muy grandes que comprenden entidades que están conectadas entre sí de una manera que permita el análisis eficiente de tales entidades conectadas? High Volume Linked Storage Almacenamiento enlazado de alto volumen. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen: Se utiliza una tecnología de almacenamiento basada en clúster especializada que permite especificar conexiones entre entidades. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen Se utiliza una tecnología de almacenamiento Big Data basada en NoSQL que almacena cada unidad de datos como un nodo o un vértice y la conexión lógica entre dos vértices como un borde y además permite consultar los vértices en función de la existencia de bordes entre ellos. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen Mecanismos Dispositivo de almacenamiento (gráfico), motor de serialización. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen: Se usa un dispositivo de almacenamiento compatible con enlaces que no solo admite el almacenamiento de una gran cantidad de entidades (registros), sino que también proporciona un medio para agregar enlaces entre las entidades. Tal dispositivo de almacenamiento permite encontrar entidades basadas en una conexión directa o indirecta entre ellos. v. f.

High Volume Linked Storage Pattern Patrón de almacenamiento vinculado de alto volumen: Una base de datos grafica NoSQL se usa para almacenar datos enlazados. Las entidades con atributos como pares clave-valor se almacenan como vértices, mientras que las conexiones entre los vértices se almacenan como bordes. Cada borde también puede contener atributos clave-valor que se pueden usar para ajustar los criterios de consulta. Para que la base de datos sirva consultas basadas en enlaces. La base de datos requiere que los bordes estén explícitamente definidos entre los vértices. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen Los datos semiestructurados que se ajustan a un esquema anidado a menudo requieren almacenamiento de tal manera que se mantenga la estructura del esquema y se puedan acceder y actualizar individualmente las subsecciones de un elemento de datos particulares (registro). El patrón de almacenamiento jerárquico de alto volumen se puede aplicar en circunstancias donde los datos representan una estructura tipo documento que es autodescriptiva y se requiere acceso a elementos de datos individuales. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen Este patrón requiere el uso de un dispositivo de almacenamiento implementado a través de un documento de base de datos NoSQL que realiza operaciones de insertar, seleccionar, actualizar y eliminar. La base de datos documental NoSQL generalmente codifica automáticamente los datos utilizando un formato jerárquico binario o de texto sin formato, como JSON, antes del almacenamiento. v. f.

¿Cómo se pueden almacenar grandes cantidades de datos no relacionales que se ajustan a una estructura anidada de manera escalable para que los datos conserven su estructura interna y se pueda acceder a las subsecciones de una unidad de datos? High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen: Los datos semiestructurados se almacenan en forma anidada en función de una técnica de almacenamiento agrupado. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen Se utiliza una tecnología de almacenamiento Big Data basada en NoSQL, que almacena cada unidad de datos como un documento anidado donde no solo se puede acceder a la unidad de datos completa a través de una clave única, sino que también se puede acceder a secciones individuales de la unidad de datos. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen Mecanismos Dispositivo de almacenamiento (documento). v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen: Se utiliza una base de datos basada en tecnología NoSQL que es capaz de almacenar datos en un formato jerárquico y comprender la estructura interna de los datos. El almacenamiento de datos basado en una estructura anidada habilita además el almacenamiento de tipo relacional de modo que los registros de la tabla hija relacionados se puedan incrustar dentro del registro de la tabla padre. v. f.

High Volume Hierarchical Storage Pattern Patrón de almacenamiento jerárquico de alto volumen Aplicación Un documento de base de datos NoSQL se utiliza para almacenar datos anidados. Dicha base de datos generalmente utiliza un formato jerárquico, como JSON, como un formato interno de almacenamiento de datos. Además de proporcionar acceso basado en clave, dicho dispositivo de almacenamiento también es capaz de seleccionar subunidades de una unidad de datos junto con funcionalidad completa de creación, lectura, actualización y eliminación (CRUD). El acceso basado en API generalmente es provisto por el documento base de datos NoSQL para realizar las operaciones CRUD. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos: Almacenar conjuntos de datos muy grandes a los que tienen acceso varios usuarios simultáneamente puede afectar seriamente el rendimiento de acceso a los datos de la base de datos subyacente. Para contrarrestar este problema, el conjunto de datos se divide horizontalmente en partes más pequeñas según lo prescrito por el patrón de Data Sharding automático Automatic Data Sharding Pattern. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos: este patrón se habilita a través de una base de datos NoSQL que crea automáticamente fragmentos basados en un campo configurable en el conjunto de datos y almacena los fragmentos en diferentes máquinas en un clúster. Como el conjunto de datos se distribuye en varios fragmentos, el tiempo de finalización de la consulta puede verse afectado si la consulta requiere recopilar datos de más de un fragmento. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos El patrón Data Sharding automático normalmente se aplica junto con el patrón de Repetición y replicación de datos automáticos para que los fragmentos no se pierdan en el caso de una falla de hardware y para que la base de datos permanezca disponible. v. f.

¿Cómo se pueden almacenar grandes cantidades de datos sin degradar el rendimiento de acceso de la tecnología de almacenamiento subyacente? Automatic Data Sharding Data Sharding automático. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos: Un gran conjunto de datos se divide horizontalmente de modo que los subconjuntos de filas se almacenan en diferentes máquinas en todo el clúster, distribuyendo así la carga y garantizando un alto rendimiento. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos Se utiliza una base de datos NoSQL que implementa sharding automático, que dirige a los clientes a diferentes fragmentos en función de sus respectivos criterios de consulta. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos Mecanismos Dispositivo de almacenamiento (NoSQL). v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos: En lugar de analizar todo el conjunto de datos como una sola unidad, el conjunto de datos se divide automáticamente en partes donde cada parte, llamada fragmento, contiene solo un subconjunto de filas y se almacena en una máquina separada. Cuando un usuario consulta datos, los datos se recuperan automáticamente del fragmento que contiene el fragmento correspondiente. Al hacer que cada máquina sea responsable de solo una parte de los datos, el rendimiento general de la tecnología de almacenamiento subyacente no se ve afectado cuando un número de usuarios comienza a consultar diferentes partes de un conjunto de datos. v. f.

Automatic Data Sharding Pattern Patrón de fragmentación automática de datos: Una base de datos NoSQL se utiliza para aplicar el patrón de Data Sharding automático. En general, el usuario especifica un campo en el conjunto de datos para configurar el proceso de fragmentación. En función del valor del campo, las filas se asignan automáticamente a diferentes fragmentos. Cuando un usuario especifica una consulta, el NoSQL determina automáticamente qué fragmento se debe contactar para recuperar las filas requeridas. Sin embargo, el rendimiento puede deteriorarse si la consulta requiere datos de múltiples fragmentos, lo que requiere que se examinen los patrones de consulta para fragmentar mejor el conjunto de datos. v. f.

El patrón de Data Sharding automático Automatic Data Sharding Pattern: normalmente se aplica junto con los patrones de reconstrucción y replicación de datos automáticos para lograr tolerancia a fallas mediante la replicación automática de fragmentos. v. f.

El patrón compuesto de almacenamiento de acceso de transmisión Streaming Access Storage Compound Pattern: representa una parte de un entorno de solución de Big Data capaz de almacenar datos de alto volumen y alta variedad y hacer que esté disponible para acceso de transmisión. v. f.

El patrón compuesto de almacenamiento de acceso de transmisión Streaming Access Storage Compound Pattern: está compuesto por los siguientes patrones principales: Almacenamiento en tiempo real Descomposición del conjunto de datos. v. f.

El patrón de almacenamiento en tiempo real Streaming Storage Pattern: se puede aplicar en un escenario en el que los datos deben recuperarse de forma secuencial o de manera continua. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: La aplicación de este patrón de diseño requiere el uso de un dispositivo de almacenamiento que proporciona capacidades de lectura y escritura no aleatorias y generalmente se implementa a través de un sistema de archivos distribuido. v. f.

El patrón de almacenamiento en tiempo real Streaming Storage Pattern: se aplica normalmente junto con el patrón de procesamiento por lotes a gran escala como parte de una solución completa. v. f.

¿Cómo se puede acceder a grandes conjuntos de datos de forma que se preste a un procesamiento eficiente de los datos en modo por lotes? Streaming Storage Almacenamiento en tiempo real. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: Se utiliza un dispositivo de almacenamiento Big Data con capacidad de acceso a datos en tiempo real. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: La tecnología de acceso a datos en tiempo real se implementa para almacenar conjuntos de datos para acceso secuencial simple y no aleatorio, que logra un mayor rendimiento de transferencia de datos. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: Mecanismos Dispositivo de almacenamiento (sistema de archivos distribuido), Motor de procesamiento (lote), gestor de recursos, motor de coordinación. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: Un dispositivo de almacenamiento que es capaz de proporcionar acceso a datos no aleatorio se usa para generar grandes cantidades para el procesamiento de datos por lotes. La restricción del acceso a los datos al modo no aleatorio permite el aprovisionamiento de datos como bloques contiguos de datos sin requerir múltiples operaciones de búsqueda de datos. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: un dispositivo de almacenamiento del sistema de archivos distribuido se utiliza para permitir el acceso a datos de transmisión. Cuando se requieren datos para el procesamiento por lotes, solo se necesita encontrar la posición de inicio del archivo, y luego el resto del archivo se emite como un flujo continuo hasta el final del archivo. Aunque permite el procesamiento de datos por lotes, un sistema de archivos distribuidos no admite ninguna capacidad de búsqueda de archivos. Solo se puede acceder a un archivo basado en una ubicación conocida, y los datos solo se pueden buscar en base a un escaneo secuencial de todo el archivo. v. f.

Streaming Storage Pattern Patrón de almacenamiento en tiempo real: Este patrón generalmente se aplica junto con el patrón de Procesamiento por lotes a gran escala para proporcionar una solución completa. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: El almacenamiento de grandes conjuntos de datos como un único archivo no se presta a las tecnologías de procesamiento distribuido implementadas en el entorno de la solución Big Data. Las tecnologías de procesamiento distribuido funcionan según el principio de divide y conquistaras, que requiere que un conjunto de datos esté disponible como partes en todo el clúster. Esto se puede lograr mediante la aplicación del patrón de descomposición del conjunto de datos, que requiere el uso de un dispositivo de almacenamiento de sistema de archivos distribuido. v. f.

¿Cómo se puede hacer que un conjunto de datos grande sea susceptible de procesamiento de datos distribuidos en un entorno de solución de Big Data? Dataset Decomposition Descomposición del conjunto de datos. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: El conjunto de datos se almacena de forma distribuida al dividir el conjunto de datos original en varias partes. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: Una tecnología de almacenamiento Big Data que implementa la descomposición y el almacenamiento automáticos de un conjunto de datos en múltiples nodos en un clúster se utiliza para almacenar el conjunto de datos. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: Mecanismos Dispositivo de almacenamiento (sistema de archivos distribuido), motor de procesamiento, gestor de recursos, motor de coordinación. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: el gran conjunto de datos se divide automáticamente en múltiples conjuntos de datos y se almacena en múltiples nodos en el clúster. Cada subconjunto de datos puede ser accedido por separado por el motor de procesamiento. Si el archivo necesita ser exportado, todas las partes se unen automáticamente en el orden correcto para obtener el archivo original. v. f.

Dataset Decomposistion Pattern Patrón de descomposición del conjunto de datos: se emplea un dispositivo de almacenamiento de sistema de archivos distribuido que divide automáticamente un archivo grande en múltiples subarchivos más pequeños y los almacena en el clúster. Cuando un motor de procesamiento, como MapReduce, necesita procesar datos, cada subarchivo se lee de forma independiente para implementar el procesamiento distribuido de datos. Todos los subarchivos se unen automáticamente cuando es necesario leerlos de forma continua o cuando se deben copiar a una tecnología de almacenamiento diferente. v. f.

Big Data Processing environment Compound Pattern Patrón compuesto del entorno de procesamiento Big Data: El patrón compuesto del entorno de procesamiento Big Data representa una parte de un entorno de solución de Big Data capaz de manejar el rango de requisitos distintos del procesamiento de datos a gran escala en Big Data. v. f.

El patrón compuesto del entorno de procesamiento Big Data - Big Data Processing environment Compound Pattern: se compone de los siguientes patrones requeridos: Procesamiento por lotes a gran escala procesamiento de gráficos a gran escala procesamiento en tiempo real a alta velocidad y los siguientes patrones opcionales: almacenamiento de resultados intermedios procesamiento de la abstracción inserción de metadatos de procesamiento automatizado descomposición lógica compleja. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: Una de las principales características diferenciadoras de los entornos de Big Data en comparación con los entornos de procesamiento de datos tradicionales es la gran cantidad de datos que deben procesarse. El procesamiento eficiente de grandes cantidades de datos exige una estrategia de procesamiento fuera de línea, como lo indica el patrón de diseño de procesamiento por lotes a gran escala. La aplicación del patrón de procesamiento por lotes a gran escala impone el procesamiento de todo el conjunto de datos como una única ejecución de procesamiento, que requiere que el lote de datos se acumule primero en un dispositivo de almacenamiento y luego se procese usando un motor de procesamiento por lotes, como MapReduce. Aunque los resultados calculados no están disponibles de inmediato, la aplicación de este patrón permite una solución de procesamiento de datos simple, que proporciona la máxima cantidad de datos. En el caso de datos que llegan continuamente, los datos primero se acumulan para crear un lote de datos y solo luego se procesan. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: Este patrón de diseño generalmente se aplica junto con el patrón de almacenamiento de acceso de transmisión. v. f.

¿Cómo se pueden procesar grandes cantidades de datos con el máximo rendimiento? Large-Scale Batch Processing Procesamiento por lotes a gran escala. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: Los datos se consolidan en forma de un gran conjunto de datos y luego se procesan utilizando una técnica de procesamiento distribuido. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: Los datos se procesan utilizando un sistema de procesamiento por lotes distribuido de manera que todo el conjunto de datos se procesa como parte de la misma ejecución de procesamiento distribuida. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: Mecanismos Motor de procesamiento (lote), Motor de transferencia de datos (relacional / archivo), Dispositivo de almacenamiento (basado en disco), Gestor de recursos, Motor de coordinación. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: un marco de procesamiento de datos contemporáneo basado en una arquitectura distribuida se utiliza para procesar datos de forma discontinua. El empleo de un marco de procesamiento por lotes distribuido permite procesar grandes cantidades de datos de manera oportuna. Además, dicha solución es simple de desarrollar y económica también. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: para los escenarios donde un gran conjunto de datos no está disponible, los datos se amalgaman primero en un gran conjunto de datos. Una vez que un gran conjunto de datos está disponible, se guarda en un dispositivo de almacenamiento basado en disco que divide automáticamente el conjunto de datos en múltiples conjuntos de datos más pequeños y luego los guarda en varias máquinas en un clúster. Un motor de procesamiento por lotes, como MapReduce, se utiliza luego para procesar los datos de forma distribuida. Internamente, el motor de procesamiento por lotes procesa cada subconjunto de datos individualmente y en paralelo, de modo que el subconjunto de datos que reside en un nodo determinado generalmente es procesado por el mismo nodo. Esto evita tener que mover datos al recurso de cálculo. Se debe tener en cuenta que, dependiendo de la disponibilidad de recursos de procesamiento, bajo ciertas circunstancias, un subconjunto de datos puede tener que ser movido a una máquina diferente que se encuentre disponible a medida que se procesa. El proceso de dividir el gran conjunto de datos en conjuntos de datos más pequeños y distribuirlos a través del clúster generalmente se logra mediante la aplicación del patrón de descomposición del conjunto de datos. v. f.

Large-Scale Batch Processing Pattern Patrón de procesamiento por lotes a gran escala: La aplicación del patrón de procesamiento por lotes a gran escala depende de la disponibilidad de los datos como flujo continuo. Por lo tanto, se aplica junto con el patrón de almacenamiento de transmisión. Además, la aplicación de este patrón se limita a escenarios de procesamiento de datos fuera de línea debido a su naturaleza de lote. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: Los resultados informáticos para ciertos trabajos de procesamiento de datos implican la ejecución de una lógica compleja, como la búsqueda del cliente con el monto máximo de gasto en función de los datos de transacción para una gran cantidad de clientes. Debido a la naturaleza del motor de procesamiento implementado, puede que no sea posible ejecutar toda la lógica como una única ejecución de procesamiento. Incluso si fuera posible, la prueba, la depuración y el mantenimiento de la lógica pueden volverse difíciles. En tal situación, se puede aplicar el patrón de descomposición lógica compleja, que requiere dividir la lógica compleja en múltiples pasos simples. Esto se ejecuta en varias ejecuciones de procesamiento. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: estas ejecuciones de procesamiento múltiple se conectan entre sí utilizando la funcionalidad proporcionada dentro del motor de procesamiento a través de la aplicación adicional del patrón de ejecución automatizada de conjunto de datos. v. f.

¿Cómo se pueden llevar a cabo tareas complejas de procesamiento de manera manejable cuando se utilizan técnicas de procesamiento actuales? Complex Logic Decomposition Descomposición lógica compleja. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: La lógica compleja se divide en una serie de pasos y se ejecuta en varias ejecuciones de procesamiento. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: Se desarrollan y conectan varias ejecuciones de proceso de forma tal que cada ejecución de procesamiento solo ejecuta parte de la lógica de procesamiento completa y cada ejecución de procesamiento se alimenta de la salida de la ejecución anterior. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: Mecanismos Motor de procesamiento, dispositivo de almacenamiento, motor de flujo de trabajo, administrador de recursos, motor de coordinación. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: la regla de divide y conquistaras se aplica replanteando la lógica compleja, que debe ejecutarse como una tarea monolítica, en términos de tareas combinables múltiples más pequeñas donde cada tarea ejecuta una lógica comparativamente más simple. Estas tareas se encadenan juntas para obtener el resultado final, tal como se prevé a través del uso de la lógica compleja original. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: Se desarrollan rutinas de procesamiento separadas de tal manera que cada rutina implementa lógica simple. Cada rutina se ejecuta luego como una ejecución de procesamiento separada de un motor de procesamiento como MapReduce. Mediante la configuración, la salida de la primera ejecución de procesamiento se transfiere a la segunda ejecución de procesamiento, y así sucesivamente. La salida de la última ejecución de procesamiento es la salida final requerida. Como la aplicación del patrón de descomposición lógica compleja da como resultado la creación de múltiples rutinas de procesamiento, las modificaciones a cualquiera de las rutinas deben documentarse adecuadamente porque las modificaciones en una rutina pueden cambiar el comportamiento de la otra rutina. v. f.

Complex Logic Decomposition Pattern Patrón de descomposición lógica compleja: En función de la funcionalidad admitida por el motor de procesamiento, es posible que sea necesario aplicar el patrón de ejecución del conjunto de datos automatizado para conectar varias ejecuciones de procesamiento. v. f.

Processing Abstraction Pattern patrón de abstracción de Procesamiento: El procesamiento de conjuntos de datos Big Data implica el uso de motores de procesamiento que necesitan habilidades programáticas para poder trabajar con ellos. Debido a la naturaleza contemporánea de estos motores de procesamiento y los marcos de procesamiento especializados que siguen, los programadores pueden no estar familiarizados con las API de cada motor de procesamiento. Para facilitar el procesamiento de datos al no tener que lidiar con las complejidades de los motores de procesamiento, se puede aplicar el patrón de abstracción de procesamiento, que usa un motor de consulta para abstraer el motor de procesamiento subyacente. v. f.

La aplicación del patrón de abstracción de procesamiento Processing Abstraction Pattern: aumenta aún más el alcance del entorno de solución de Big Data para usuarios que no son de TI, como analistas de datos y científicos de datos. v. f.

¿Cómo se pueden usar diferentes marcos de procesamiento distribuido para procesar grandes cantidades de datos sin tener que aprender las complejidades programáticas de cada marco? Processing Abstraction Procesamiento de abstracción. v. f.

Processing Abstraction Procesamiento de abstracción: En lugar de acceder directamente a los marcos de procesamiento de datos distribuidos a través de sus interfaces de programación, se accede a ellos a través de una única interfaz que proporciona artefactos de manipulación de datos basados en scripts. v. f.

Processing Abstraction Pattern patrón de abstracción de Procesamiento: Se introduce un componente tecnológico que proporciona una interfaz de scripting dentro de la plataforma Big Data. Actúa como intermediario entre el usuario y el marco subyacente de procesamiento de datos distribuidos. v. f.

Processing Abstraction Pattern patrón de abstracción de Procesamiento: Mecanismos Motor de consultas, Motor de procesamiento, Dispositivo de almacenamiento, Administrador de recursos, Motor de coordinación. v. f.

Processing Abstraction Pattern patrón de abstracción de Procesamiento: los motores de procesamiento subyacentes se abstraen y se accede a ellos a través de una interfaz común. La interfaz permite a los usuarios, que no poseen ninguna experiencia de la API del motor de procesamiento subyacente, especificar comandos de manipulación de datos basados en un lenguaje similar al SQL fácil de aprender. En tiempo de ejecución, la secuencia de comandos se convierte en el procesamiento de bajo nivel, llamada API específica del motor y reenviada al motor de procesamiento correspondiente. La aplicación del patrón de abstracción de procesamiento aumenta aún más el alcance de las capacidades de la plataforma Big Data para el personal que no es de TI, como analistas de negocios y gerentes de negocios. v. f.

Processing Abstraction Pattern patrón de abstracción de Procesamiento: un motor de consulta se utiliza para transformar los comandos ingresados por el usuario en llamadas de API de bajo nivel para invocar un motor de procesamiento particular. El motor de procesamiento luego crea un trabajo de procesamiento para realizar el procesamiento de datos requerido en base a los datos almacenados en el dispositivo de almacenamiento. Una vez que se han calculado los resultados, el motor de consultas los formatea en una estructura cuadriculada y se los presenta al usuario. Es importante tener en cuenta que la seguridad de los datos puede convertirse en un problema si el acceso a los datos a través del motor de consultas no está asegurado porque los usuarios expertos no autorizados pueden acceder a los datos mediante la ejecución de un lenguaje de scripting simple de aprender. Por lo tanto, la aplicación del patrón de gestión de acceso centralizado puede requerirse además para garantizar que solo los usuarios autorizados puedan manipular datos a través del motor de consulta. v. f.

El patrón compuesto Poly Sink representa una parte de un entorno de solución de Big Data capaz de sacar datos de gran volumen, alta velocidad y alta variedad del entorno de solución Big Data. v. f.

El patrón compuesto Poly Sink , está compuesto por los siguientes patrones principales: Relational Sink – Sink Relacional File-based Sink – Archivos basados en Sink Steaming Egress-salida de streaming. v. f.

relational sink pattern Patrón sink relacional: La mayoría de los sistemas de TI empresariales usan bases de datos relacionales como sus back-end de almacenamiento. Sin embargo, el método de incorporar resultados de análisis de datos de una solución Big Data en tales sistemas primero exportando los resultados como un archivo delimitado y luego importando a las bases de datos relacionales toma tiempo, es propenso a errores y no es una solución escalable. Se puede aplicar el patrón de diseño Relational Sink para exportar directamente los datos procesados a una base de datos relacional, lo que requiere el uso de un motor de transferencia de datos relacionales. v. f.

relational sink pattern Patrón sink relacional: En lugar de utilizar directamente el motor de transferencia de datos, se puede invocar indirectamente a través de un portal de productividad que normalmente denota uso ad-hoc. Un motor de flujo de trabajo se puede utilizar para automatizar todo el proceso y para realizar la exportación de datos a intervalos regulares. v. f.

¿Cómo se pueden portar grandes cantidades de datos procesados desde una plataforma de Big Data directamente a una base de datos relacional? Relational Sink Sink Relacional. v. f.

relational sink pattern Patrón sink relacional: Se realiza una conexión directa desde la plataforma Big Data a la base de datos relacional back-end para exportar datos relacionales. v. f.

relational sink pattern Patrón sink relacional: Se utiliza un motor de transferencia de datos que emplea diferentes conectores para conectarse directamente a diferentes bases de datos relacionales y ejecutar consultas SQL para insertar o actualizar datos en la tabla requerida. v. f.

relational sink pattern Patrón sink relacional: Mecanismos Motor de transferencia de datos (relacional), Dispositivo de almacenamiento, Motor de procesamiento, Portal de productividad, Motor de flujo de trabajo, Gestor de recursos, Motor de coordinación. v. f.

relational sink pattern Patrón sink relacional: la plataforma Big Data está habilitada para realizar una conexión directa a la base de datos relacional, y los datos se transfieren como un lote desde el dispositivo de almacenamiento. El proceso de exportación puede programarse para actualizar automáticamente la base de datos relacional siempre que haya nuevos resultados computacionales disponibles. v. f.

relational sink pattern Patrón sink relacional: un componente del motor de transferencia de datos relacionales se agrega a la plataforma Big Data. Los diferentes controladores y conectores son utilizados internamente por el motor de transferencia de datos relacionales para conectarse a diferentes tipos de bases de datos relacionales. El usuario especifica la cadena de conexión de la base de datos relacional y la tabla a la que los datos deben exportarse. Dependiendo de las capacidades del motor de transferencia de datos relacionales, el motor de transferencia de datos relacionales puede usar internamente un motor de procesamiento que paralelice el proceso de exportación ejecutando varios comandos SQL (INSERT(INSERTAR) / UPDATE(ACTUALIZAR)) en paralelo. En función de la disponibilidad de conectores adecuados, el patrón Relational Sink también se puede aplicar para poblar datawarehouses. La aplicación del patrón Relational Sink puede verse obstaculizada si un conector específico de la base de datos no está disponible. Un conector genérico generalmente se puede usar en tal situación. Sin embargo, el rendimiento de exportación de datos puede sufrir. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: En algunas ocasiones, los resultados del análisis de datos de una solución Big Data deben incorporarse a los sistemas informáticos empresariales que utilizan tecnologías de almacenamiento propias, como una base de datos integrada o un almacenamiento basado en archivos. En lugar de usar una base de datos relacional y proporcionar un método de importación basado en archivos. Al igual que el patrón Relational Sink, la exportación manual desde la plataforma de Big Data y la importación a dichos sistemas no es una solución viable. El patrón Sink basado en archivos se puede aplicar para exportar datos automáticamente desde la plataforma de Big Data como un archivo delimitado o jerárquico. v. f.

¿Cómo se pueden portar los datos procesados desde una plataforma de Big Data a sistemas que usan tecnologías de almacenamiento no relacionales patentadas? File-based Sink Sink basado en archivos. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: Los datos procesados se exportan desde la plataforma de Big Data en un formato de archivo delimitado o jerárquico a la ubicación del sistema de destino. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: Se implementa un motor de transferencia de datos basado en archivos que copia datos de texto del dispositivo de almacenamiento y a una ubicación configurada. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: Mecanismos Motor de transferencia de datos (archivo), Dispositivo de almacenamiento, Motor de procesamiento, Motor de flujo de trabajo, Portal de productividad, Administrador de recursos, Motor de coordinación. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: Los datos procesados se exportan en un formato de texto común, como el formato de archivo delimitado o un formato de archivo jerárquico, y se copian automáticamente en la ubicación configurada del sistema de destino. Un sistema de programación se usa además para exportar archivos a intervalos regulares. La aplicación de este patrón ayuda a la integración de la plataforma Big Data con sistemas heredados y otros propietarios. v. f.

File-based Sink Pattern Patrón Sink basado en archivo: Se usa un motor de transferencia de datos de archivo que está configurado para copiar datos desde el dispositivo de almacenamiento a una ubicación de destino, como una ubicación de directorio o un URI. El motor de transferencia de datos de archivos puede usar internamente el sondeo o alguna funcionalidad basada en vigilante de archivos para copiar archivos desde la ubicación de origen. Se debe tener en cuenta que es posible que el archivo que se debe copiar en la ubicación del sistema de destino no esté en el formato o modelo correcto. En consecuencia, es posible que se requiera algún procesamiento para colocar el archivo en el formato o modelo requerido. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: El ciclo completo de procesamiento de datos en entornos de Big Data consiste en una serie de actividades, desde el ingreso de datos hasta el cálculo de resultados y la salida de datos. Además, en un entorno de producción, el ciclo completo debe repetirse una y otra vez. Realizar actividades de procesamiento de datos manualmente consume mucho tiempo y es un uso ineficiente de los recursos de desarrollo. Para permitir la ejecución automática de actividades de procesamiento de datos, el patrón de ejecución del conjunto de datos automatizado se puede aplicar implementando un motor de flujo de trabajo. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: el conjunto de operaciones que se deben realizar en los datos se especifica como un diagrama de flujo que luego se ejecuta automáticamente por el motor de flujo de trabajo a intervalos establecidos. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: Este patrón también se puede aplicar junto con el patrón de descomposición lógica compleja para automatizar la ejecución de múltiples trabajos de procesamiento. v. f.

¿Cómo se puede automatizar la ejecución de una serie de actividades de procesamiento de datos a partir de la entrada y salida de datos? Automated Dataset Execution Ejecución automatizada de conjuntos de datos. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: La ejecución de varias tareas de procesamiento de datos, así como la entrada y salida de datos, está automatizada. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: Se introduce un componente dentro de la plataforma Big Data que crea un flujo de trabajo de actividades que se puede configurar para ejecutarse automáticamente. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: Mecanismos Motor de flujo de trabajo, motor de transferencia de datos, dispositivo de almacenamiento, motor de procesamiento, motor de consulta, portal de productividad, administrador de recursos, motor de coordinación. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: El conjunto de operaciones que deben ejecutarse se especifica en forma de diagrama de flujo. Todo el diagrama de flujo se ejecuta automáticamente sin requerir intervención humana. Esto da como resultado una solución de configurar una vez, ejecutar a menudo. v. f.

Automated Dataset Execution Pattern Patrón de ejecución automatizada de conjunto de datos: Un mecanismo de motor de flujo de trabajo se utiliza para crear y ejecutar un flujo de trabajo. En función de la interfaz proporcionada por el motor de flujo de trabajo, ya sea un lenguaje de marcado o una interfaz gráfica de usuario (GUI), el usuario especifica cada operación que se debe realizar para lograr el resultado requerido. Una vez que se crea el flujo de trabajo, el motor de flujo de trabajo lo ejecuta automáticamente llamando al mecanismo de Big Data respectivo que es responsable de ejecutar un paso de flujo de trabajo particular. La productividad lograda mediante la aplicación del patrón de ejecución de conjuntos de datos automatizados depende de cuántos tipos diferentes de operaciones de procesamiento de datos puede automatizar el motor de flujo de trabajo, lo que se traduce en cuántos tipos diferentes de mecanismos de Big Data pueden ser invocados por el motor de flujo de trabajo. Se debe elegir un motor de flujo de trabajo extenso que proporcione puntos de extensión para una integración futura. v. f.

La etapa de análisis de caso de negocio del ciclo de vida análisis de Big Data proporciona la justificación comercial para el establecimiento de un Big Data Pipeline como base de una solución de Big Data. v. f.

el patrón compuesto de Poly Source del patrón compuesto Big Data Pipeline se acomodará a cualquier tipo de datos identificados en la etapa de identificación de datos del ciclo de vida análisis de Big Data. v. f.

durante las etapas de adquisición de datos y filtrado del ciclo de vida del análisis de Big Data, los datos se transfieren de una fuente a un almacenamiento. v. f.

dado que las fuentes de datos a menudo son tipos de datos diferentes, el patrón compuesto Poly Storage proporciona la capacidad de almacenar datos en su forma más adecuada. v. f.

las etapas de extracción de datos, validación y limpieza de datos y agregación y representación de datos del ciclo de vida análisis de Big Data a menudo requieren la interacción entre las capacidades de almacenamiento y procesamiento de un Big Data Pipeline. v. f.

la etapa de análisis de datos está claramente identificada con el patrón compuesto del entorno de procesamiento Big Data. v. f.

la etapa de visualización de datos del ciclo de vida de análisis de Big Data es respaldada por las capacidades de sink de una interconexión de Big Data cuando un analista de negocios requiere una exportación de datos para usar en una herramienta de visualización tradicional. v. f.

La utilización de la etapa de resultados de análisis del ciclo de vida analisis de Big Data a menudo requiere que los resultados estén disponibles para los consumidores fuera de la solución de Big Data en un formato de consumibles. esto se logra con la ayuda del patrón compuesto Poly sink. v. f.

Denunciar Test