MODULO 11 CAPITULO1
|
|
Título del Test:
![]() MODULO 11 CAPITULO1 Descripción: Enterprise Data Warehouse y Big Data |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Qué es EDW?. un almacén de datos o almacén de datos empresarial (EDW) es un repositorio central de datos actuales de toda la empresa que se utilizan para informe de datos. un almacén de datos o almacén de datos empresarial (EDW) es un repositorio central de datos históricos y actuales de toda la empresa que se utilizan principalmente para el análisis e informe de datos. sobre EDW chequee las opciones relacionadas. contiene grandes cantidades de datos, es de particular interés cuando se diseña una arquitectura para una plataforma Big Data. solo sirve como una fuente de datos. unicamente como la interfaz predeterminada a través de la cual se llevan a cabo diversas actividades de BI y análisis. No solo sirve como una fuente de datos sino también como la interfaz predeterminada a través de la cual se llevan a cabo diversas actividades de BI y análisis. un EDW Enterprise Data Warehouse comprende los siguientes componentes: almacén de datos operacionales (ODS). área de ensayo. almacén de datos. data mart. base de datos analíticos. Enterprise Data Warehouse: almacén de datos operacionales (ODS) chequee las opciones correctas. Un almacén de datos operacionales (ODS) es una base de datos relacional utilizada para reportar operacionalmente. Sirve como una fuente de datos para el almacén de datos. Un ODS recopila datos de diversos sistemas operativos dispares, como un sistema de reserva de tickets de forma periódica y realiza operaciones como la validación de limpieza de datos a través de reglas comerciales y de duplicación de datos. También se puede llevar a cabo algún nivel básico de transformación y desnormalización del modelo de datos para respaldar la generación eficiente de informes. Debido a los requisitos de informes operativos, el ODS generalmente contiene datos recientes. el grado de "actualización de datos" depende de los requisitos de informes. el rango de datos almacenados puede abarcar de horas a meses. Aunque un único EDW puede albergar múltiples ODS, dado que su función principal es facilitar informes casi en tiempo real, su uso es opcional. Aunque un único EDW puede albergar múltiples ODS, dado que su función principal es facilitar informes casi en tiempo real, su uso es obligatorio. el grado de "actualización de datos" no depende de los requisitos de informes. Enterprise Data Warehouse: Área de ensayo Chequee las opciones relacionadas. Un área de ensayo es un almacenamiento temporal (una base de datos) utilizada para preparar datos para el almacén de datos. Un área de ensayo es un almacenamiento permanente (una base de datos) utilizada para preparar datos para el almacén de datos. Una de las principales razones de su uso es asegurarse de que todos los datos requeridos para un depósito de datos estén disponibles en todos los sistemas. es posible extraer datos de todos los sistemas al mismo tiempo debido a diversos problemas técnicos o comerciales. No es posible extraer datos de todos los sistemas al mismo tiempo debido a diversos problemas técnicos o comerciales. se requiere un búfer de almacenamiento (el área de preparación) donde se pueden almacenar datos extraídos de diferentes sistemas en diferentes momentos con diferentes frecuencias. Por lo general, incluye un proceso ETL que transporta los datos de los sistemas fuente a un área de almacenamiento temporal. Este proceso también contiene operaciones de limpieza de datos, validación y transformación de modelos. Según la cantidad de fuentes de datos, la frecuencia de importación de datos y la complejidad de las operaciones de preparación de datos, algunas empresas simplemente pueden usar un proceso ETL para alimentar datos directamente al almacén de tabla en lugar de cargarlo primero en un área de ensayo. Enterprise Data Warehouse: Almacén de datos chequee las opciones correctas. Un almacén de datos es una base de datos real que actúa como la versión única de la verdad para la empresa al almacenar datos estandarizados de toda la empresa en una forma desnormalizada que es apta para informes y análisis de datos. El modelo y el esquema de datos del almacén de datos se diseñan teniendo en cuenta el tipo de consultas de informes y análisis que necesita para respaldar. Siendo la versión única de la verdad, los datos en el almacén son altamente investigados a través de la aplicación de reglas comerciales, varias políticas y verificaciones de verificación. Tiene una gran cantidad de datos históricos y actuales. Aunque los datos históricos pueden remontarse a varios años, la frescura de los datos actuales depende de los requisitos de informes y análisis de una empresa. Enterprise Data Warehouse: Almacén de datos chequee las opciones correctas. Un almacén de datos almacena datos relacionados con diversas entidades comerciales, como productos o clientes. A diferencia de un sistema OLTP, los datos se insertan o recuperan, pero no se actualizan en un depósito de datos. Cuando se compara con un ODS, las consultas son generalmente más complejas, involucrando múltiples tablas que abarcan un rango más largo de datos. Por otro lado, la frecuencia de importación de datos es poco frecuente, ya que un almacén de datos no se utiliza para informes operacionales. Al igual de un sistema OLTP, los datos se insertan y recuperan, y se actualizan en un depósito de datos. Cuando se compara con un ODS, las consultas son generalmente más sencillas, involucrando múltiples tablas que abarcan un rango más pequeño de datos. Enterprise Data Warehouse: Data Mart chequee las opciones correctas. Un data mart es una base de datos relacional que consiste en un subconjunto de datos almacenados en un almacén de datos. Un data mart es una base de datos relacional que consiste en un conjunto de datos almacenados en un almacén de datos. Este subconjunto de datos cumple con los requisitos de informes y análisis de un área comercial particular, como un departamento comercial. Este conjunto de datos cumple con los requisitos de informes y análisis de varias áreas. Puede haber múltiples mercados de datos dentro de un único almacén de datos, cada uno de los cuales sirve a una unidad comercial en particular. Puede haber múltiples mercados de datos dentro de un único almacén de datos, cada uno de los cuales sirve a múltiples unidades comerciales. En esencia, una plataforma de datos proporciona una vista particular de los datos almacenados en el almacén de datos. Aunque una plataforma de datos hace que el análisis y la generación de informes de datos sean más fáciles y rápidos debido a que los datos almacenados están altamente personalizados de acuerdo con los requisitos específicos, sí redunda en redundancia de datos. Aunque una plataforma de datos hace que el análisis y la generación de informes de datos sean más fáciles y rápidos debido a que los datos almacenados están altamente personalizados de acuerdo con los requisitos específicos, no redunda en redundancia de datos. Enterprise Data Warehouse: Base de Datos Analítica chequee las opciones correctas. Una base de datos analítica es una base de datos optimizada que se utiliza para realizar actividades de BI y analítica. Una base de datos analítica puede no estar separada de la EDW en términos físicos, ya que puede existir como una base de datos separada. En general, es una base de datos de inserción de solo lectura que utiliza una arquitectura de MPP compartida o arquitectura de todo compartido. Los datos se alimentan desde el almacén de datos a la base de datos analítica y a intervalos regulares. Algunas implementaciones hacen uso de bases de datos columnares, que están orientadas a columnas en lugar de orientadas a filas. Esto ayuda a reducir significativamente el tiempo de ejecución de las consultas analíticas que generalmente implican la agregación de valores de columna específicos para un gran número de filas, como el cálculo de un total o promedio. Por otro lado, algunos usan soluciones en memoria para proporcionar acceso rápido a datos. Ejemplos de bases de datos analíticas incluyen bases de datos OLAP. Teradata, IBM Netezza y Oracle Exadata. En general, son caros y pueden incluir el hardware y el software necesarios en forma de un dispositivo. Comparación entre EDW y Big Data: • Una EDW trata con datos estructurados desde la ingestión hasta la salida. La entrada al EDW se compone de datos relacionales cuya estructura se conoce antes de tiempo?. verdadero. falso. Comparación entre EDW y Big Data: • De forma similar, los requisitos de datos de salida (consultas del usuario) de un EDW se conocen de antemano. falso. verdadero. Comparación entre EDW y Big Data. Las cargas de trabajo y los patrones de consulta también se conocen de antemano, por ejemplo, los informes financieros de fin de mes. EDW generalmente se construyen para analítica descriptiva y de diagnóstico ya que la naturaleza de las preguntas se relaciona con el pasado. Los EDW se adaptan muy bien al procesamiento de datos tradicional, donde los datos se recopilan, procesan, administran y utilizan para informes y análisis solo después de que se generan modelos de datos. Desde el punto de vista de la escalabilidad, dado que los EDW generalmente se basan en una arquitectura de todo compartido, la única opción es escalar cuando se enfrentan los requisitos de mayor almacenamiento y tiempos de respuesta más rápidos. Los datos almacenados en EDW están altamente estandarizados porque han pasado por procesos de limpieza de datos, validación, calidad y de duplicación, lo que sugiere que los datos son de gran valor. Los EDW siguen una arquitectura de procesamiento de datos centralizada donde todos los datos deben ubicarse centralmente. Big Data se compone principalmente de datos no estructurados que no tienen una estructura definida. A menos que se analice, los datos pueden no tener ningún valor. El análisis de Big Data requiere que los datos se almacenen en su forma original sin modelarlos primero. Una vez recolectada, la fase exploratoria separa la señal (datos valiosos) del ruido. Big Data generalmente requiere el análisis de los datos en su forma original sin necesariamente convertirse en datos relacionales. Comparación entre EDW y Big Data. El almacenamiento subyacente debe ser económico, ya que se acumulan grandes volúmenes de datos en un período de tiempo más corto. Big Data requiere una arquitectura de almacenamiento y procesamiento altamente escalable y distribuida con soporte de escalamiento horizontal. La arquitectura subyacente necesita soportar consultas analíticas predictivas y prescriptivas que hacen uso de conjuntos de datos completos / grandes en lugar de conjuntos de datos de muestras / más pequeños. Las cargas de trabajo de consulta generalmente son desconocidas debido a la naturaleza ad hoc de las consultas analíticas. comparación de EDW y Big Data: Los EDW contienen datos de alto valor que han pasado por validación rigurosa y controles de calidad. Por otro lado, los datasets de Big Data deben almacenarse en sus formas no estructurados crudos, y sus valores son desconocidos. Big Data requiere un repositorio que actúe como sumidero para una variedad de fuentes de datos donde los datos se almacenan tal cual. A diferencia de EDW, en un entorno de Big Data, los datos no están precategorizados para responder consultas de análisis de datos específicos. En cambio, los datos se almacenan como un lago de datos sin ninguna organización formal. Esta comparación del almacenamiento de datos tradicional y Big Data revela que un EDW solo, no puede manejar los requisitos de volumen, velocidad, variedad, escalabilidad y análisis de datos de Big Data. No obstante, un EDW proporciona acceso centralizado a datos de alto valor recopilados de toda la empresa para informes de baja latencia / informes altamente enfocados y análisis de datos. Al comparar el valor de un EDW en el contexto de las tecnologías Big Data, se puede concluir que este último no debe reemplazar al primero. En cambio, deberían complementarse para obtener el máximo valor. La combinación de ambos no solo cumple varios requisitos de almacenamiento de datos, sino que también ayuda a realizar diversos tipos de análisis de datos que van desde descriptivos hasta prescriptivos. ¿una EDW puede usarse o no como la versión única de prueba de una empresa para el almacenamiento y análisis de Big Data?. falso. verdadero. ¿Cómo se pueden integrar las tecnologías de Big Data con un EDW existente en apoyo de la construcción del almacén de datos de la próxima generación?. El almacén de datos de la próxima generación consiste en tecnologías heterogéneas que brindan soporte para el almacenamiento y el análisis de datos estructurados y semiestructurados y no estructurados. Este enfoque híbrido no solo aprovecha la inversión existente con respecto a la tecnología EDW sino que también proporciona la capacidad analítica de Big Data. Un motor de procesamiento por lotes, como MapReduce, se puede usar para convertir datos semiestructurados y no estructurados en datos estructurados significativos que, cuando se combinan con datos EDW existentes, proporcionan la capacidad de realizar analítica profunda. el análisis de Big Data requiere una fase exploratoria en la que la información se extrae de los datos brutos. Este proceso exploratorio se puede enriquecer al unir datos brutos con los datos almacenados en EDW. Además, el proceso exploratorio se puede examinar haciendo referencia a los datos estandarizados que se encuentran en el EDW. ¿cuáles de los siguientes son enfoques comunes para EDW y la integración de Big Data?. Series. paralela. Dispositivo Big Data. Visualización de datos. Enfoque de serie. El enfoque en serie se une a la plataforma Big Data con EDW de forma secuencial. La plataforma de Big Data actúa como un motor de ETL para la ingestión de datos de diversas fuentes, incluidas las fuentes de datos estructurados (bases de datos operacionales), semiestructurados y no estructurados. La plataforma de Big Data en esta configuración es esencialmente un área de ensayo donde los datos consolidados de múltiples fuentes se almacenan al pie de la letra por primera vez. Las operaciones requeridas se realizan en una copia de los datos almacenados. Estas operaciones incluyen la limpieza, transformación, unión y cálculo de varias estadísticas. Una vez que los datos están en la estructura requerida, se incorporan a la EDW, lo que resulta en la creación de nuevas entidades comerciales o en el enriquecimiento de las existentes. El uso de la plataforma Big Data como área de preparación elimina la limitación de espacio limitada en comparación con el uso del área de preparación real de EDW, que solo puede almacenar datos que se remontan a un determinado momento. En consecuencia, se pueden ahorrar grandes cantidades de datos históricos de forma económica utilizando el almacenamiento altamente escalable de la plataforma Big Data. La plataforma Big Data alivia a EDW de procesar grandes cantidades de datos mediante el procesamiento previo de agregaciones de crujidos numéricos. Del mismo modo, solo los datos procesados deben mantenerse en el EDW. Los datos brutos históricos pueden permanecer en la plataforma Big Data. Esto ayuda a mantener una huella de datos más pequeña dentro de EDW, lo que resulta en una respuesta de consulta más rápida y un ahorro de espacio en el disco. Enfoque de serie Ventajas. El enfoque en serie es un enfoque de integración simple que ha reducido los requisitos de gestión y mantenimiento como resultado del flujo de datos unidireccional. Los datos fluyen desde las fuentes de datos a la plataforma Big Data, luego a EDW y eventualmente a las aplicaciones de análisis e informes de BI descendente. Este enfoque proporciona un entorno de almacenamiento y procesamiento de datos altamente escalable. Actuando como un motor de ingestión para todas las fuentes de datos, la plataforma Big Data representa una ventanilla única para enriquecer los datos operacionales con información de Big Data sin tener que copiar datos a múltiples repositorios. Almacenar una sola copia de datos también elimina la duplicación de datos. El uso de la plataforma Big Data solo para propósitos de ETL limita su potencial de procesamiento que puede ser utilizado por aplicaciones analíticas posteriores para procesar grandes cantidades de datos en apoyo del análisis exploratorio y la generación de modelos. La configuración inicial del enfoque en serie puede dar como resultado la reconfiguración o migración de los canales de ingreso de datos existentes que están actualmente conectados al EDW, lo que puede ocasionar un posible tiempo de inactividad del sistema. Las herramientas de BI y otras aplicaciones analíticas no pueden utilizar directamente la plataforma de Big Data. Esto resulta en una incapacidad para acceder directamente a las grandes cantidades de datos sin formato almacenados dentro de la plataforma Big Data, que es un requisito principal para analítica predictiva y prescriptiva. Enfoque de serie Desventajas. El enfoque en serie es un enfoque de integración simple que ha reducido los requisitos de gestión y mantenimiento como resultado del flujo de datos unidireccional. Los datos fluyen desde las fuentes de datos a la plataforma Big Data, luego a EDW y eventualmente a las aplicaciones de análisis e informes de BI descendente. Este enfoque proporciona un entorno de almacenamiento y procesamiento de datos altamente escalable. Actuando como un motor de ingestión para todas las fuentes de datos, la plataforma Big Data representa una ventanilla única para enriquecer los datos operacionales con información de Big Data sin tener que copiar datos a múltiples repositorios. Almacenar una sola copia de datos también elimina la duplicación de datos. El uso de la plataforma Big Data solo para propósitos de ETL limita su potencial de procesamiento que puede ser utilizado por aplicaciones analíticas posteriores para procesar grandes cantidades de datos en apoyo del análisis exploratorio y la generación de modelos. La configuración inicial del enfoque en serie puede dar como resultado la reconfiguración o migración de los canales de ingreso de datos existentes que están actualmente conectados al EDW, lo que puede ocasionar un posible tiempo de inactividad del sistema. Las herramientas de BI y otras aplicaciones analíticas no pueden utilizar directamente la plataforma de Big Data. Esto resulta en una incapacidad para acceder directamente a las grandes cantidades de datos sin formato almacenados dentro de la plataforma Big Data, que es un requisito principal para analítica predictiva y prescriptiva. Enfoque paralelo. En el enfoque paralelo, la plataforma Big Data y EDW trabajan juntas. Los dos sistemas están unidos por una interconexión que reúne datos entre ellos. EDW recopila y procesa todos los datos operativos, mientras que la plataforma Big Data solo se utiliza para recopilar y procesar conjuntos de datos de Big Data. La plataforma Big Data limpia y procesa principalmente datos semiestructurados y no estructurados. Almacena tanto los datos en bruto como los procesados. Algunos datos procesados pueden exportarse a la EDW con fines de enriquecimiento de datos. Las herramientas de BI y las aplicaciones analíticas se pueden conectar directamente a EDW y a la plataforma Big Data. La interconexión juega un papel fundamental en este enfoque arquitectónico porque el rendimiento del sistema en general depende de su eficiencia. la interconexión es generalmente un conector directo de dos vías que transporta datos entre EDW y la plataforma Big Data. Enfoque paralelo Ventajas. La introducción de la plataforma Big Data en esta configuración es comparativamente menos disruptiva porque la plataforma Big Data es esencialmente un módulo complementario para procesar datos semiestructurados y no estructurados. Proporciona un diseño altamente escalable donde ambos subsistemas (EDW y la plataforma Big Data) pueden envolver sin afectarse entre ellos. Las herramientas de BI y las aplicaciones analíticas pueden hacer uso tanto de los datos semiestructurados y no estructurados (plataforma Big Data) como de los datos estructurados de toda la empresa (EDW). La ingestión de datos se divide entre los subsistemas, lo que ayuda a gestionar la ingestión de datos operativos por separado de las fuentes de Big Data, donde es posible que haya que integrar más fuentes de datos con análisis cada vez más diversos y complejos. Con grandes intercambios de datos, la interconexión puede ser un cuello de botella. La implementación y mantenimiento de la interconexión puede volverse compleja si incorpora un procesamiento de datos complicado, como la traducción entre diferentes tipos de datos. Un ejemplo de esto es la lectura de datos de una tabla de base de datos NoSQL en su equivalente relacional. Enfoque paralelo Desventajas. La introducción de la plataforma Big Data en esta configuración es comparativamente menos disruptiva porque la plataforma Big Data es esencialmente un módulo complementario para procesar datos semiestructurados y no estructurados. Proporciona un diseño altamente escalable donde ambos subsistemas (EDW y la plataforma Big Data) pueden envolver sin afectarse entre ellos. Las herramientas de BI y las aplicaciones analíticas pueden hacer uso tanto de los datos semiestructurados y no estructurados (plataforma Big Data) como de los datos estructurados de toda la empresa (EDW). La ingestión de datos se divide entre los subsistemas, lo que ayuda a gestionar la ingestión de datos operativos por separado de las fuentes de Big Data, donde es posible que haya que integrar más fuentes de datos con análisis cada vez más diversos y complejos. Con grandes intercambios de datos, la interconexión puede ser un cuello de botella. La implementación y mantenimiento de la interconexión puede volverse compleja si incorpora un procesamiento de datos complicado, como la traducción entre diferentes tipos de datos. Un ejemplo de esto es la lectura de datos de una tabla de base de datos NoSQL en su equivalente relacional. Dispositivo Big Data Enfoque. Un dispositivo Big Data es un entorno preconfigurado que consiste en: almacenamiento relacional y no relacional. recursos de procesamiento. una interconexión (entre almacenamiento de datos y recursos de procesamiento) . un sistema operativo. un conjunto de API. entornos de configuración, gestión y desarrollo de aplicaciones. marcos de procesamiento de datos distribuidos / paralelos. cualquier otro hardware requerido. Un dispositivo Big Data generalmente hace uso de la tecnología MPP. La implementación a veces puede emplear SMP y MPP juntos en diferentes etapas de procesamiento de datos. Dispositivo Big Data Enfoque. Un dispositivo Big Data es un entorno preconfigurado que consiste en: Todos los componentes dentro de un dispositivo Big Data están altamente optimizados por medio de bases de datos propietarias, protocolos propietarios de transferencia de datos, interconexiones de alta velocidad y técnicas de aceleración de hardware. Un dispositivo Big Data proporciona un entorno integrado para almacenamiento de datos y datos analíticos. Normalmente proporciona conectores para integrar otro almacenamiento propietario y de código abierto, incluidas las bases de datos de almacenamiento NoSQL. Un dispositivo de este tipo es de naturaleza modular y admite el comportamiento plug-and-play, así como la expansión de almacenamiento. Puede ingerir datos estructurados y semiestructurados y no estructurados. La mayoría de las implementaciones proporcionan capacidades de análisis de datos en tiempo real o casi en tiempo real. Este enfoque reemplaza la plataforma existente de EDW y Big Data con una sola plataforma preconfigurada capaz de almacenar datos estructurados y no estructurados. Dispositivo Big Data enfoque: ventajas. Sin la necesidad de mantener dos sistemas separados (EDW y la plataforma Big Data), el mantenimiento operacional continuo es sencillo. La mayoría de las implementaciones del dispositivo Big Data permiten analítica en tiempo real y casi en tiempo real sin la necesidad de integrar múltiples tecnologías dispares, como captura de eventos y bases de datos en memoria. Por lo general, brinda soluciones integradas para diversos análisis de datos no estructurados, como el análisis de registro de la máquina. este enfoque reduce significativamente el tiempo de la analítica al proporcionar una forma integral para la ingestión, procesamiento y análisis de datos. El enfoque del dispositivo Big Data admite análisis e informes de datos de latencia muy baja. Proporciona integración con otros almacenes de datos a través de conexiones y también proporciona escalabilidad horizontal con tolerancia a fallas. Como el enfoque del dispositivo Big Data es una solución propietaria, existe el peligro de que el proveedor se enganche. La introducción de un dispositivo Big Data en un entorno de TI existente generalmente requiere la sustitución del EDW existente, lo que puede dar lugar a un considerable requisito de planificación inicial y un posible sistema de inactividad del sistema. Requiere una configuración inicial compleja, que usualmente resulta en costos de consulta. En general, los dispositivos Big Data son bastante caros. Dispositivo Big Data enfoque: Desventajas. Sin la necesidad de mantener dos sistemas separados (EDW y la plataforma Big Data), el mantenimiento operacional continuo es sencillo. La mayoría de las implementaciones del dispositivo Big Data permiten analítica en tiempo real y casi en tiempo real sin la necesidad de integrar múltiples tecnologías dispares, como captura de eventos y bases de datos en memoria. Por lo general, brinda soluciones integradas para diversos análisis de datos no estructurados, como el análisis de registro de la máquina. este enfoque reduce significativamente el tiempo de la analítica al proporcionar una forma integral para la ingestión, procesamiento y análisis de datos. El enfoque del dispositivo Big Data admite análisis e informes de datos de latencia muy baja. Proporciona integración con otros almacenes de datos a través de conexiones y también proporciona escalabilidad horizontal con tolerancia a fallas. Como el enfoque del dispositivo Big Data es una solución propietaria, existe el peligro de que el proveedor se enganche. La introducción de un dispositivo Big Data en un entorno de TI existente generalmente requiere la sustitución del EDW existente, lo que puede dar lugar a un considerable requisito de planificación inicial y un posible sistema de inactividad del sistema. Requiere una configuración inicial compleja, que usualmente resulta en costos de consulta. En general, los dispositivos Big Data son bastante caros. Virtualización de datos enfoque. La virtualización de datos proporciona una vista unificada de datos a través de múltiples fuentes de datos basadas en la integración semántica. La integración semántica permite la transferencia de datos entre fuentes de datos dispares donde la misma información podría tener diferentes significados, ya sea debido a una diferencia en la estructura de datos o una diferencia contextual. Esto generalmente implica representar la información en un formato estandarizado y agregar información contextual con metadatos. Generalmente se implementa como Datos-como-un-Servicio (DaaS) mediante la aplicación de principios de orientación de servicio. Este enfoque es análogo al enfoque paralelo y también se conoce como almacén de datos lógicos. En lugar de utilizar una interconexión pasiva entre el EDW y la plataforma Big Data, se utiliza una capa de integración más inteligente para proporcionar una vista federada de los datos a los consumidores de datos. Con este enfoque, no es necesario copiar los datos de las fuentes de datos para crear vistas específicas de datos. En cambio, las fuentes de datos se eliminan, y los datos requeridos se exponen como vistas lógicas a través de interfaces estandarizadas, como los servicios RESTful. Los datos de toda la empresa, incluidas las bases de datos operacionales y las EDW, así como de la plataforma de Big Data, se recopilan de forma lógica y se presentan en forma relacional. Construido en tecnologías semánticas, la virtualización de datos proporciona herramientas BI y aplicaciones analíticas de datos con acceso directo a fuentes de datos a través de servicios estandarizados que eliminan la necesidad de operaciones ETL y códigos de integración personalizados. Es un enfoque arquitectónico relativamente nuevo para integrar conjuntos de datos Big Data dentro de una empresa. virtualización de datos enfoque: ventajas. El enfoque de virtualización de datos proporciona acceso instantáneo a datos empresariales tradicionales, así como a conjuntos de datos Big Data sin la necesidad de interconexión entre EDW y la plataforma Big Data. Elimina la duplicación de datos al eliminar la necesidad de hacer copias de datos de múltiples fuentes. Este enfoque hace que los conjuntos de datos no relacionales (Big Data) sean más accesibles mediante el uso de interfaces estandarizadas. La abstracción de las fuentes de datos proporciona un acoplamiento flexible entre los productores de datos (almacenes de datos relacionales y no relacionales) y los consumidores de datos. Esto ayuda a envolver ambos extremos independientemente sin que uno afecte al otro. El funcionamiento de la virtualización de datos depende en gran medida de la existencia de metadatos en todas las fuentes de datos. La virtualización de datos utiliza un enfoque basado en adaptadores para conectarse con varias fuentes de datos. virtualización de datos enfoque: Desventajas. La implementación de la virtualización de datos puede ser compleja y consumir mucho tiempo. El funcionamiento de la virtualización de datos depende en gran medida de la existencia de metadatos en todas las fuentes de datos. La implementación exitosa de la virtualización de datos implica la creación inicial de modelos de datos, que requieren análisis de datos de todas las fuentes de datos. la virtualización de datos generalmente se implementa a través de un software complejo que puede ser costoso de adquirir. La virtualización de datos utiliza un enfoque basado en adaptadores para conectarse con varias fuentes de datos. Con intercambios de datos muy grandes, los adaptadores y la capa de virtualización de datos en su conjunto pueden convertirse en un cuello de botella. Cualquier mal funcionamiento de la latencia dentro de los productores de datos tendrá un impacto directo en los consumidores de datos. Para reducir los costos de almacenamiento y acelerar los informes operativos, un sistema de procesamiento de transacciones en línea (OLTP) puede ser reemplazado por un almacén de datos operacionales (ODS). verdadero. falso. En un almacén de datos, los datos se guardan en una forma completamente normalizada para facilitar el informe. falso. verdadero. Cuando se compara con ODS, las consultas de un data warehouse son generalmente más complejas, involucrando múltiples tablas que abarcan un rango de datos más largo. Sin embargo, la importación de datos es menos frecuente porque un almacén de datos no se usa para informes operativos. verdadero. falso. Una base de datos analítica puede basarse en una base de datos en columnas o en soluciones de memoria para un acceso rápido a los datos. verdadero. falso. Para obtener los beneficios relacionados con la adopción de Big Data, un EDW debe reemplazarse con tecnologías específicas de Big Data, ya que EDW no puede asignar datos no estructurados. falso. verdadero. El almacén de datos de la próxima generación consiste en tecnologías de almacenamiento Big Data que pueden almacenar grandes cantidades de datos estructurados y no estructurados. falso. verdadero. En un entorno de Big Data, las cargas de trabajo de consulta generalmente son desconocidas debido a la naturaleza ad hoc de las consultas analíticas. falso. verdadero. En el enfoque en serie de EDW e Integración Big Data, la plataforma Big Data ingiere datos semiestructurados y no estructurados, y EDW solo ingiere datos estructurados. falso. verdadero. Una desventaja del enfoque en serie es que no se puede acceder directamente a la plataforma de Big Data para realizar análisis de grandes cantidades de datos brutos. verdadero. falso. En el enfoque paralelo de EDW y la integración de Big Data, la interconexión es un conector unidireccional entre EDW y la plataforma Big Data. falso. verdadero. Una de las desventajas del dispositivo Big Data es que no proporciona escalabilidad horizontal ya que es una solución en caja. falso. verdadero. El enfoque del dispositivo Big Data facilita el mantenimiento continuo del sistema porque este enfoque combina el EDW y la plataforma Big Data en un solo sistema preconfigurado. falso. verdadero. El enfoque de virtualización de datos también se conoce como almacén de datos lógicos. verdadero. falso. El enfoque de virtualización de datos utiliza una interconexión para proporcionar una vista unificada de datos a través de múltiples fuentes de datos. falso. verdadero. Una de las desventajas del enfoque de virtualización es que los datos de todas las fuentes de datos aún deben copiarse en un repositorio central para crear los servicios requeridos. falso. verdadero. Relacione los términos. Nube Privada. Nube Híbrida. Nube Pública. Relacione los términos. ¿Qué modelo de entrega en la nube proporciona el máximo control sobre los recursos de procesamiento, y requiere la participación continua del equipo de TI para configurar inicialmente la plataforma de Big Data y mantenerla en funcionamiento ?. ¿Qué modelo de entrega en la nube ofrece procesamiento de datos sin procesar tal como MapReduce o servicios especializados de analítica?. ¿Qué modelo de entrega en la nube proporciona un tiempo de implementación más corto, a la vez que requiere poca gestión permanente de los recursos de TI?. Relacione los términos. ¿John quiere llevar a cabo analíticas predictivas utilizando una variedad de archivos de registro (log files) textuales. Sin embargo, la infraestructura actual de almacenamiento de datos consiste en tecnologías de bases de datos relacionales. John logra su objetivo almacenando y preprocesando los archivos de registro (log files) sin afectar el almacenamiento actual. ¿Qué patrón compuesto utilizó John?. Cada día, la oficina principal de ABC recibe un gran volumen de reportes provenientes de cada una de sus sucursales de todo el mundo. A partir de estos reportes se obtienen los datos de desempeño, que luego son importados a la bodega de datos digital (Data Warehouse) de la empresa, donde son usados para varias tareas de reporte. Los reportes están en formato XML y son convertidos dentro de una base de datos relacional; y posteriormente se ejecuta una utilidad para llevar a cabo la limpieza (Cleansing) y extracción de los datos necesarios. El proceso completo de ingesta y carga dentro de la bodega de datos digital (Data Warehouse) toma mucho tiempo; y debido a que los reportes se vuelven más detallados, se puede anticipar que no será posible procesar los reportes de manera oportuna.¿Qué patrón compuesto se puede utilizar para procesar los reportes XML sin necesidad de una base de datos provisional?. Relacione los términos. XYZ quiere mejorar sus capacidades analíticas mediante la recopilación de grandes volúmenes de datos estructurados y sin estructurar en toda la empresa, permitiéndoles a sus científicos de datos llevar a cabo analíticas avanzadas. Sin embargo, a los arquitectos de Big Data se les informó que hacerlo no afectará las operaciones actuales de la bodega de datos digital (Data Warehouse) empresarial, y que cualquier infraestructura de tecnología necesaria debería mantenerse separada del entorno actual de TI. ¿Qué patrón compuesto deben utilizar los arquitectos de Big Data para configurar la plataforma de Big Data correspondiente?. Una gran tienda de libros online ofrece actualmente a sus posibles clientes una gran variedad de libros en su página web. Sin embargo, la tienda planea mostrar recomendaciones personalizadas a sus clientes con base en sus perfiles y los tipos de libros que hayan adquirido en el pasado. Este proceso implica ingerir grandes volúmenes de datos de los perfiles de los clientes a partir del sistema CRM, combinarlos con el historial de compras de los clientes y aplicar un algoritmo de aprendizaje automático (Machine Learning). Después, los resultados obtenidos son ingresados en la página web que el cliente está utilizando. ¿Qué patrón compuesto puede utilizarse para implementar la solución necesaria?. Relacione los términos. Una gran compañía de celulares está mejorando su proceso mensual de facturación mediante la introducción de facturas desglosadas. No obstante, con más de 5 millones de clientes, completar un proceso tan simple requiere mucho tiempo. La compañía prevé que la nueva característica tomará el doble del tiempo que tarda actualmente. Davon, un arquitecto de Big Data, propone una solución basada en tecnología de Big Data que permitiría completar rápidamente el nuevo proceso de facturación desglosada. ¿Qué patrón compuesto utilizará Davon para completar dicha tarea?. XYZ, un reconocido fabricante de autos, ha modernizado sus instalaciones de fabricación al agregar varios sensores en toda la línea de ensamblaje. Cada sensor realiza una lectura cada cinco segundos. XYZ debe monitorear las lecturas que hace cada sensor a medida que son transmitidas. El proceso de monitoreo incluye una comparación de grupos relacionados de lecturas de sensores para garantizar que dichas lecturas se encuentran dentro de los parámetros predeterminados. ¿Qué patrón compuesto puede utilizarse para obtener el resultado deseado?. Relacione los términos. Los científicos de datos de ABC frecuentemente requieren acceder a datos históricos sin procesar, que se remontan hasta diez años atrás, para realizar diversos análisis de datos (Data Analysis). Jackie, la arquitecta de Big Data, debe proporcionar los datos necesarios de tal manera que los datos puedan ser recuperados sin retraso alguno. ¿Qué configuración debería utilizar Jackie para implementar la plataforma de Big Data?. Se le ha solicitado al equipo de Inteligencia de negocios (BI) de una gran tienda minorista que integre las cifras de ventas semanales en un tablero de control (Dashboard), el cual actualmente muestra las cifras de ventas diarias. El equipo se dio cuenta que el almacén actual de datos operativos, el cual es utilizado para generar cifras de ventas diarias, ya está funcionando a su máxima capacidad de almacenamiento. ¿Qué configuración debería utilizar el equipo para implementar una solución utilizando la plataforma de Big Data?. ABC, un pequeño fabricante de juguetes, ha crecido de forma estable durante los últimos cinco años. El entorno actual de TI de ABC consta de un sistema ERP y un sistema CRM. Ambos sistemas están basados en código abierto, ya que ABC solo dispone de una pequeña cantidad de presupuesto para TI. Las ventas son monitoreadas mediante reportes que se elaboran para fin de mes, a partir de consultas por medio de los sistemas ERP y CRM. Sin embargo, estos reportes solo se remontan a seis meses atrás, por lo que los datos antiguos se archivan dentro de una unidad de cinta. ¿Qué patrón compuesto puede utilizarse para que ABC mantenga grandes volúmenes de datos transaccionales online, a partir de los cuales se pueden elaborar reportes detallados de ventas con más frecuencia?. El aplicativo de Big Data facilita el mantenimiento de un sistema continuo, debido a que dicho enfoque combina la EDW con la plataforma de Big Data en un único sistema preconfigurado. verdadero. falso. Respecto al enfoque en serie de la integración entre EDW y Big Data, la ingesta de datos semiestructurados y sin estructurar se lleva a cabo en la plataforma de Big Data, mientras que la ingesta de datos estructurados se realiza en la EDW. falso. verdadero. El enfoque de virtualización de datos también es conocido como bodega de datos digital (Data Warehouse) lógica. verdadero. falso. La bodega de datos digital (Data Warehouse) de última generación consiste en tecnologías de almacenamiento de Big Data que puedan almacenar grandes volúmenes de datos estructurados y sin estructurar. falso. verdadero. El enfoque de virtualización de datos utiliza una interconexión para ofrecer una perspectiva unificada de los datos en varias fuentes de datos. falso. verdadero. Una desventaja del enfoque en serie es que no se puede acceder directamente a la plataforma de Big Data para realizar análisis de grandes volúmenes de datos sin procesar. falso. verdadero. Para reducir los costos de almacenamiento y acelerar el reporte operativo, es posible reemplazar un sistema de Procesamiento de Transacciones en Línea (OLTP) por un almacén de datos operativos (ODS). falso. verdadero. Una base de datos analítica puede estar basada en columnas o en soluciones en memoria para un acceso rápido a los datos. verdadero. falso. Al compararlas con un ODS, las consultas de la bodega de datos digital (Data Warehouse) son generalmente más complejas e incluyen múltiples tablas que abarcan una gama de datos más amplia. Sin embargo, la importación de datos es menos frecuente, debido a que una bodega de datos digital (Data Warehouse) no se utiliza para el reporte operativo. verdadero. falso. En una bodega de datos digital (Data Warehouse), los datos son mantenidos en forma completamente normalizada para un reporte más sencillo. falso. verdadero. Una de las desventajas del enfoque de virtualización es que los datos de todas las fuentes de datos deben ser copiados a un repositorio central, a fin de crear los servicios necesarios. falso. verdadero. A fin de obtener los beneficios relacionados con la adopción de Big Data, es necesario reemplazar una EDW por las tecnologías específicas de Big Data, puesto que la EDW no puede almacenar datos sin estructurar. falso. verdadero. En un entorno Big Data, las cargas de trabajo de consulta son generalmente desconocidas, debido a la naturaleza especial de las consultas analíticas. verdadero. falso. Una de las desventajas del aplicativo de Big Data es que no ofrece una escalabilidad horizontal, debido a que consiste en una solución empaquetada. falso. verdadero. En el enfoque en paralelo de la integración entre EDW y la plataforma de Big Data, la interconexión consiste en un conector unidireccional entre la EDW y la plataforma de Big Data. falso. verdadero. Una gran tienda de libros online ofrece actualmente a sus posibles clientes una gran variedad de libros en su página web. Sin embargo, la tienda planea mostrar recomendaciones personalizadas a sus clientes con base en sus perfiles y los tipos de libros que hayan adquirido en el pasado. Este proceso implica ingerir grandes volúmenes de datos de los perfiles de los clientes a partir del sistema CRM, combinarlos con el historial de compras de los clientes y aplicar un algoritmo de aprendizaje automático (Machine Learning). Después, los resultados obtenidos son ingresados en la página web que el cliente está utilizando. ¿Qué patrón compuesto puede utilizarse para implementar la solución necesaria?. Mejora de Aplicaciones. ejecución automatizada de datasets. Cada día, la oficina principal de ABC recibe un gran volumen de reportes provenientes de cada una de sus sucursales de todo el mundo. A partir de estos reportes se obtienen los datos de desempeño, que luego son importados a la bodega de datos digital (Data Warehouse) de la empresa, donde son usados para varias tareas de reporte. Los reportes están en formato XML y son convertidos dentro de una base de datos relacional; y posteriormente se ejecuta una utilidad para llevar a cabo la limpieza (Cleansing) y extracción de los datos necesarios. El proceso completo de ingesta y carga dentro de la bodega de datos digital (Data Warehouse) toma mucho tiempo; y debido a que los reportes se vuelven más detallados, se puede anticipar que no será posible procesar los reportes de manera oportuna. ¿Qué patrón compuesto se puede utilizar para procesar los reportes XML sin necesidad de una base de datos provisional?. ejecución automatizada de datasets. transformación de datos. A fin de obtener los beneficios relacionados con la adopción de Big Data, es necesario reemplazar una EDW por las tecnologías específicas de Big Data, puesto que la EDW no puede almacenar datos sin estructurar. falso. verdadero. Se le ha solicitado al equipo de Inteligencia de negocios (BI) de una gran tienda minorista que integre las cifras de ventas semanales en un tablero de control (Dashboard), el cual actualmente muestra las cifras de ventas diarias. El equipo se dio cuenta que el almacén actual de datos operativos, el cual es utilizado para generar cifras de ventas diarias, ya está funcionando a su máxima capacidad de almacenamiento. ¿Qué configuración debería utilizar el equipo para implementar una solución utilizando la plataforma de Big Data?. Bodega de Datos Digital (Data Warehouse) de Big Data. Almacén de Datos Operativos. ¿Qué modelo de implementación en la nube es ideal para comenzar un proyecto de Big Data si ya se cuenta con el suficiente respaldo financiero o si los datasets se encuentran dentro del cortafuegos (firewall) de la empresa?. nube pública. nube privada. Una de las desventajas del aplicativo de Big Data es que no ofrece una escalabilidad horizontal, debido a que consiste en una solución empaquetada. falso. verdadero. El enfoque de virtualización de datos también es conocido como bodega de datos digital (Data Warehouse) lógica. falso. verdadero. En el enfoque en paralelo de la integración entre EDW y la plataforma de Big Data, la interconexión consiste en un conector unidireccional entre la EDW y la plataforma de Big Data. verdadero. falso. Al compararlas con un ODS, las consultas de la bodega de datos digital (Data Warehouse) son generalmente más complejas e incluyen múltiples tablas que abarcan una gama de datos más amplia. Sin embargo, la importación de datos es menos frecuente, debido a que una bodega de datos digital (Data Warehouse) no se utiliza para el reporte operativo. falso. verdadero. ABC, un pequeño fabricante de juguetes, ha crecido de forma estable durante los últimos cinco años. El entorno actual de TI de ABC consta de un sistema ERP y un sistema CRM. Ambos sistemas están basados en código abierto, ya que ABC solo dispone de una pequeña cantidad de presupuesto para TI. Las ventas son monitoreadas mediante reportes que se elaboran para fin de mes, a partir de consultas por medio de los sistemas ERP y CRM. Sin embargo, estos reportes solo se remontan a seis meses atrás, por lo que los datos antiguos se archivan dentro de una unidad de cinta. ¿Qué patrón compuesto puede utilizarse para que ABC mantenga grandes volúmenes de datos transaccionales online, a partir de los cuales se pueden elaborar reportes detallados de ventas con más frecuencia?. Bodega de Datos Digital (Data Warehouse) de Big Data. Almacén de Datos Operativos. En la arquitectura Lambda, ¿qué capa(s) se encarga(n) de crear vistas indexadas?. capa de lotes,capa de velocidad. capa de servicio, capa de velocidad. Para reducir los costos de almacenamiento y acelerar el reporte operativo, es posible reemplazar un sistema de Procesamiento de Transacciones en Línea (OLTP) por un almacén de datos operativos (ODS). falso. verdadero. ¿Qué modelo de entrega en la nube proporciona máximo control sobre los recursos de procesamiento y almacenamiento, y requiere la participación continua del equipo de TI para configurar inicialmente la plataforma de Big Data y mantenerla en funcionamiento?. SAAS. IAAS. En la arquitectura Lambda, ¿qué tipo de capa es responsable de convertir vistas en vistas indexadas?. capa de velocidad. capa de servicio. Para lograr que la capa de consultas funcione de manera eficiente, ¿qué tipo de vista debe existir como condición previa?. vista calculada. vista indexada. Una de las desventajas del enfoque de virtualización es que los datos de todas las fuentes de datos deben ser copiados a un repositorio central, a fin de crear los servicios necesarios. falso. verdadero. |




