SBD04
![]() |
![]() |
![]() |
Título del Test:![]() SBD04 Descripción: TEMA 4 SISTEMAS DE BIG DATA |




Comentarios |
---|
NO HAY REGISTROS |
La Analítica de Datos: Es un concepto amplio que incluye dentro al Análisis de Datos. Está incluida dentro del Análisis de Datos. Es un concepto equivalente al Análisis de Datos. Es equivalente al Gobierno de Datos. CRISP-DM es: Una metodología de proceso cíclico ampliamente empleada para el proceso de minería de datos. Una metodología de proceso secuencial ampliamente empleada para el proceso de minería de datos. El acrónimo de una lista de pasos que se emplean en muchas ocasiones a modo de metodología para la minería de datos. Un algoritmo. Los pasos de SEMMA son: Sample, Explore, Modify, Model, Access. Sample, Explote, Modify, Model, Access. Sample, Explore, Measure, Model, Access. Sample, Explore, Model, Modify, Access. Un problema será considerado tratable: Si se puede encontrar un algoritmo capaz de resolverlo en tiempo polinomial. Si se puede encontrar un algoritmo capaz de resolverlo en tiempo exponencial. Si no existe un algoritmo que lo resuelva en tiempo polinomial. Si no existe un algoritmo que lo resuelva en tiempo exponencial. Una de las siguientes no está entre las actividades de la Analítica de Datos: Política de Datos. Obtención/recolección de los datos desde diversas fuentes. Gobierno de Datos. Análisis de Datos. El lenguaje Python: Es un lenguaje de programación de alto nivel, interpretado y de propósito general. Es un lenguaje de programación de alto nivel, compilando y de propósito general. Es un lenguaje de programación creado específicamente para facilitar el análisis de datos. Está basado en el lenguaje R. Para importar la librería Pandas en Python usaremos una línea como la siguiente: import pandas as pd. export pandas as pd. load pandas. import pandas.pd. El Análisis Diagnóstico: Intenta determinar la causa de un fenómeno que ha ocurrido o está ocurriendo. Por lo general produce como resultado reportes o cuadros de mando estáticos. No emplea estructuras de datos tipo OLAP. Intenta predecir qué ocurrirá en un futuro. Los arrays en R: Son multidimensionales. Son monodimensionales. Son bidimensionales. En R no hay arrays. Matplotlib es: La librería comúnmente utilizada en Python para generar todo tipo de gráficos. La librería de Python que nos ofrece funcionalidad sobre arrays. La librería de R que nos ofrece funcionalidad sobre arrays. Un lenguaje de programación de alto nivel, interpretado y de propósito general. Si trabajamos con R: Contamos con gran cantidad de conjuntos de datos dentro de paquetes a los cuales podemos acceder si están instalados. Cargamos siempre los datos desde fichero con la función load_data. No es necesario instalar ningún paquete porque todo está incluído. Realizamos visualización de datos mediante la librería Matplotlib. El Análisis Descriptivo: Por lo general produce como resultado reportes o cuadros de mando estáticos. Por lo general produce como resultado reportes dinámicos. Es análogo al Análisis Disruptivo. Por lo general produce como resultado cuadros de mando dinámicos. El Análisis Prescriptivo: Se apoya en los resultados que es capaz de producir el Análisis Predictivo. Se apoya en los resultados que es capaz de producir el Análisis Descriptivo. Por lo general produce como resultado reportes o cuadros de mando estáticos. Intenta determinar la causa de un fenómeno que ha ocurrido o está ocurriendo. Si queremos saber de cuántos modos distintos podemos ordenar una lista: Estaremos calculando entonces el número de permutaciones. Estaremos calculando entonces el número de variaciones. Estaremos calculando entonces el número de combinaciones. Estaremos calculando entonces el número de nodos. Matplotlib permite: Crear distintos tipos de gráficos, como de línea, de puntos o de barras. Ejecutar un algoritmo en tiempo real. Crear gráficos de barras. Crear distintos tipos de gráficos, como de línea o de puntos. El pseudocódigo: Está medio camino del lenguaje natural y del lenguaje de programación. Se produce a partir del lenguaje ensamblador. Es un diagrama de flujo. Permite comprobar el valor de las variables en tiempo de ejecución. Un algoritmo es: Un conjunto de instrucciones que realizadas en orden permiten solucionar un problema. Cualquier serie de comandos para una computadora. Un conjunto de instrucciones que realizadas en paralelo permiten solucionar un problema. Un conjunto de instrucciones a emplear como base para crear un diagrama de flujo. En un DataFrame de Pandas: Podemos añadir y eliminar columnas una vez está creado. No podemos añadir ni eliminar columnas una vez está creado. Podemos añadir columnas pero no eliminarlas una vez está creado. No podemos añadir columnas pero sí eliminarlas una vez está creado. Un diagrama de flujo: Debe tener un único nodo de inicio y al menos uno de final. Debe tener tantos nodos de inicio como de final. Puede tener más de un nodo de inicio. Sólo puede tener un nodo de final. Programando en R: Podemos asignar valores a variables variables usando = o <-. Podemos asignar valores a variables variables usando =. Podemos asignar valores a variables variables usando <-. Debemos declarar el tipo de cada variable antes de utilizarla. El Análisis Predictivo: Intenta predecir qué ocurrirá en un futuro. Intenta determinar la causa de un fenómeno que ha ocurrido o está ocurriendo. No emplea Machine Learning. Por lo general produce como resultado reportes o cuadros de mando estáticos. R es: Un lenguaje de programación interpretado de código abierto creado específicamente para facilitar el análisis de datos. Un lenguaje de programación compilado de código abierto creado específicamente para facilitar el análisis de datos. Un lenguaje de programación de alto nivel, interpretado y propósito general. Un lenguaje de programación interpretado de bajo nivel creado específicamente para facilitar el análisis de datos. Decimos que para un determinado problema aparece una explosión combinatoria: Cuando el número de posibles soluciones crece muy rápido a medida que aumentamos determinados valores de configuración del propio problema. Cuando el número de posibles soluciones decrece muy rápido a medida que aumentamos determinados valores de configuración del propio problema. Cuando el número de posibles soluciones crece muy rápido a medida que disminuimos determinados valores de configuración del propio problema. Cuando el número de posibles soluciones crece muy rápido a medida que se necesita más memoria para resolver el problema. Los Dataframes de R: Pueden almacenar distintos tipos de datos. Son multidimensionales. Son equivalentes a los arrays pero permitiendo distintos tipos de datos. Son equivalentes a las listas pero permitiendo distintos tipos de datos. En Python: No necesitamos declarar el tipo de datos de las variables. Debemos declarar el tipo de datos de las variables antes de utilizarlas asignarles valores. Asignamos valores a variables mediante <-. Mostramos valores mediante la función eco. SEMMA es: El acrónimo de una lista de pasos que se emplean en muchas ocasiones a modo de metodología para la minería de datos. Una metodología para el proceso de minería de datos que goza de una cierta oficialidad al provenir de un proyecto de la Unión Europea. Un proceso de para minería de datos con 6 fases. Un proceso cíclico. |