B90.04. Ciencia y análisis fundamentales de Big Data
![]() |
![]() |
![]() |
Título del Test:![]() B90.04. Ciencia y análisis fundamentales de Big Data Descripción: Preparación para test científico de datos |




Comentarios |
---|
NO HAY REGISTROS |
Conjunto general de principios, procesos y técnicas que permiten extraer conocimientos a partir de grandes cantidades de datos. Los datos son analizados para obtener y entender información en forma de patrones y correlaciones. los datos son estudiados sin hipótesis previas por medio del Análisis Exploratorio de Datos (EDA, por sus siglas en inglés), con el fin de comprender las relaciones entre distintas variables, los datos son capturados en forma de un modelo que posteriormente son estructurados e implementados como un producto de datos. Los modelos y los productos de datos serán analizados por separado en los temas Modelo y Producto de datos, más adelante. Dependiendo de la naturaleza del análisis, es posible que en algunos casos no haya necesidad de un producto de datos. En lugar de eso, los resultados del modelado son expresados mediante técnicas de visualización. Modelo. Ciencia de datos. Producto de datos. Big data. Representación simplificada de un fenómeno con el objetivo de facilitar la comprensión humana, como los planos de una casa, el modelo a escala de un avión, un modelo lógico de datos o un modelo físico de datos. es una representación generalizada de las relaciones entre los atributos de los datos, expresada como una ecuación matemática/estadística de un conjunto de reglas, puede ayudar a que el científico de datos logre comprender el proceso de generación de datos, lo cual además permitirá hacer predicciones. permite un mejor entendimiento al eliminar los detalles que no son necesarios, y está basado en supuestos y restricciones pertinentes para el dominio del problema. Análisis confirmatorio de datos. Modelo. Análisis exploratorio de datos. Modelo predictivo. Describe el comportamiento actual, con el fin de desarrollar un entendimiento de causalidad (causa y efecto) acerca del fenómeno. Por lo general, un modelo ____________ exitoso es aquel que puede ser entendido fácilmente, incluso a pesar de que es posible que no produzca resultados precisos. Modelo descriptivo. Modelo predictivo. Modelo. Modelo estadistico. Describe el comportamiento futuro al estimar un valor previsto con base en valores de predicción, estos modelos son considerados exitosos si producen resultados precisos, aunque no lleguen a ser fácilmente comprensibles. Modelado bigdata. Modelo estadistico. Modelo prescriptivo. Modelo Predictivo. En la ciencia de datos, un modelo __________ siempre puede ser utilizado para predecir un valor futuro. En lugar de eso, se puede utilizar para predecir un valor desconocido de interés con base en un evento que ya ocurrió, por ejemplo, predecir si un comentario implica un sentimiento positivo o negativo. Modelo predictivo. Modelo prescriptivo. Modelo. Modelo de ciencia de datos. Técnica de análisis de datos (Data Analysis) que explora los datos sin ningún tipo de hipótesis previa, a fin de lograr la comprensión de los mismos, permite generar hipótesis en lugar de comprobarlas, también ayuda a comprender el proceso que generó los datos, con el fin de producir los modelos, se generan varios resúmenes estadísticos y se realizan comparaciones utilizando distintas técnicas de visualización. Además, este análisis puede evidenciar la necesidad de hacer una limpieza a fondo de los datos, o de recopilar datos faltantes, y asimismo puede ayudar a determinar si los datos son aptos para el modelamiento. Modelo. Análisis Exploratorio de Datos (EDA). Análisis confirmatorio de datos (CDA). Modelo Estadístico. Se establece una hipótesis antes de recopilar los datos para la comprobación, mientras que en los entornos Big Data y en la ciencia de datos, la hipótesis es generada a partir de los datos que ya fueron recopilados. En la ciencia de datos, por lo general no se establecen hipótesis hasta que se lleva a cabo el EDA, ya que normalmente no se conocen los fenómenos que las grandes cantidades de datos pueden estar ocultando hasta que se realiza el análisis de datos (Data Analysis). Análisis Exploratorio de datos (EDA). Análisis Confirmatorio de Datos (CDA). Modelo. Análisis de datos. Es una instancia del modelo construido durante el análisis de datos (Data Analysis) que existe en forma de una aplicación y la cual genera valor a partir de los datos, para así alcanzar un objetivo empresarial. Durante su funcionamiento, crea datos adicionales que generalmente son usados para mejorar el producto de datos mediante un loop de retroalimentación. En el dominio empresarial, la aplicación de la ciencia de datos tiene como objetivo final el desarrollo de un producto de datos que aporte valor empresarial. Producto de datos. Modelo de datos. Ciencia de datos. Modelo predictivo. Ciencia que recopila, organiza, analiza e interpreta datos numéricos, se refiere a hechos numéricos relacionados con un conjunto de datos, como una media, una mediana y una moda, comprende la integración de datos mediante la generación de varios tipos de información estadística utilizada para la interpretación de datos, implica extraer científicamente una muestra (que es un subconjunto de un dataset) de una población (que es el dataset completo), así como el uso de la teoría de la probabilidad para hacer predicciones. Estadística predictiva. Estadística. Producto de datos. Estadística prescriptiva. Descripción numérica de los datos mediante técnicas de integración y visualización, con el fin de ayudar a que los científicos de datos los interpreten y además formulen hipótesis. Los datos numéricos generados con ayuda de la estadística incluyen, entre otros, promedios, cuartiles, percentiles y desviaciones estándar. Las técnicas de visualización incluyen histogramas y diagramas de dispersión. Ejemplo: una tabla presenta promedios que resumen los datos de la temperatura diaria en la ciudad de Nueva York en un periodo de 12 meses. Machine learning. Estadística. Estadística descriptiva. Estadística Inferencial. Va más allá de la descripción de los datos y permite hacer deducciones sobre la población con base en la muestra estudiada. Para que tenga éxito, debemos extraer una muestra aleatoria. Utilizar un mecanismo de muestreo que no sea aleatorio puede generar sesgos en la muestra que nos pueden llevar a hacer deducciones erróneas o imprecisas sobre la población, implica el uso de valores de referencia y estimadores de intervalos. Este proceso implica extraer una muestra de la población y, con base en ella, hacer una deducción acerca de la población. Estadistica. Estadística inferencial. Estadística predictiva. Machine learning. Es el proceso por medio del cual los computadores aprenden automáticamente a partir de datos para programarse implícitamente, identificando reglas y patrones, con el fin de formular predicciones sobre datos desconocidos. Las reglas y patrones aprendidos representan esencialmente el modelo que ha sido deducido a partir de los datos. Aprendizaje automático (Machine Learning). Estadística predictiva. Mineria de datos. Ciencia de datos. El aprendizaje automático (Machine Learning) comprende el uso de algoritmos que se pueden clasificar en los tres tipos siguientes: Aprendizaje supervisado. Aprendizaje no supervisado. Aprendizaje semi supervisado. Refieren a la extracción y manipulación de datos sin procesar, aplicando técnicas de limpieza, filtrado, validación y transformación de formato, con el fin de que los datos sean adecuados para el análisis. Generalmente esto incluye el uso de herramientas y lenguajes de programación como SQL, Python, R, Hive y Pig. En el contexto de la ciencia de datos, data munging suministra datos de entrada limpios, lo cual es esencial para comprender correctamente los datos y descubrir los patrones y las reglas. Data munging. Validación. Limpieza y filtrado. data wrangling. En lo que tiene que ver con el proceso de la ciencia de datos, el enfoque de los Módulos 4 y 5 será la fase de análisis de datos (Data Analysis) del Ciclo de vida del análisis de Big Data. Verdadero. Falso. Categorías comunes de datasets de Big Data En esta sección se analizan algunos de los principales desafíos relacionados con el análisis de datasets de Big Data en el contexto de las cinco "V": Volumen, Velocidad, Variedad, Veracidad y Valor. Escoja los corretcos. Datasets de gran volumen. Datasets altamente veloces. Datasets de gran variedad. Datasets altamente veraces. Datasets de gran valor. Datasets de Valor. Datasets de Velocidad. En los entornos Big Data, los datos se encuentran en grandes volúmenes (por ejemplo, una recopilación completa de transacciones financieras diarias durante un mes, ejecutadas en todas las sucursales de un supermercado) y en volúmenes variados (como los tuits, que tienen un tamaño de solo 560 bytes (140 caracteres), en comparación con un video de dos horas de duración, que tiene un tamaño de 4,7 gigabytes). Dentro de los datasets estructurados, un gran volumen puede ser el resultado de una gran cantidad de registros o filas o de una gran cantidad de campos o columnas. En algunos casos, los volúmenes grandes tienen una gran cantidad de registros y de campos. Normalmente, cuando hay una gran cantidad de filas/registros, se considera que los datos son altos, mientras que si hay una gran cantidad de columnas/campos, se considera que los datos son anchos, como se ilustra en la siguiente página. Los datasets altos tienen numerosas filas, mientras que los datasets anchos tienen numerosas columnas, Cuando se analizan datos en los entornos Big Data, los datos altos y anchos presentan una serie de desafíos únicos, y a menudo ambos tipos de datos requieren mayores recursos de procesamiento. El análisis de los datasets altos es un poco más sencillo, ya que hay que tener en cuenta menos campos/características. Sin embargo, estos datasets generalmente contienen más ruido y valores atípicos, debido a que hay una gran cantidad de registros que requieren el uso de técnicas automatizadas de limpieza (cleansing) de datos y detección de datos atípicos (outliers). El análisis de los datasets anchos contiene relativamente menos datos atípicos (outliers) y ruido, pero por lo general es complejo, ya que hay una gran cantidad de campos/características que deben ser tenidas en cuenta. Ambos tipos de datasets requieren que se realice un EDA intensivo, con el fin de lograr una comprensión profunda antes de llevar a cabo un análisis más detallado y selectivo. Por lo general, los datasets voluminosos semiestructurados y sin estructurar pueden ser considerados como datasets altos, ya que cada registro a menudo es representado como un BLOB de información en una sola columna. En estos tipos de datasets voluminosos semiestructurados y sin estructurar se requiere el preprocesamiento de los datos. Entre las tareas comunes de preprocesamiento están la limpieza (cleansing) de los datos y la derivación de nuevos campos, así como asegurar que los datos estén representados de forma que puedan ser utilizados con las técnicas cuantitativas. Escoja la clase de dataset correspondiente. Datasets de gran volumen. Datasets altamente veloces. Datasets de gran variedad. Datasets altamente veraces. Datasets de gran valor. Dentro de los entornos Big Data, los datos son recibidos a un ritmo acelerado, a menudo debido a la escala del proceso subyacente de generación de datos. Por ejemplo, en cualquier momento miles de usuarios publican sus tuits, y en un corto periodo de tiempo se realiza una gran cantidad de transacciones financieras en múltiples tiendas. En los datos altamente veloces generados por máquinas, la estructura de datos periódicos sigue siendo la misma, como los datos de los medidores inteligentes o los logs de servidores web. En el caso de los datos altamente veloces generados por humanos, los valores de los datos sin estructurar pueden cambiar en cada registro, como los comentarios de los clientes. Sin embargo, la estructura del registro individual permanece igual casi siempre, ya que normalmente es formateada por medio de un dispositivo de captura de datos. Dependiendo de los requisitos empresariales, el análisis de datos altamente veloces puede ser realizado mediante transacciones, lotes o ambos, en algunas circunstancias. En el análisis de transacciones, cada registro es procesado al momento de ser recibido. Este procesamiento podría tratarse de una simple limpieza (cleansing) de los datos y la actualización de los KPI, con el fin de presentar informes; o podría implicar análisis complejos y automatizados del registro, como es el caso de la detección de fraudes. En el análisis por lotes, los datos son recibidos rápidamente y primero son almacenados, y solo después son procesados, con el fin de presentar informes o de realizar análisis complejos, como en el desarrollo de modelos. Datasets de gran variedad. Datasets de gran volumen. Datasets altamente veloces. Datasets altamente veraces. En los entornos Big Data, normalmente se usa una variedad de datasets que contienen datos estructurados, semiestructurados y sin estructurar, con el fin de realizar el análisis. A diferencia de los análisis tradicionales de datos, que únicamente se enfocan en datasets estructurados, los análisis en los entornos Big Data deben incorporar datasets semiestructurados y sin estructurar, ya que este tipo de datos contiene información latente que puede ser potencialmente beneficiosa para una empresa. Por ejemplo, la analítica de texto (text analytics) y el análisis de sentimientos (sentiment analysis) de los comentarios de los clientes pueden permitir identificar a aquellos clientes que están en riesgo de cambiarse a la competencia. La variedad se aplica al hecho de que se deben analizar múltiples datasets formateados de forma diferente, en lugar del mismo dataset que contiene registros con distintos formatos que cambian constantemente. Por ejemplo, incluso en un dataset semiestructurado que contiene datos estructurados y sin estructurar, el tipo de datos de un campo específico por lo general es fijo, a pesar de que algunos registros contengan más o menos campos. Desde el punto de vista del análisis de datos (Data Analysis), los datasets de gran variedad por lo general requieren ciertos pasos de preprocesamiento, los cuales podrían necesitar una combinación de técnicas de análisis. Puede ser difícil reunir datasets de gran variedad con el fin de realizar un análisis de datos (Data Analysis) unificado. Normalmente, los datasets son heterogéneos, debido a que una variedad de sistemas de información empresarial o distintos dispositivos generan los datos que deben ser analizados. Por ejemplo, los distintos tipos de sensores en una planta de producción pueden generar datos en diferentes formatos. El ruido debe ser cuidadosamente eliminado de los datos reales (la señal) para obtener resultados analíticos correctos y significativos. En general, eliminar el ruido de los datos generados por máquinas es menos difícil que de los datos generados por humanos, ya que los primeros se ajustan a ciertos límites inferiores/superiores, mientras que los últimos requieren evaluación semántica. Datasets de gran variedad. Datasets de gran volumen. Datasets altamente veloces. Datasets altamente veraces. Para hacer un análisis de datos (Data Analysis) significativo de los datos generados al interior de los entornos Big Data se requieren datasets altamente veraces. Sin embargo, los datasets voluminosos pueden contener cantidades potencialmente grandes de ruido que afectan negativamente la veracidad de los datasets. El ruido crea datos falsos que no son confiables y además producen resultados incorrectos de análisis. Por ejemplo, un sensor o dispositivo mal configurado creará lecturas falsas en los datos generados por máquinas. De igual forma, los comentarios sesgados o el hecho de que aparezcan comentarios similares varias veces con diferentes nombres de usuarios son indicios de ruido en los datos generados por humanos. Datasets de gran variedad. Datasets de gran volumen. Datasets altamente veloces. Datasets altamente veraces. Dentro de los entornos Big Data, un dataset de gran valor es aquel que es altamente veraz, contiene información útil para la empresa y puede ser analizado dentro de un periodo de tiempo significativo utilizando técnicas de análisis relativamente sencillas. Al igual que con la veracidad, el valor de un dataset depende de las características de volumen, velocidad y variedad. Los datasets de gran volumen, ya sean altos o anchos, agregan más valor que los datasets que contienen menos registros, debido a la aplicación de la Ley de los Grandes Números. Los datasets altamente veloces agregan más valor comparados con los datasets poco veloces, debido a la adición constante de nuevos registros y la frecuencia cada vez mayor de actualización de los resultados. Asimismo, los datasets heterogéneos y de gran variedad agregan más valor que los datasets homogéneos, ya que una combinación de datasets con formatos distintos presenta datasets más ricos y unificados, con más oportunidades de obtener información significativa. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Una empresa recopila los comentarios de sus clientes y los analiza usando analítica de texto (text analytics) y análisis de sentimientos (Sentiment Analysis), con el fin de identificar a aquellos clientes que pueden estar en riesgo de cambiarse a la competencia. ¿Cuál es la categoría de datasets de Big Data que mejor caracteriza este proceso?. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Datasets de gran volumen. Los comisionistas de la bolsa de Nueva York generan simultáneamente miles de transacciones bursátiles, que son recibidas rápidamente. ¿Cuál es la categoría de datasets de Big Data que mejor describe el dataset resultante?. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Datasets de gran volumen. Una aplicación que recopila los comentarios de los clientes en un sitio web es ejecutada con el fin de filtrar los datos creados por los usuarios y detectar sesgos e importancia. ¿Cuál es la categoría de datasets de Big Data que mejor describe este proceso de eliminación de ruido?. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Datasets de gran volumen. ¿Las condiciones de alta veracidad, velocidad y variedad en los datos contribuyen a la medición de qué categoría de dataset de Big Data?. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Datasets de gran volumen. Una importante institución bancaria recopila un mes de transacciones financieras diarias hechas en todas sus sucursales a nivel nacional. ¿Cuál es la categoría de datasets de Big Data que mejor describe el dataset resultante?. Datasets de gran variedad. Datasets de gran valor. Datasets altamente veloces. Datasets altamente veraces. Datasets de gran volumen. A fin de analizar los datos y crear modelos, primero es importante comprender los datos, explorando los atributos o características de los mismos, para así comprender sus tipos. Un atributo es una característica de los datos. Por ejemplo, en una tabla de una base de datos, las columnas son los atributos de cada instancia de datos que se muestra en las filas. El concepto de atributos es más común en la minería de datos (Data Mining), mientras que en la estadística, el aprendizaje automático (Machine Learning) y la bodega de datos digital (Data Warehouse), los atributos se conocen como variables, características y dimensiones, respectivamente. Los tipos de variables que se presentan en la sección Estadística, más adelante, también se aplican a los atributos. Falso. Verdadero. Comprende la extracción de atributos cuantitativos de los datos, así como la producción de varios resúmenes numéricos y gráficos con base en estadísticas generadas a partir de los valores de estos atributos, con el fin de lograr comprender dichos datos. Esta comprensión permite evaluar la calidad de los datos, hacer comparaciones y encontrar relaciones, e identificar los atributos que eventualmente serán parte de los modelos estadísticos y los algoritmos de aprendizaje automático (Machine Learning). Otro objetivo es garantizar la minería de datos (Data Mining) dirigida al disminuir la cantidad de datos mediante la selección de los atributos relevantes y la discretización de los datos, proporciona información sobre el tipo de modelo a desarrollar y qué relaciones son importantes en el contexto del espacio del problema, así como información sobre cualquier suposición necesaria para los modelos y el tipo de patrones que deben ser extraídos y generalizados. De manera similar, puede ser utilizado para determinar si los datos capturados son o no erróneos, o si el proceso utilizado para capturar los datos no está configurado apropiadamente y produce datos compuestos por patrones poco realistas que normalmente no están asociados con dichos datos. El proceso del EDA. Atributos. El proceso CDA. Las medidas de tendencia central incluyen: Media. Varianza. Mediana. Moda. Resúmenes numéricos: medidas de variación o dispersión Para comprender una distribución, es importante establecer qué tan dispersos están los valores en relación con el centro. En otras palabras, ¿los valores están agrupados en un solo punto o están dispersos en un área mayor? Las medidas de variación o dispersión incluyen: Rango. Rango intercuartil (IQR). Desviación estándar. Varianza. Resúmenes numéricos: medidas de asociación Las medidas de asociación proporcionan información sobre la existencia de cualquier relación entre las variables que sea importante al desarrollar modelos para hacer predicciones. Las medidas de asociación incluyen: Covarianza. Correlación. Varianza. Los resúmenes gráficos utilizan técnicas visuales para resumir los datos, lo cual permite explorar los datos más allá de sus características descriptivas, lo que a su vez facilita la formulación de hipótesis o el descubrimiento de patrones o correlaciones. En general, el EDA utiliza las siguientes técnicas gráficas, seleccione las correctas: Gráfico de barras. Gráfico de líneas. Histograma. Polígonos de frecuencia. Diagrama de dispersión. Diagrama de tallos y hojas. Tabulación cruzada. Diagrama de caja y bigotes. Gráfico cuantil-cuantil. Cuadrículas de gráficos. El análisis cuantitativo de una sola variable es conocido como análisis univariante; por ejemplo, el análisis de datos censales para obtener información sobre los niveles de alfabetismo o la composición étnica de una población. El principal objetivo es comprender el tipo de distribución de los valores e identificar cualquier dato atípico (outlier). Un análisis univariante a menudo comienza formulando las distribuciones de frecuencia y probabilidad. Las técnicas que hacen parte del análisis univariante incluyen: Medidas de tendencia central. Medidas de variación o dispersión. Medidas de asociación. El análisis cuantitativo de dos variables, con el fin de explorar la relación entre las dos, es conocido como análisis bivariante; por ejemplo, el análisis de la temperatura y la venta de helados. Es una buena práctica realizar primero un análisis univariante sobre las variables implicadas en el análisis bivariante, antes de proceder con el análisis bivariante en sí. Las técnicas que hacen parte del análisis bivariante incluyen: Medidas de asociación. Tabulación cruzada. Regresión. Medidas de tendencia central. El análisis cuantitativo de más de dos variables, que busca explorar la relación que hay entre ellas, se conoce como análisis multivariante; por ejemplo, predecir las ventas de helados con base en la temperatura y los grupos etarios. La regresión lineal múltiple, que es abordada en la sección Predicción, es un ejemplo de análisis multivariante. Los resúmenes numéricos que se emplean en los análisis univariante, bivariante y multivariante generalmente son complementados por resúmenes gráficos, con fines de representación visual. Falso. Verdadero. Solo pueden tomar valores específicos de un conjunto definido de valores, como el número de habitantes de una ciudad o el grupo sanguíneo, es aquella cuyo valor se puede obtener mediante un conteo. Las variables discretas. Las variables continuas. Las variables nominales. Las variables ordinales. Pueden tomar cualquier valor, como la altura o la temperatura de los pacientes. es aquella cuyo valor se puede obtener mediante una medición. Las variables discretas. Las variables continuas. Las variables nominales. Las variables ordinales. Tienen valores que representan una categoría, como categorías de productos o géneros musicales. Dichos valores pueden ser contados, pero no pueden ser medidos ni ordenados. Las variables discretas. Las variables continuas. Las variables nominales. Las variables ordinales. Toman valores numéricos que pueden ser discretos o continuos, y pueden ser ordenados o clasificados, como una pregunta de una encuesta basada en una escala de satisfacción, o el nivel educativo. Dichos valores pueden ser contados y ordenados, pero no pueden ser medidos. Las variables discretas. Las variables continuas. Las variables nominales. Las variables ordinales. Incluyen solamente dos categorías, en la que una es generalmente contraria a la otra, tal como en 1/0, verdadero/falso, y cara/sello. Las variables discretas. Las variables binarias. Las variables nominales. Las variables ordinales. Son aquellas de tipo numérico que pueden ser contadas o medidas, como los ingresos de un empleado. Las variables cuantitativas. Una variable aleatoria. Las variables cualitativas o variables categóricas. Las variables independientes. pueden ser contadas, pero no pueden ser medidas, como el género. Las variables cuantitativas. Una variable aleatoria. Las variables cualitativas o variables categóricas. Las variables independientes. Tienen valores que no dependen de ninguna otra variable, sino que influyen en otras variables; mientras que las variables dependientes tienen valores que son influenciados por la variable independiente. Por ejemplo, la temperatura es una variable independiente, de la cual depende la venta de helados. Las variables cuantitativas. Una variable aleatoria. Las variables cualitativas o variables categóricas. Las variables independientes. Se refiere al proceso de extraer conclusiones a partir de datos generados mediante procesos de generación de datos aleatorios, también conocidos como procesos estocásticos. Esto generalmente implica la creación de modelos a partir de los datos, a fin de representar de manera sencilla el proceso de generación de datos aleatorios. Los datos de muestra se usan para hacer estimaciones o comprobar hipótesis relacionadas con la población. Por ejemplo, los datos de muestra recopilados con respecto a reclamos de seguros indican que menos reclamos de seguros son realizados por mujeres que por hombres. Una conclusión podría ser que esto se debe a que las mujeres conducen con mayor precaución que los hombres. Inferencia estadística. Estadística de muestreo. Las variables dependientes. Las variables independientes. En estadística: comprende todo el conjunto de objetos de un tipo en particular que está siendo analizado, tales como un dataset de todos los clientes. Población. Muestra. Observación. Estadística de Muestreo. Es un subconjunto de datos extraídos de la población; por ejemplo, algunos clientes de todo el dataset de clientes. Población. Muestra. Observación. Estadística de Muestreo. Conjunto de atributos relacionados con un objeto, como los nombres de los clientes y sus direcciones de correo electrónico. N (tamaño de la población) representa todas las observaciones sobre una población, mientras que n (tamaño de la muestra) representa todas las observaciones sobre una muestra. Población. Muestra. Observación. Estadística de Muestreo. Describe un dato numérico relacionado con una muestra y que generalmente es usado para elaborar conclusiones o estimaciones sobre el parámetro de población relacionado; mientras que un parámetro de población describe un dato numérico con respecto a una población entera. En el caso de la estimación, se conoce como un estimador que genera resultados parciales/imparciales y precisos/imprecisos, como mencionó anteriormente. Una estadística de muestreo calculada a partir de diferentes muestras de tamaño determinado tomadas de la misma población puede arrojar resultados diferentes entre sí, al igual que si se comparan con el parámetro de población correspondiente. Esta variación es representada por una distribución de muestreo. Población. Muestra. Observación. Estadística de Muestreo. se refiere al proceso de extraer conclusiones a partir de datos generados mediante procesos de generación de datos aleatorios, también conocidos como procesos estocásticos. Esto generalmente implica la creación de modelos a partir de los datos, a fin de representar de manera sencilla el proceso de generación de datos aleatorios. Los datos de muestra se usan para hacer estimaciones o comprobar hipótesis relacionadas con la población. Por ejemplo, los datos de muestra recopilados con respecto a reclamos de seguros indican que menos reclamos de seguros son realizados por mujeres que por hombres. Una conclusión podría ser que esto se debe a que las mujeres conducen con mayor precaución que los hombres. La inferencia estadística. Datos de muestra. Un conjunto de valores puede describirse en términos de características diferentes, tales como el número de valores incluidos, y los valores máximos y mínimos. Se refiere al punto central de un conjunto de datos y las medidas que establecen dicho punto se conocen como medidas de tendencia central. Además de resumir un conjunto de valores, estas medidas también son útiles para hacer comparaciones; por ejemplo, entre dos conjuntos de valores, o entre un valor único y un conjunto de valores. Las medidas de tendencia central incluyen: Media Mediana Moda. Medidas de tendencia central. Moda. Comúnmente conocida como promedio, es una estadística que se obtiene al dividir la suma de todos los valores entre la cantidad total de valores. La media poblacional se representa como µ, mientras que la media del muestreo se representa como ^X. Se usa comúnmente cuando los valores no varían mucho y aumentan o disminuyen de manera normal. También se ve afectada por la presencia de datos atípicos (outliers). Las medias poblacional y de muestreo se calculan de la misma manera. Media. Mediana. Moda. Es una estadística que se obtiene al encontrar el valor medio de un conjunto de valores ordenados, donde el número total de valores es impar. Se representa como M o ã. Es más adecuada para escenarios en donde los valores extremos pueden llevar a medias falsas. No se ve afectada por la presencia de datos atípicos (outliers) y, dado que no tiene en cuenta todos los valores, generalmente permanece sin cambios. Media. Mediana. Moda. Es una estadística que se obtiene mediante el conteo del valor más frecuente entre todos los valores, y es el único tipo de promedio (siendo los otros la media y la mediana) que se puede calcular para las variables nominales. Cuando el dataset está formado por grupos de valores en lugar de valores individuales, la moda corresponde a la mediana del grupo de valores más frecuente. Un conjunto de valores puede tener dos o más modas, en cuyo caso los valores se denominan bimodales y multimodales, respectivamente. Media. Mediana. Moda. En estadística, una estadística de muestreo se considera robusta si, a pesar del cambio de algunos valores o la presencia de datos atípicos (outliers), el valor estadístico permanece igual. La mediana y la moda son medidas robustas. La media no es una medida robusta. Robustez. Moda. Mediana. En un conjunto de valores, estos pueden ser ordenados de varias maneras; por ejemplo, los valores pueden ocurrir cerca o lejos unos de otros. Aunque las medidas de tendencia central brindan información acerca de la estructura típica de un conjunto de valores en términos de su punto central, no proporcionan ninguna información en cuanto a la forma como dichos valores están ordenados. Las medidas de variación o dispersión resumen la distribución de los valores dentro de un conjunto de valores, y explican hasta qué punto los valores normalmente se repiten con respecto al centro de un conjunto de valores. Las medidas de variación o dispersión incluyen: Rango Rango intercuartil (IQR, por sus siglas en inglés) Varianza Desviación estándar. Medidas de variación o dispersión. Desvianción standard. Es una estadística obtenida al restar el valor mínimo del valor máximo que da cuenta de la distribución o dispersión de los datos. El rango también se ve notablemente afectado por la presencia de valores extremos, puesto que la presencia de un solo valor extremo puede causar la impresión de que los valores están distribuidos en un rango demasiado grande. Los promedios (media, mediana y moda) arrojan un valor central, mientras que el rango nos da una idea sobre la variación presente en los datos. Por medio del rango se puede comparar la variación en los valores de dos conjuntos de valores diferentes. Rango. Media. Moda. Mediana. Dividen los datos ordenados entre un número específico de partes de igual tamaño. Los valores que indican el límite entre las partes son los cuartiles reales, y en total siempre son uno menos que el número de partes. Rango. Cuartiles. Quintiles. Mediana. Representan cuatro valores que dividen los datos en cinco partes del mismo tamaño, y se obtienen al ordenar en primer lugar los datos de forma ascendente, y posteriormente dividir los datos en cinco partes. Rango. Cuartiles. Quintiles. Mediana. Representan tres valores que se usan para dividir los datos en cuatro partes del mismo tamaño, y se obtienen al ordenar en primer lugar los datos de forma ascendente, y posteriormente dividir los datos en cuatro partes. El primer, segundo y tercer cuartiles se conocen como cuartil inferior, cuartil medio, y cuartil superior, y se representan como Q1, Q2 y Q3, respectivamente. Q1, Q2 y Q3 representan valores que corresponden al 25%, 50%, y 75% de los valores de datos, respectivamente. Existen múltiples maneras de calcular cuartiles. El método más simple es dividir primero los datos en dos partes, encontrando la mediana, Q2, antes de excluir a Q2 de estas partes, si n es impar. Q1 y Q3 son las medianas correspondientes a la primera y segunda parte, respectivamente. Rango. Cuartiles. Quintiles. Mediana. Una estadística relacionada, el rango intercuartil (IQR, por sus siglas en inglés), corresponde al conjunto de valores entre Q1 y Q3 que se obtienen restando Q1 de Q3, como se muestra a continuación: IQR = Q3 – Q1. Rango. Cuartiles. Quintiles. Rango intercuartil. De manera similar a los cuartiles, corresponde a un valor que divide los datos en partes iguales usando porcentajes en lugar de cuartiles, y es un valor en virtud del cual existe un determinado porcentaje de valores de datos. Cada percentil representa un porcentaje de valores correspondiente. Por ejemplo, el 30.o percentil significa que 30% de los valores son menores al valor representado por el 30.o percentil. A Q1, Q2, y Q3 también se les conoce como el 25.o, 50.o y 75.o percentiles, respectivamente. Rango. Cuartiles. Percentiles. Rango intercuartil. Ocurre cuando la muestra no es una representación real de la población, lo cual puede suceder si la muestra no ha sido obtenida de manera aleatoria. Una estadística de muestreo obtenida de una muestra sesgada arrojará conclusiones falsas sobre el parámetro de población correspondiente. Técnicamente, representa qué tan lejos está el promedio de los múltiples valores de un estimador (calculado a partir de múltiples muestras) del correspondiente parámetro de población. Por otro lado, un estimador puede ser impreciso si distintos valores del estimador, provenientes de diferentes muestras, no están cerca unos de otros; es decir, el estimador puede ser parcial o imparcial, y preciso o impreciso, al mismo tiempo. Distribución. Sesgo. Percentiles. Rango intercuartil. Es un grupo de números o una función que indica todas las frecuencias de los diferentes valores o resultados de una variable. En otras palabras, muestra cómo están distribuidos los valores de una variable.Dependiendo del tipo de variable, puede ser discreta o continua. Por lo general, una ________discreta se representa con un gráfico de barras, mientras que la __________ continua se representa mediante un histograma. Esto es explicado brevemente en la sección Visualización. En estadística, una distribución también se refiere a una función que explica las características de un grupo de números. Distribución. Sesgo. Varianza. Rango intercuartil. corresponde a un valor no negativo que muestra cómo los valores se dispersan con respecto a la media de los valores o el centro de una distribución. La varianza de muestreo se representa como s2, mientras que la varianza de población se representa como σ2. Una varianza pequeña indica que hay relativamente poca diferencia entre los valores y el valor de la media, y que los valores se repiten cercanamente entre sí. Una varianza grande indica que hay relativamente una amplia diferencia entre los valores y el valor de la media, y que los valores se repiten lejanamente entre sí. Distribución. Sesgo. Varianza. Desviación standard y de varianza. Es generalmente más útil que la desviación de varianza, mientras que la desviación de varianza es generalmente más útil para fines de cálculo. Mientras menor sea la desviación estándar o de varianza, menor será la dispersión y los valores estarán más cercanos al valor de la media. Se pueden utilizar s2 y s para estimar los parámetros correspondientes de población σ2 y σ. _________nos permiten medir si un proceso genera datos de manera consistente; por ejemplo, para analizar cuál máquina envasadora llena las botellas de manera más consistente. Desviación standard. Sesgo. Varianza. Desviación standard y de varianza. Jack está realizando un EDA sobre los datos de ingresos de una región en particular, con un potencial de ingresos de clase media, y resume los datos usando uno de los promedios. Sin embargo, cuando él agrega datos de otra región que tiene pocos habitantes, pero que son extremadamente ricos, el nuevo cálculo del promedio tiene como resultado un valor completamente diferente. Identifique la medida que Jack está usando. Media. Puntuación Z. Varianza. Desviación standard y de varianza. Amber está haciendo una comparación entre las temperaturas de los países tropicales y las temperaturas de aquellos países que están más alejados de la línea ecuatorial, a fin de ayudarles a los químicos a desarrollar diferentes variantes de aceite de motor para cada región. Ella ha recopilado dos conjuntos de distribuciones, organizando las temperaturas promedio para cada mes del año de forma ascendente. ¿Qué medida puede ser utilizada para determinar las fluctuaciones de temperatura para cada región?. Media. Puntuación Z. Rango. Desviación standard y de varianza. Un técnico está comparando el rendimiento de dos máquinas similares usando una determinada medida de variación. Sin embargo, él observa una gran variación entre los límites inferiores y superiores de operación, y no puede obtener una comparación significativa. Una investigación rápida determina que los datos presentan valores extremos, tanto en los límites inferiores como superiores. ¿Qué medida de variación puede utilizarse para facilitar una comparación significativa entre ambas máquinas?. Varianza. Puntuación Z. Rango interquartil. Desviación standard y de varianza. La semana pasada, veinticuatro aspirantes participaron en una competencia de escritura de ensayos. Los resultados publicados informaron a los aspirantes sobre el puntaje que habían recibido, de un total de 100. Sin embargo, los aspirantes querían saber qué tan bien se habían desempeñado en relación con los demás, en términos del porcentaje de aspirantes que recibieron las peores notas. ¿Qué medida proporcionará la información adicional requerida?. Percentiles. Puntuación Z. Rango interquartil. Desviación standard y de varianza. Un científico de datos está analizando las cifras de ventas para dos tiendas diferentes. Al calcular el rango de ambos conjuntos de cifras de ventas, se determina que la primera tienda presenta un rango mucho mayor que la segunda. ¿Qué medida de variación puede ser utilizada para cuantificar la variación de acuerdo con todas las cifras de ventas, a fin de identificar la tienda que tuvo cifras de ventas más consistentes?. Percentiles. Puntuación Z. Rango interquartil. Desviación standard y de varianza. Un biocientífico está comparando dos tipos diferentes de semillas de maíz que han sido modificadas genéticamente. Los datos de producción para cada tipo de maíz muestran que ambos presentan cifras diferentes de desviación estándar y media. Las cifras de producción para la última temporada indican que ambos tipos de maíz tienen mayor rendimiento que el promedio. ¿Qué medida puede ser utilizada para descubrir la variedad que tuvo mejor rendimiento?. Percentiles. Puntuación Z. Rango interquartil. Desviación standard y de varianza. Una distribución es un conjunto de valores que muestra la velocidad con que se repiten los distintos valores, o la posibilidad de repetición de los mismos. En estadística, existen diferentes tipos de distribución, incluyendo los siguientes: Una con flecha los correspondientes. Distribución de frecuencia. Distribución de probabilidad. Distribución de muestreo. Distribución normal. Probabilidad. Error Standard. Estimadores estadísticos. Intervalo de confianza. Una distribución es un conjunto de valores que muestra la velocidad con que se repiten los distintos valores, o la posibilidad de repetición de los mismos. En estadística, existen diferentes tipos de distribución, incluyendo los siguientes: Una con flecha los correspondientes. Distribución normal estándar. Distribución discreta. Distribuciones continuas. Ajuste de distribución. Distribución normal. Teorema del límite central. Sesgo. Cuantifican la relación entre dos variables en un dataset. Medidads de asociación. correlación. covarianza. Es el grado de asociación lineal entre dos variables, medido con un coeficiente de correlación. Una relación se considera lineal cuando el diagrama de dispersión de los valores de las variables produce una línea recta, lo cual quiere decir que ambas variables cambian en la misma proporción y a un ritmo constante. Correlacción. covarianza. Correlacion linea. relaciones. El coeficiente de correlación de Pearson. relación monótona. relación monótonamente creciente. relación monótonamente decreciente. el coeficiente de correlación de Spearman. Se debe prestar especial atención al aplicar la correlación a los datasets de ____. En el caso de la minería de datos (Data Mining) sin objetivo específico, que consiste en una minería de datos (Data Mining) sin una meta determinada, combinada con datasets anchos, es posible que se deba aplicar la correlación a varios pares de variables, ya que múltiples variables podrían estar correlacionadas. en el caso de la minería de datos (Data Mining) dirigida, en la cual es posible que se conozca una de las variables, como la variable dependiente, aún es necesario descubrir la otra variable correlacionada mediante la comprobación de múltiples variables independientes, En el caso de los datasets altos, la gran cantidad de registros puede generar problemas en el desempeño y sobrecargar los recursos subyacentes de procesamiento. A menudo, se puede lograr una implementación de algoritmo compatible con una arquitectura distribuida/paralela si se introduce un mecanismo de motor analítico (Analytics Engine) en una solución de Big Data, se requiere la validación para confirmar los hallazgos y eliminar las correlaciones válidas, pero insignificantes, desde el punto de vista empresarial, aplicando el conocimiento del dominio. Con el tiempo, se deben analizar múltiples versiones del dataset para determinar si una correlación es recurrente antes de elaborar un plan de acción. Correlación y datasets de gran volumen. Correlación y datasets altamente veloces. Correlación y datasets de gran variedad. Correlación y datasets altamente veraces. Correlación y datasets de gran valor. En los cuales los datos son recibidos a un ritmo acelerado, el modelo de correlación generalmente se actualiza una vez que todo el dataset altamente veloz está disponible, ya que si se lleva a cabo la correlación en un dataset pequeño, es posible que no se revele la verdadera naturaleza de la relación entre las variables. En los procesos de generación aleatoria de datos, la correlación entre dos variables raramente cambiará con la direccionalidad, la cual generalmente permanece igual, mientras que la fuerza sí puede llegar a cambiar. Como resultado, es posible que un modelo de correlación no requiera estas actualizaciones frecuentes a pesar de los datasets altamente veloces. Correlación y datasets de gran volumen. Correlación y datasets altamente veloces. Correlación y datasets de gran variedad. Correlación y datasets altamente veraces. Correlación y datasets de gran valor. Los datasets altamente _______ son necesarios para determinar el nivel adecuado de correlación entre dos variables que contienen la menor cantidad posible de ruido y datos atípicos (outliers). Además de suministrar resultados falsos, el ruido conlleva al uso ineficiente de los recursos subyacentes de procesamiento (el motor de procesamiento), ya que el ruido es procesado innecesariamente. El ruido puede ser eliminado durante las etapas de adquisición y de filtrado (filtering) de datos del ciclo de vida del análisis de Big Data, mientras que los datos atípicos (outliers) pueden ser eliminados usando técnicas como las presentadas en la sección Detección de datos atípicos (outliers), en el Módulo 5. Correlación y datasets de gran volumen. Correlación y datasets altamente veloces. Correlación y datasets de gran variedad. Correlación y datasets altamente veraces. Correlación y datasets de gran valor. Como las características de valor y veracidad están relacionadas directamente, se deben tener en cuenta consideraciones similares al momento de aplicar la correlación a los datasets de _____y los datasets altamente veraces. Para obtener el máximo valor de los datasets de gran volumen y los datasets altamente veloces, las correlaciones deben ser descubiertas tan pronto como los datasets estén disponibles. Para esto se requiere que el algoritmo subyacente de correlación sea compatible con la ejecución distribuida/paralela en una plataforma de Big Data. Correlación y datasets de gran volumen. Correlación y datasets altamente veloces. Correlación y datasets de gran variedad. Correlación y datasets altamente veraces. Correlación y datasets de gran valor. Es una medida que determina cómo dos variables cambian en conjunto. La covarianza de la muestra está indicada por 𝐒𝐱𝐲, mientras que la covarianza poblacional está indicada por 𝐒𝐱𝐲, mientras que la covarianza poblacional está indicada por 𝛔𝐱𝐲. Sin embargo, a diferencia de la correlación, el valor de la covarianza puede ser cualquier número negativo o positivo y está expresado en las mismas unidades que las variables. A diferencia del valor de la correlación, el valor de la covarianza depende de las unidades utilizadas, lo que significa que el valor de una covarianza en pulgadas será distinto al valor de una covarianza en centímetros. El valor de la correlación es normalizado y no se ve afectado por las unidades utilizadas. Covarianza. Correlación. Estimaciones de distribución popular Las reglas que ayudan a elaborar estimaciones generales sobre distribuciones, en términos de qué porcentaje de los valores de una distribución se encuentran a cierta distancia de la media, son las siguientes: La regla de desigualdad de Chebyshev. La regla empírica. Un tribunal le ordena a un fabricante de automóviles que publique sus cifras de fiabilidad. En respuesta, se analiza una muestra de 100 casos de garantía, y se publica la fiabilidad con base en el valor medio de averías. Sin embargo, algunos concesionarios de automóviles argumentan que esto no es preciso y que puede confundir a los consumidores, ya que los tiempos de avería pueden variar. ¿Qué medida se puede utilizar para especificar la fiabilidad de una forma más precisa y sin confundir a los consumidores. Intervalo de confianza. Teorema del límite central. Regla de desigualdad de Chebyshev. La regla empírica. Un dataset contiene información sobre los ingresos de más de 100.000 personas y está sesgado positivamente. Para determinar la probabilidad de una muestra aleatoria que tenga ingresos medios superiores a USD 50.000, el analista de datos comienza por crear una distribución de muestreo de la media con base en una muestra de gran tamaño. ¿Cuál es la regla o teorema que aplica el analista de datos?. Intervalo de confianza. Teorema del límite central. Regla de desigualdad de Chebyshev. La regla empírica. Se está analizando una distribución sesgada negativamente, compuesta por la cantidad de niños en distintos hogares, con una media y una desviación estándar conocida. ¿Qué regla o teorema se puede aplicar para confirmar que la probabilidad de que en un hogar haya hasta seis niños (cuatro y media desviaciones estándar dentro de la media) es de 0,95?. Intervalo de confianza. Teorema del límite central. Regla de desigualdad de Chebyshev. La regla empírica. Se está analizando una distribución normal, compuesta por las alturas de los árboles en el país, con una media y una desviación estándar conocida. ¿Qué regla o teorema se puede aplicar para confirmar que la probabilidad de que la altura de un árbol esté dentro de dos desviaciones estándar de la media es de 0,95?. Intervalo de confianza. Teorema del límite central. Regla de desigualdad de Chebyshev. La regla empírica. Relacione. Distribución de frecuencia. Distribución normal. Distribución de probabilidad. Distribución de muestreo. La comprobación de hipótesis es el proceso científico que consiste en evaluar si una afirmación o proposición es significativa, y no está basada en el azar. falso. verdadero. Indica que las observaciones hechas usando los datos de la muestra se deben solo al azar, lo que quiere decir que no hay verdad alguna en el fenómeno observado. Normalmente, la hipótesis nula es opuesta a la hipótesis real, y es considerada verdadera por defecto. Solamente es rechazada si existe evidencia convincente de lo contrario. Normalmente, se expresa en términos de igualdad o statu quo, como “igual que,” y en realidad la que se comprueba es la ________, y la conclusión de esta prueba se expresa como H0, de tal forma que se “rechaza H0.” H0 = “El medicamento A tiene el mismo efecto que el medicamento B”. Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Expresada como H1 o Ha, es lo opuesto a una hipótesis nula, y generalmente es aceptada cuando la hipótesis nula es rechazada H1 = “El medicamento A tiene un efecto distinto al del medicamento B” Rechazar la hipótesis nula quiere decir que existe evidencia suficiente para rechazar H0, pero no quiere decir necesariamente que H1 sea verdadera. En lugar de eso, una hipótesis alternativa indica que hay posibilidad de que H1 sea verdadera. Si H0 no es rechazada, no quiere decir que automáticamente H0 sea verdadera, sino que no existe evidencia suficiente en contra de H0 y para respaldar H1. Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Quiere decir que existen pocas probabilidades de que una afirmación o proposición sea verdadera debido únicamente al azar. En otras palabras, dicha afirmación o efecto está basado en una causa no aleatoria. El nivel de significancia representa la significancia estadística, que es un umbral predeterminado de probabilidad. Este valor es representado como un porcentaje que es establecido al inicio de la comprobación de las hipótesis, a menudo con un valor del 5%. Se rechaza H0 si el valor de P es menor que , lo cual quiere decir que los resultados de la comprobación son poco probables y no respaldan H0. En consecuencia, la afirmación original es estadísticamente significativa. Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Es la probabilidad de obtener un valor, calculado a partir de la muestra, tanto o más extremo que el valor original que observamos si asumimos que la hipótesis nula es verdadera. El valor de P se utiliza para ponderar los resultados de la prueba y determinar si la afirmación original es estadísticamente significativa o no. En caso de que el valor de P sea menor o igual que , existe evidencia sólida en contra de H0 y H0 es rechazada. En caso de que el valor de P sea mayor que , no hay suficiente evidencia en contra de H0 y H0 no es rechazada. Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Ocurre cuando se rechaza H0 a pesar de ser verdadera. Como se rechaza H0 cuando los valores se encuentran dentro de la región crítica, la probabilidad de un error de tipo I es igual al nivel de significancia . Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Ocurre cuando se acepta H0 a pesar de ser falsa, con la probabilidad representada por beta. La prueba de poder de hipótesis es la probabilidad de tomar la decisión correcta; es decir, la probabilidad de rechazar H0 cuando es falsa. Esta probabilidad está determinada por (1- Beta). Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Significancia estadística. Otro término que también se basa en alfa es la región crítica, que contiene los valores tal como los estipula alfa. Se rechaza H0 si los resultados de la prueba se encuentran dentro del conjunto extremo de valores representado por la región crítica. La región crítica puede estar en uno o en ambos extremos del conjunto normal de valores. Cuando se encuentra en un extremo, se conoce como prueba unilateral, mientras que si se encuentra en los dos extremos, se conoce como prueba bilateral. Hipótesis nula (H0). Hipótesis alternativa (H1). Valor de P. Error de tipo I. Error de tipo II. Región crítica; pruebas unilateral y bilateral. En un ______________________, cada uno de los valores discretos es representado como una categoría en el eje x, mientras que el eje y es utilizado para visualizar el conteo de cada categoría. El conteo real es representado por medio de un rectángulo cuya altura muestra el conteo de la categoría. Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. A menudo, los ______________________ son utilizados para analizar datos a través del tiempo o de tendencias, y no deben ser usados para visualizar datos nominales como categorías de productos. Sin embargo, se pueden visualizar los datos ordinales relacionados con múltiples categorías. Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. En un ______________________, primero se recopila una tabla de frecuencias con valores divididos en intervalos. Los intervalos generados no deben tener espacios entre sí, abarcando todos los valores de una variable continua. Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. Se puede utilizar un ______________________ para visualizar la asociación entre dos variables y determinar si existe un patrón entre ellas, lo cual es útil para identificar visualmente datos atípicos (outliers). Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. Al igual que un histograma, un ______________________ es una técnica gráfica de análisis de una distribución y es ideal para visualizar datasets o muestras pequeñas. Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. Si bien no se trata de una técnica estrictamente gráfica, la ______________________ es una tabla bidireccional de frecuencias utilizada para visualizar las relaciones entre dos variables. Gráfico de barras. Gráficos de lineas. histogramas. diagrama de dispersión. diagrama de tallos y hoja. tabulación cruzada. Los datos pueden ser representados visualmente para un mayor análisis usando los siguientes métodos: ________ para comparar dos o más distribuciones y visualizar un resumen de cinco números. __________ para comparar dos distribuciones de forma exacta, y ___________ para manejar múltiples gráficos secundarios en análisis bivariante y multivariante. Un diagrama de cajas y bigotes. un diagrama de tallos y hojas. Un diagrama cuantil-cuantil (q-q). un diagrama de enrejado. también conocida como la regresión de mínimos cuadrados, es una técnica estadística para predecir los valores de una variable continua dependiente con base en los valores de una variable independiente, asume que existe una correlación lineal entre la variable de respuesta y la variable explicativa. Para desarrollar un modelo de regresión lineal, primero debemos expresar su relación lineal. el siguiente paso es hacer una estimación de los parámetros del modelo,El último paso es evaluar el modelo, Para lograr la mejor estimación posible de la variable de respuesta, se deben minimizar los errores entre todos los puntos, representados por la suma de los cuadrados de error. el modelo de regresión también determina la naturaleza de la relación entre las variables de respuesta y explicativa, Entre mayor sea la magnitud, más grande es el impacto que tiene la variable explicativa sobre la variable de respuesta, el signo del parámetro muestra la dirección de la asociación. Error cuadrático medio. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. En la regresión, se pueden utilizar más de dos variables explicativas a la vez para predecir la variable de respuesta; esto se conoce como ___________. En la ___________ , se recomienda elaborar histogramas y diagramas de dispersión de las variables explicativa y de respuesta para: - poder determinar la exactitud del modelo - comprobar si todas las variables explicativas relevantes fueron añadidas al modelo - hallar la correspondiente relevancia de cada variable explicativa. Error cuadrático medio. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. (ECM) es una medida que indica qué tan cerca está la línea de ajuste óptimo de los valores reales de la variable de respuesta. En otras palabras, el _________identifica la variación entre los valores real y estimado de la variable de respuesta, según la recta de regresión. Por lo general, también se conoce como el estimador de la varianza en el valor previsto. Error cuadrático medio. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. Si bien la línea de ajuste óptimo intenta estimar la variable dependiente con la mayor precisión posible, siempre existe una discrepancia entre el valor previsto y el valor conocido real, llamada término de error o ruido existe porque las variables independientes incluidas no pueden predecir la variable dependiente con una precisión del 100%. Esto se debe a que normalmente faltan variables independientes en la ecuación de regresión que también afectan la variable dependiente. Por lo general, se asume que el ruido está distribuido de forma normal. En la práctica, los valores de los parámetros siempre permanecen desconocidos, debido a variaciones en los datos y a factores que no fueron capturados por el modelo. Si se conocen los verdaderos valores de estos parámetros, se podrá trazar la verdadera recta de regresión y se podrá calcular el error real de la estimación o el término de error. Sin embargo, la línea que en realidad se puede representar será siempre una recta estimada de regresión de la verdadera recta de regresión, en cuyo caso solamente se puede estimar el error de la estimación, conocido como un residuo. El residuo es conocido, pero el término de error es desconocido, y la mejor manera de estimarlo es por medio del residuo. Error cuadrático medio. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. corresponde al porcentaje de variación en la variable de respuesta previsto o determinado por la variable explicativa, comprendiendo valores que varían entre 0 y 1. Un valor igual a 0 indica que la variable de respuesta no puede predecirse con base en la variable explicativa, mientras que un valor igual a 1 indica que la variable de respuesta puede predecirse sin errores. Un valor entre 0 y 1 proporciona el porcentaje de predicción exitosa. El valor del coeficiente de determinación equivale sencillamente al coeficiente de correlación r elevado al cuadrado. La variación se refiere a la diferencia entre el valor real y la media de la variable de respuesta. La variación explicativa corresponde a la diferencia entre el valor estimado y la media de la variable de respuesta. Error standard de estimación. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. Miide la precisión de los valores previstos en la variable de respuesta, indicando qué tan lejos o cerca se encuentran los valores estimados de los valores reales, así como la desviación de los valores con respecto a la recta de regresión. Cuanto menor sea el SEE, mayor será la precisión con que la recta de regresión podrá predecir los valores de la variable. Error standard de estimación. Regresión lineal multiple. regresión lineal. Término de error y residuos. Coeficiente de determinación R2. requieren que el algoritmo subyacente de regresión lineal pueda ser ejecutado en un entorno distribuido o paralelo, En los datasets altos, Es importante que se elimine cualquier ruido del dataset antes de utilizar la regresión lineal. En primer lugar, determine si las variables están correlacionadas con una prueba de correlación,pues utilizar la regresión lineal sin conocer de antemano si las dos variables tienen características comunes puede generar un modelo sin sentido. En los datasets anchos, la prueba de correlación se considera un requisito previo para utilizar la regresión múltiple. En el caso de la regresión lineal múltiple, cada variable explicativa posible debe ser analizada por separado para encontrar la correlación. Regresión lineal y datasets de gran volumen. Regresión lineal y datasets altamente veloces. Regresión lineal y datasets de gran variedad. Regresión lineal y datasets altamente veraces. Regresión lineal y datasets de gran valor. Los datos que son recibidos a un ritmo rápido requieren que el modelo de regresión se actualice de forma regular, dado que la correlación entre las variables explicativas y de respuesta puede cambiar con el tiempo. La aplicación repetida y automatizada de modelos de regresión a los datasets altamente veloces puede requerir que el motor de flujo de trabajo sea configurado de manera que los valores de la variable de respuesta sean calculados automáticamente tan pronto los datos estén disponibles. Regresión lineal y datasets de gran volumen. Regresión lineal y datasets altamente veloces. Regresión lineal y datasets de gran variedad. Regresión lineal y datasets altamente veraces. Regresión lineal y datasets de gran valor. Es posible que un único dataset no incluya las variables explicativas requeridas para diseñar un modelo de regresión preciso. Quizás sea necesario combinar varios datasets para extraer las variables explicativas importantes. Este ejercicio es más importante en la regresión lineal múltiple debido a la existencia de múltiples variables explicativas. Al igual que en el caso de los datasets de gran volumen, cada posible variable explicativa debe ser analizada individualmente para encontrar la correlación. Las variables explicativas basadas en el tiempo pueden ser analizadas en detalle usando el análisis de series temporales (explicado en el Módulo 5), con el fin de identificar cualquier correlación. Regresión lineal y datasets de gran volumen. Regresión lineal y datasets altamente veloces. Regresión lineal y datasets de gran variedad. Regresión lineal y datasets altamente veraces. Regresión lineal y datasets de gran valor. Los datasets de baja veracidad pueden afectar negativamente la precisión de un modelo de regresión. Por lo tanto, es necesario eliminar cualquier ruido durante los pasos de adquisición y análisis de filtrado (filtering) de datos del ciclo de vida del análisis de Big Data, y eliminar los datos atípicos (outliers) usando técnicas como las presentadas en la sección Detección de datos atípicos (outliers) en el Módulo 5. Los datasets de baja veracidad que son recibidos en gran volumen pueden representar problemas de rendimiento en caso de que el modelo de regresión deba ser actualizado periódicamente, pues dicha actualización se aplicará innecesariamente al ruido, llevando a una pérdida de tiempo y de recursos de procesamiento. Regresión lineal y datasets de gran volumen. Regresión lineal y datasets altamente veloces. Regresión lineal y datasets de gran variedad. Regresión lineal y datasets altamente veraces. Regresión lineal y datasets de gran valor. es una técnica estadística que predice los valores de una variable dependiente o de respuesta con base en los valores de una variable independiente o explicativa. Esta técnica se usa para explorar los datos y comprender el tipo de relación existente entre las variables. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. La correlación lineal entre las variables de respuesta y explicativas se representa mediante _______________ que pasa tan cerca como sea posible de todos los puntos de un diagrama de dispersión. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. se conoce como el estimador de la varianza para el valor previsto. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. se pueden usar los histogramas y diagramas de dispersión para resumir las variables de respuesta y explicativas, a fin de encontrar la importancia respectiva de cada variable explicativa. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. Para valores que varían entre 0 y 1, el _____________corresponde al porcentaje de variación de la variable de respuesta prevista por la variable explicativa. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. mide la precisión de los valores previstos en la variable de respuesta para identificar la diferencia entre los valores estimados y los valores reales, además de la desviación de los valores con respecto a la recta de regresión. La regresión lineal. línea de ajuste óptimo (recta de regresión),. El error cuadrático medio. análisis de regresión lineal múltiple. coeficiente de determinación (R2). error estándar de la estimación. K-vecinos más cercanos o k-NN, conocido también como aprendizaje basado en instancias y aprendizaje retardado, es una técnica de clasificación “de caja negra” en la que las instancias son clasificadas de acuerdo con su similitud, usando un número de ejemplos (k) definidos por el usuario (vecinos más cercanos). k-NN permite clasificar las instancias cuando existen interacciones y relaciones difíciles de explicar y comprender entre un grupo de características y las clases objetivo. k-NN se desempeña bien en casos en que instancias de la misma clase comparten valores de características muy similares y los límites de clases pueden ser identificados fácilmente.Generalmente, k-NN usa la distancia euclidiana para calcular la cercanía entre los ejemplos y las instancias sin clasificar. Como el cálculo de la distancia puede verse relegado a un segundo plano por las características basadas en unidades más grandes —por ejemplo, kilometraje frente al número de puertas—, los valores de las características son normalizados usando una normalización mín-máx o estandarización de la puntuación Z. Las características nominales deben convertirse en sus contrapartes numéricas mediante la creación de nuevas características binarias (0 y 1) para cada categoría de la característica nominal inicial. Los valores nominales también pueden compararse tal como están, en cuyo caso, si los valores no son iguales, la diferencia numérica es 0 más 1. Falso. Verdadero. K-medias se refiere a un algoritmo de agrupamiento (Clustering) frecuente que usa la distancia como medida, creando clusters de elementos homogéneos. k es un número definido por el usuario que representa el número de clusters requeridos, y medias se refiere al punto central del cluster, o centroide. El centroide establece la base para la creación de clusters, sobre la cual se pueden localizar otros elementos similares que hacen parte de un cluster, y se determina a partir de la media de todas las ubicaciones puntuales que representan los elementos del cluster en un espacio multidimensional, cuyas dimensiones dependen del número de características de los elementos que hacen parte del cluster. El valor de k debe estar establecido entre 1 ≤ k ≤ n, en donde n corresponde al número total de elementos en el dataset. k-medias y k-NN se asemejan en que, por lo general, usan el mismo cálculo de distancia euclidiana para establecer la cercanía entre el centroide y los elementos (representados como puntos), lo cual requiere que el usuario especifique el valor de k. Cuando opera de manera frecuente, k-medias inicia con grupos de instancias menos homogéneos, y modifica cada grupo durante cada iteración para lograr una mayor homogeneidad en el grupo. El proceso continúa hasta alcanzar la máxima homogeneidad dentro de los grupos y la máxima heterogeneidad entre los grupos. La operación de k-medias se divide en dos etapas, asignación y actualización, tal como se define en las páginas a continuación. Falso. Verdadero. el algoritmo selecciona aleatoriamente puntos k como puntos centrales de cluster que representan las instancias reales en un espacio característico multidimensional, y que han sido trazados de acuerdo con los valores de la característica. Cada dimensión representa una característica única. En lugar de seleccionar puntos que ya existen, también se pueden crear puntos nuevos y seleccionarlos como puntos centrales de cluster.Otro enfoque es asignar las instancias arbitrariamente a un número k de clusters, sin seleccionar ningún punto central de inicio. Cuando se seleccionan los puntos centrales de inicio, cada instancia es asociada con el punto central de cluster que esté más cerca. Esta cercanía se determina calculando la distancia, por lo general utilizando la fórmula de la distancia euclidiana, entre la instancia (representada por el punto) y el punto central de inicio. Etapa de asignación. Etapa de actualización. Etapa de reasignación. Valores de característica faltantes. En la etapa de _____________el punto central verdadero o centroide de cada cluster es determinado calculando la media de todos los puntos del cluster. Generalmente, esto tiene como resultado la reubicación del centroide y el correspondiente cambio en el límite del cluster. Etapa de asignación. Etapa de actualización. Etapa de reasignación. Valores de característica faltantes. Debido a los cambios en los límites del cluster, durante la etapa de asignación es necesaria una nueva ejecución, dado que algunos puntos podrían estar ahora más cerca de un centroide diferente que aquel que fue asignado inicialmente. La etapa de actualización también requiere una nueva ejecución para calcular los nuevos centroides, debido a que las instancias fueron reasignadas a clusters diferentes. Este proceso continuará hasta que ya no haya más reasignaciones. Etapa de asignación. Etapa de actualización. Etapa de reasignación. Valores de característica faltantes. Seleccionar un valor grande de k para datasets altos y de gran volumen puede generar problemas de rendimiento, puesto que las etapas de asignación y actualización deben ser ejecutadas para cada cluster adicional. La mayoría de los problemas de rendimiento suceden durante la etapa de asignación, cuando se calcula la distancia entre el centroide y cada instancia. Sin embargo, en un dataset ancho y de gran volumen, incluso con un valor pequeño de k, pueden ocurrir problemas de rendimiento, especialmente durante la etapa de asignación, debido a que, cuando se calcula la distancia, se debe tener en cuenta una gran cantidad de características. Es importante que la implementación subyacente del algoritmo de agrupamiento (Clustering) sea compatible con una ejecución paralela o distribuida, con el fin de hacer un agrupamiento (Clustering) rápido y eficaz de datasets de gran volumen. Agrupamiento (Clustering) y datasets de gran volumen. Agrupamiento (Clustering) y datasets altamente veloces. Agrupamiento (Clustering) y datasets de gran variedad. Agrupamiento (Clustering) y datasets altamente veraces. Agrupamiento (Clustering) y datasets de gran valor. El agrupamiento (Clustering) es generalmente una técnica de análisis offline, ya que crea clusters que necesitan interpretación futura, o es realizado como parte del EDA. Como resultado, los datos altamente veloces se añaden generalmente a los datasets existentes, con el fin de generar clusters. Sin embargo, algunas implementaciones de k-medias están basadas en las actualizaciones progresivas, donde no es necesario recalcular los clusters desde el principio ya que se agregan nuevas instancias. Agrupamiento (Clustering) y datasets de gran volumen. Agrupamiento (Clustering) y datasets altamente veloces. Agrupamiento (Clustering) y datasets de gran variedad. Agrupamiento (Clustering) y datasets altamente veraces. Agrupamiento (Clustering) y datasets de gran valor. Para garantizar que únicamente las instancias similares formen agrupaciones, es importante determinar la verdadera naturaleza de una instancia que requiere recopilar tantos datos como sea posible. Un agrupamiento (Clustering) puede requerir que se combine una variedad de datasets para extraer las características relevantes y así diseñar un vector de características extenso (un conjunto ordenado de características) que cree más clusters homogéneos. Se debe tener cuidado de incluir únicamente las características relevantes y mantener el recuento de características en un nivel óptimo, pues añadir características irrelevantes o en exceso puede generar problemas de rendimiento. Los datasets anchos resultantes pueden generar problemas de rendimiento, ya que cada característica adicional añade una nueva dimensión. Por ejemplo, cuando se utiliza el algoritmo de k-medias, los cálculos de la distancia euclidiana y del centroide pueden ser altamente dimensionales, con lo cual requieren mayores recursos de memoria y procesamiento. Agrupamiento (Clustering) y datasets de gran volumen. Agrupamiento (Clustering) y datasets altamente veloces. Agrupamiento (Clustering) y datasets de gran variedad. Agrupamiento (Clustering) y datasets altamente veraces. Agrupamiento (Clustering) y datasets de gran valor. Para crear clusters de datos altamente homogéneos y con la menor cantidad de distorsión, es importante garantizar que el dataset es de alta calidad y está libre de cualquier tipo de ruido. Al mismo tiempo, es necesario no eliminar las instancias que aparentemente representan ruido pero que en realidad solo carecen de algunos valores de características. Tales instancias pueden representar clusters distintivos que requieren ser identificados. Asimismo, extraer demasiadas instancias con ruido puede crear inadvertidamente pequeños clusters que no son significativos. Agrupamiento (Clustering) y datasets de gran volumen. Agrupamiento (Clustering) y datasets altamente veloces. Agrupamiento (Clustering) y datasets de gran variedad. Agrupamiento (Clustering) y datasets altamente veraces. Agrupamiento (Clustering) y datasets de gran valor. Los datasets de poco valor pueden afectar negativamente el éxito de una tarea de agrupamiento (Clustering), pues generan clusters de datos de los cuales no se puede extraer información procesable. En algunos casos, la obtención de clusters inválidos puede llevar a falsas conclusiones. Los datos deben ser una representación combinada del proceso de generación de datos, ya que si se hace el agrupamiento (Clustering) en un dataset que contiene datos relacionados únicamente con determinadas circunstancias o condiciones de funcionamiento, se crearán clusters inválidos. El valor también depende de la capacidad de realizar el agrupamiento (Clustering) tan pronto estén disponibles los datasets, y de completar el proceso de agrupamiento (Clustering) lo más rápido posible, lo cual está determinado por la plataforma subyacente de Big Data. La integración rápida de una gran variedad de datasets requiere un mecanismo de motor de flujo de trabajo que pueda realizar automáticamente diversas actividades de combinación de datos, en colaboración con el mecanismo del motor de transferencia de datos. Sin embargo, los algoritmos de agrupamiento (Clustering) basados en implementaciones progresivas de actualización pueden ayudar en el agrupamiento (Clustering) de nuevos datos en menos tiempo, para así obtener valores de dichos datasets más rápidamente. El valor total de una tarea de agrupamiento (Clustering) requiere que los clusters generados automáticamente sean interpretados correctamente, para lo cual es necesario contar con conocimientos especializados en el dominio. Agrupamiento (Clustering) y datasets de gran volumen. Agrupamiento (Clustering) y datasets altamente veloces. Agrupamiento (Clustering) y datasets de gran variedad. Agrupamiento (Clustering) y datasets altamente veraces. Agrupamiento (Clustering) y datasets de gran valor. John trabaja para una compañía aérea como un científico de datos. Él está analizando 5 TB de datos de vuelo, a fin de predecir el consumo de combustible basado en un número de factores potencialmente relevantes, tales como la altura, las turbulencias, temperatura del aire, presión de aire, la frecuencia con la que el avión cambia de altitud, el uso de equipos eléctricos en el interior del avión, el número de motores, el peso del combustible de reserva, y el cambio de empuje durante el aterrizaje. La plataforma subyacente de Big Data ejecuta una serie de modelos que requieren una gran cantidad de cálculos. ¿Qué técnicas o algoritmos pueden aplicarse para desarrollar un modelo eficiente y predecir el consumo de combustible basándose solamente en los factores relevantes?. Correlación de la regresión lineal múltiple. k-NN. K-medias. k-NNm. Regresión lineal múltiple. David está trabajando en un software de reconocimiento de caracteres que pueda relacionar caracteres manuscritos con un conjunto determinado de caracteres pertenecientes a diferentes idiomas. Él ha etiquetado exitosamente un número de caracteres obtenidos a partir de una variedad de muestras manuscritas de varios individuos que dominan estos idiomas. ¿Qué algoritmo puede usarse para desarrollar un modelo como este. Correlación de la regresión lineal múltiple. k-NN. K-medias. k-NNm. Regresión lineal múltiple. Alice trabaja para una compañía de seguros, y se le ha solicitado analizar un dataset de 8 TB para determinar si los titulares de las pólizas pueden dividirse en diferentes grupos de acuerdo con la similitud en sus perfiles. Actualmente no hay grupos que sirvan como referencia. ¿Qué algoritmo debe utilizar Alice para dividir a los titulares de la póliza en un conjunto significativo de grupos?. Correlación de la regresión lineal múltiple. k-NN. K-medias. k-NNm. Regresión lineal múltiple. Robin trabaja para la asociación nacional de astronomía y se encarga de identificar planetas a partir de un gran número de objetos celestes. Él ya ha identificado un número significativo de planetas. ¿Qué algoritmo puede utilizar Robin para desarrollar un modelo para esta tarea?. Correlación de la regresión lineal múltiple. k-NNm. K-medias. k-NN. Regresión lineal múltiple. Elliot está desarrollando un modelo que puede estimar la hora de finalización de un proyecto de construcción. Él está planeando tomar en cuenta una serie de factores que pueden afectar el tiempo de finalización del proyecto, tales como los cambios de diseño, la distancia del lugar de construcción hasta la carretera principal más cercana, el número de contratistas que trabajan, la cualificación de la mano de obra y el número de accidentes. ¿Qué algoritmo o técnica puede utilizar para desarrollar un modelo como este?. Correlación de la regresión lineal múltiple. k-NNm. K-medias. k-NN. Regresión lineal múltiple. |