Sistemas Aprendizaje Automatico
|
|
Título del Test:
![]() Sistemas Aprendizaje Automatico Descripción: Parte 2 - Capitulos X |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es la importancia de la fase de preprocesamiento de datos en un proyecto de Ciencia de Datos?. Es una etapa secundaria que no afecta el rendimiento del modelo. Es crucial para garantizar la calidad, coherencia y fiabilidad de los datos, lo que impacta directamente en el rendimiento y validez de los modelos. Se enfoca únicamente en la recolección de datos. ¿Qué porcentaje del tiempo total de un proyecto de Machine Learning se dedica aproximadamente a la preparación y limpieza de datos?. Alrededor del 20%. Alrededor del 80%. Alrededor del 50%. ¿Cuál es el propósito principal del preprocesamiento de datos?. Entrenar directamente los algoritmos de Machine Learning. Transformar los datos brutos en un formato adecuado para el análisis y la modelización. Generar datos completamente nuevos. El preprocesamiento de datos actúa como una etapa intermedia entre: La recolección de datos y la visualización. La adquisición de los datos y el entrenamiento del modelo. El análisis exploratorio y la selección de características. ¿Qué puede generar un conjunto de datos mal preparado?. Modelos sesgados, con baja capacidad de generalización o predicciones erróneas. Modelos más eficientes y precisos. Una reducción en la necesidad de preprocesamiento futuro. ¿Cuál de las siguientes NO es una fase fundamental del preprocesamiento de datos mencionada en el texto?. Limpieza y depuración de datos. Codificación de variables categóricas. Selección de características. Diseño de la arquitectura del modelo. ¿Qué abarca la limpieza y depuración de datos?. La transformación de variables categóricas. La detección y tratamiento de valores ausentes o perdidos, atípicos o inconsistentes. La reducción de la dimensionalidad. ¿Cuál es el objetivo de la codificación de variables categóricas?. Transformar información cualitativa en representaciones numéricas interpretables por los modelos. Eliminar variables irrelevantes. Homogeneizar las magnitudes de las variables numéricas. ¿Qué objetivo tiene el escalado y normalización de variables numéricas?. Detectar y tratar valores perdidos. Homogeneizar las magnitudes de las variables numéricas para evitar sesgos en algoritmos sensibles a las distancias. Eliminar redundancias o atributos irrelevantes. ¿Qué busca la reducción o selección de características?. Aumentar la complejidad del modelo. Codificar variables categóricas. Eliminar redundancias o atributos irrelevantes, mejorando la eficiencia y la capacidad de generalización del modelo. Tratar valores ausentes. ¿Qué permiten las transformaciones avanzadas y tratamiento de desbalanceos?. Adaptar los datos a distribuciones más adecuadas o equilibrar las clases en problemas de clasificación. Detectar valores atípicos. Simplificar la estructura de los datos. Un modelo predictivo no puede superar la calidad de: Los algoritmos utilizados. Los datos sobre los que se entrena. La infraestructura computacional. ¿Cuál es la finalidad de la limpieza y depuración de datos?. Aumentar el tamaño del dataset. Garantizar la calidad, coherencia y fiabilidad del conjunto de datos antes de someterlo a análisis o modelización. Simplificar la interpretación de variables numéricas. ¿Por qué los datos reales rara vez se encuentran en condiciones óptimas?. Debido a la falta de algoritmos sofisticados. Porque pueden contener valores ausentes, duplicados, errores de formato, registros inconsistentes o valores atípicos. Debido a que los modelos de Machine Learning no pueden procesar datos complejos. ¿Cómo se les conoce a los valores perdidos en la literatura?. Valores completos. Valores nulos, faltantes, ausentes o desconocidos. Valores atípicos. Al decidir cómo tratar los valores perdidos, ¿qué es necesario analizar primero?. La capacidad de generalización del modelo. La magnitud, patrón y posible causa de los valores perdidos. La velocidad de procesamiento del algoritmo. ¿Qué tipo de dato faltante ocurre cuando la probabilidad de que un valor falte no está relacionada ni con el valor en sí ni con ningún otro valor observado?. MAR (Missing At Random). MNAR (Missing Not At Random). MCAR (Missing Completely At Random). ¿Qué tipo de dato faltante ocurre cuando la probabilidad de que un valor falte está relacionada con los valores de otras variables observadas, pero no con el valor en sí que falta (una vez controladas esas variables)?. MCAR (Missing Completely At Random). MNAR (Missing Not At Random). MAR (Missing At Random). ¿Qué tipo de dato faltante ocurre cuando la probabilidad de que un valor falte depende directamente del valor que debería haber estado allí (el valor no observado)?. MAR (Missing At Random). MNAR (Missing Not At Random). MCAR (Missing Completely At Random). En la pregunta de prueba sobre la encuesta de salud, donde la población que declara no hacer ejercicio físico tiende a no contestar sobre su estado físico, ¿ante qué tipo de valor faltante estamos?. MCAR. MAR. MNAR. ¿Qué consiste la eliminación de registros incompletos?. Sustituir los valores faltantes por estimaciones. Eliminar aquellas observaciones que contienen valores ausentes en una o más variables relevantes. Identificar los K registros más similares. ¿Cuándo es apropiado el enfoque de eliminación de registros incompletos?. Cuando la proporción de datos ausentes es alta (superior al 10%) y son MCAR. Cuando la proporción de datos ausentes es reducida (inferior al 5-10%) y son MCAR. Cuando los valores perdidos son MNAR. ¿Qué consiste la imputación de valores?. Eliminar las observaciones con valores faltantes. Sustituir los valores faltantes por estimaciones de los mismos. Identificar patrones en los datos faltantes. Para valores nulos que son MCAR, ¿qué métodos de imputación simples se pueden optar?. Imputación por regresión. Imputación por la media, mediana o moda. Imputación KNN. ¿Cuándo es más recomendable usar la imputación por la mediana en lugar de la media?. Cuando las variables numéricas tienen una distribución aproximadamente normal. Cuando las variables numéricas tienen valores atípicos (outliers) o una distribución sesgada. Cuando las variables son categóricas. ¿Qué técnica se puede usar para imputar valores en variables categóricas?. Imputación por la media. Imputación por la mediana. Imputación por la moda. Si los valores perdidos son MAR, ¿cómo se puede sofisticar la técnica de imputación?. Realizando imputaciones simples sin considerar grupos. Calculando los estadísticos (media, mediana, moda) sobre los grupos específicos en los que se están haciendo las imputaciones. Eliminando todos los registros con valores faltantes. ¿Qué técnica de imputación es más compleja y potente, diseñada para modelar el valor perdido utilizando relaciones complejas entre múltiples variables?. Imputación simple (media, mediana, moda). Imputación mediante modelos. Eliminación de registros. ¿Qué técnica de imputación identifica los K registros más similares al registro incompleto?. Imputación iterativa. Imputación mediante modelos regresivos. Imputación KNN (K-Nearest Neighbors Imputation). ¿En qué consiste la imputación mediante modelos regresivos?. Se eliminan los registros con valores faltantes. El valor a imputar se trata como la variable objetivo de un modelo de regresión. Se utiliza la media o mediana de la columna. ¿Qué técnica de imputación es considerada la más robusta para MAR y trata iterativamente cada columna con valores perdidos?. Imputación KNN. Imputación iterativa. Imputación mediante modelos regresivos. ¿Qué son los valores atípicos (outliers)?. Valores que se encuentran dentro del rango normal de los datos. Observaciones que se encuentran anormalmente lejos de otros valores. Valores que se repiten frecuentemente. ¿Cómo se diferencian los outliers univariados de los multivariados?. Los univariados son anómalos en una sola característica, los multivariados por la combinación de variables. Los univariados son más difíciles de localizar que los multivariados. Los multivariados solo afectan a variables numéricas. ¿Qué método es el más extendido para detectar outliers?. El método del rango intercuartílico (IQR). El método de la media. El método de la moda. ¿Qué representa el IQR (Rango Intercuartílico)?. La diferencia entre el valor máximo y mínimo. La diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). El promedio de todos los valores. ¿Cómo se calcula el límite superior para clasificar un outlier univariado?. Q1 - 1.5 * IQR. Q3 + 1.5 * IQR. Q3 - Q1. ¿Cuál de las siguientes es una estrategia común para tratar outliers detectados como error de medición?. Aumentar el número de características. Eliminación (Descarte) o corrección del valor. Aplicar codificación one-hot. Si un valor atípico es real y representa una variación extrema, ¿qué estrategia se puede usar para mitigar su impacto sin perder información?. Eliminar el valor atípico. Evitar utilizar técnicas estadísticas sensibles a datos extremos o transformar los datos a una escala más manejable. Aumentar el número de épocas de entrenamiento. ¿Por qué la presencia de registros duplicados es un problema?. Porque distorsionan estadísticas descriptivas, sesgan modelos y conducen a conclusiones erróneas. Porque reducen la carga computacional. Porque mejoran la interpretabilidad del modelo. Las variables cuantitativas son aquellas cuyos valores son intrínsecamente: Cualitativos y no numéricos. Numéricos y representan una cantidad medible o contable. Categóricos y no ordenados. ¿Cuál es la diferencia entre variables discretas y continuas?. Las discretas toman valores específicos (con saltos), las continuas pueden tomar infinitos valores en un intervalo. Las discretas son el resultado de mediciones, las continuas de conteos. Las discretas son siempre numéricas, las continuas pueden ser categóricas. Ejemplos de variables discretas incluyen: Altura, temperatura, peso. Número de hijos, cantidad de artículos, número de visitas. Nivel educativo, grado de satisfacción. Ejemplos de variables continuas incluyen: Número de hijos, edad en años cumplidos. Altura, temperatura, peso. Género, color del coche. Las variables cualitativas representan: Cantidades numéricas medibles. Atributos, cualidades o categorías. Valores que pueden ser ordenados jerárquicamente. ¿Cuál es la diferencia entre variables nominales y ordinales?. Las nominales tienen orden, las ordinales no. Las nominales no tienen orden jerárquico, las ordinales sí. Las nominales son numéricas, las ordinales son categóricas. Ejemplos de variables nominales: Nivel educativo, grado de satisfacción. Color (rojo, verde, azul), género (masculino, femenino). Calificación crediticia (AAA > AA > A). Ejemplos de variables ordinales: Tipo de industria, identificador de producto. Nivel educativo (primaria, secundaria, grado), grado de satisfacción (insatisfecho, neutral, satisfecho). Código postal. ¿Qué es la codificación o encoding de variables categóricas?. Transformar variables categóricas en representaciones numéricas compatibles con los modelos. Eliminar variables categóricas del dataset. Crear nuevas categorías a partir de variables numéricas. ¿Cuál es el objetivo de la codificación de variables ordinales?. Crear nuevas columnas binarias para cada categoría. Preservar la jerarquía asignando un valor numérico entero único a cada categoría. Asignar un valor numérico aleatorio a cada categoría. ¿Qué técnica es la más utilizada para variables categóricas que no tienen orden (nominales)?. Codificación Ordinal. One-Hot Encoding. Codificación por frecuencia. ¿Qué hace el One-Hot Encoding?. Transforma una única columna categórica en múltiples columnas binarias (dummy). Asigna un número secuencial a cada categoría. Reemplaza las categorías por su frecuencia. ¿Cuál es una posible desventaja del One-Hot Encoding?. No puede manejar variables categóricas. Genera multicolinealidad perfecta y puede sufrir la Maldición de la Dimensionalidad con alta cardinalidad. Reduce la interpretabilidad del modelo. Si una variable categórica tiene una alta cardinalidad (muchas categorías únicas), ¿qué técnica alternativa al One-Hot Encoding se puede usar?. Codificación Ordinal. Codificación por frecuencia. Eliminación de la variable. ¿Por qué muchos algoritmos de Aprendizaje Automático son sensibles a la escala de los datos?. Porque asumen que todas las características contribuyen de manera equitativa a la función de coste, especialmente en métodos basados en distancias o gradientes. Porque prefieren datos en rangos muy amplios. Porque la escala no afecta su rendimiento. ¿Qué buscan las técnicas de escalado de datos?. Aumentar la dimensionalidad de los datos. Ajustar los rangos de las variables cuantitativas para que contribuyan de forma similar y justa al aprendizaje. Introducir no linealidad en los datos. ¿Cómo funciona el escalado Min-Max (MinMaxScaler)?. Centra los datos alrededor de cero con desviación estándar uno. Reescala cada variable a un rango definido, típicamente [0, 1]. Utiliza la mediana y el rango intercuartílico. ¿Cuál es una limitación del escalado Min-Max?. Es sensible a los outliers, ya que estos definen los valores de Xmax y Xmin. Aumenta la dimensionalidad de los datos. No puede aplicarse a variables numéricas. ¿Cómo transforma los datos el escalado estándar (StandardScaler)?. Reescala los datos a un rango entre 0 y 1. Transforma los datos para que tengan una media μ igual a cero y una desviación estándar σ igual a uno. Utiliza la mediana y el rango intercuartílico. ¿Por qué el escalado estándar es menos sensible a posibles outliers que el Min-Max Scaler?. Porque comprime la variable a un rango estricto. Porque no comprime la variable a un rango estricto y los outliers mantienen su relativa distancia. Porque utiliza la mediana en lugar de la media. ¿Qué técnica de escalado está diseñada para minimizar la influencia de los valores atípicos?. Escalado Min-Max. Escalado estándar. Escalado Robusto (Robust Scaler). ¿Qué estadísticas emplea el Escalado Robusto para escalar los datos?. La media y la desviación estándar. Los valores mínimo y máximo. La mediana y el rango intercuartílico (IQR). ¿Cuál es la fórmula de transformación del Escalado Robusto?. X' = (X - μ) / σ. X' = (X - Xmin) / (Xmax - Xmin). X' = (X - mediana) / IQR. ¿Por qué es importante seleccionar el método de escalado adecuado?. Porque afecta la interpretabilidad del modelo. Porque exige comprender la naturaleza de los datos y las características del modelo a emplear. Porque reduce el número de características. En el contexto de ventas de ropa, la variable 'color de cada prenda vendida' es de tipo: Cualitativa, y más específicamente categórica. Cualitativa, y más específicamente ordinal. Cuantitativa, y más específicamente continua. Si detectamos outliers muy significativos en muchas columnas al escalar datos con grandes diferencias de rangos, ¿qué método de escalado es la mejor idea usar?. MinMaxScaler. RobustScaler. StandardScaler. |





