MINERIA DE DATOS EXAMEN
|
|
Título del Test:
![]() MINERIA DE DATOS EXAMEN Descripción: PREGUNTAS DE EXAMEN DE MINERIAS DE DATOS |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Qué disciplina facilita entender los resultados obtenidos en minería de datos?. Visualización de datos. Estadística. Detectar fraude en tarjetas corresponde a: Finanzas y banca. Educación. Una plataforma de streaming usa historial y calificaciones previas para predecir si un usuario dará una calificación positiva a una nueva película. Este problema es de: Supervisado. Agrupamiento. Una red social analiza publicaciones para identificar comunidades de usuarios con intereses similares, sin categorías definidas. Este análisis corresponde a: Predictivo. No supervisado. ¿Cuál es una ventaja de la minería de datos?. Permite detectar fraudes. Reduce la cantidad de datos. ¿Cuál variable presenta mayor dispersión?. Ciudad. Monto de compra. ¿Cuáles son tareas propias del EDA? (Seleccione todas las correctas). Enumeración de atributos. Distribución de atributos. Identificación de subpoblaciones. ¿En cuál de las dos graficas el promedio podría representar adecuadamente a la mayoría de los datos?. Dataset B. Dataset A. ¿Es la media un buen estimador del comportamiento típico del monto de compra?. No, porque la distribución es asimétrica y está influenciada por valores altos. Sí, porque resume todos los datos. Empareje la herramienta con su función. sklearn.decomposition Elegir...Aplica PCA. StandardScaler Elegir...Aplica Estandariza variables. Empareje el concepto con su definición (EDA). Enumeración de atributos Elegir... Identificación y tipo de variables. Búsqueda de patrones Elegir...Relaciones significativas entre atributos. EDA Elegir... Comprensión inicial del conjunto de datos. Distribución de atributos Elegir... Análisis de forma y rango de los datos. Empareje el método con su descripción. PCA Elegir... Genera componentes no correlacionados. ICA Elegir... Identifica componentes independentes. LDA Elegir... Técnica discriminante. ¿Cuáles son características de los sistemas de predicción? Seleccione una o más de una: Anticipan resultados. Usan datos históricos. Apoyan decisiones. Si se quisiera conservar al menos el 80 % de la información original, la acción más adecuada sería: Usar únicamente CP1. Aumentar el número de componentes. En regresión lineal, se cumple que: Seleccione una o más de una: Existe una relación entre dos variables. El resultado es numérico. Se puede usar para estimar valores futuros. ¿Por qué los árboles de decisión se consideran uno de los modelos más interpretables?. Porque siempre dan probabilidades perfectas. Porque representan decisiones como una secuencia de reglas/preguntas desde raíz hasta hojas. En K-NN, un nuevo estudiante es comparado con los K estudiantes más similares. ¿Cómo se determina la clase final (p. ej., “Aprueba/No aprueba”) en la forma más común de K-NN para clasificación?. Se calcula una probabilidad con el teorema de Bayes. Se elige la clase más frecuente entre los K vecinos. Empareje el contexto con el algoritmo más adecuado (según lo visto). Texto (noticias, spam) Elegir... Naive Bayes. Clasificación por similitud Elegir... K-NN. Decisión binaria con probabilidad Elegir... Regresión logística. Decisiones explicables Elegir...Árbol de decisión. Empareje tarea y resultado. Clasificación Elegir...Categoría. Regresión Elegir... Valor numérico. Predicción Elegir... Resultado futuro. La minería predictiva permite: (Seleccione todas las correctas) Seleccione una o más de una: Reducir riesgos. Mejorar decisiones. Mantener competitividad. ¿Qué ventaja ofrece el proceso KDD frente a aplicar solo algoritmos de minería de datos?. Reduce el tamaño de los datos. Asegura un proceso completo desde datos crudos hasta conocimiento útil. Agrupar canciones por estilo es: Clasificación. No supervisado. ¿Qué caracteriza a un patrón “interesante” en minería de datos?. Que sea complejo. Que sea útil, válido y comprensible. El aprendizaje supervisado se caracteriza porque: Solo agrupa datos. Trabaja con datos etiquetados. Una empresa de telecomunicaciones busca detectar patrones de consumo inusuales sin definir previamente qué es “normal” o “anómalo”. ¿Qué tipo de aprendizaje corresponde?. No supervisado. Confirmatorio. ¿Qué gráficos se utilizan para analizar distribuciones?. Histograma. Boxplot. Empareje el gráfico con la información que representa. Polígono de frecuencia: Elegir...Comparar distribuciones. Histograma Elegir... Analizar la distribución de una variable. Dispersión Elegir... Patrones y correlaciones. Gráfico de líneas Elegir... Evolución temporal de los datos. ¿Qué categoría de producto presenta la mediana de monto de compra más alta?. Alimentos. Electrónica. Al observar el siguiente gráfico de líneas de ventas mensuales, ¿Qué se puede concluir sobre la tendencia general durante los dos años analizados?. Las ventas muestran una tendencia general creciente con ligeras fluctuaciones. No es posible identificar ninguna tendencia. Si NO se hubiera aplicado StandardScaler antes de PCA, el resultado más probable sería: No se podría calcular la varianza. Las variables de mayor escala dominarían los componentes. Empareje el tipo de técnica con su acción. Selección de características Elegir...Elimina variables irrelevantes. Extracción de características Elegir... Combina variables originales. Ordene correctamente del proceso PCA: Escalado de datos. Cálculos de componente. Análisis de Varianza. Visualizacion CP1-CP2. Los sistemas de predicción utilizan datos {históricos} para anticipar resultados {futuros }. históricos. futuros. Empareje la etapa del proceso con su propósito principal. Construcción del modelo Elegir... Entrenar/ajustar el algoritmo con datos. Evaluación: Elegir...Medir desempeño (métricas) en datos de prueba. Recolección de datos Elegir... Obtener información histórica desde fuentes. Preparación de datos Elegir... Limpiar, transformar e integrar datos. Completa: En el caso Edad → Estatura, el objetivo principal del modelo es { capturar la tendencia promedio}. Capturar la tendencia promedio. En un contexto educativo, un falso negativo implica (seleccione todas las correctas): Seleccione una o más de una: Eliminación del error humano. Posible desmotivación injustificada. En un contexto educativo, un falso negativo implica (seleccione todas las correctas): Seleccione una o más de una: Posible desmotivación injustificada. Un estudiante aprobado es clasificado como no aprobado. Empareje el tipo de resultado con el tipo de problema. “Recomendado / No recomendado”: elegir...Recomendación. “Grupo A, B, C” Elegir...Clustering. “Riesgoso / No riesgoso” Elegir... Clasificación. “380 ml de agua” Elegir... Predicción. ¿Cuál de los siguientes es un ejemplo de modelo predictivo?. Agrupar usuarios por intereses. Predecir si una transacción será fraudulenta. ¿Qué tipo de atributo es la variable ¨ciudad¨?. Categórico. Numérico continuo. Patrones de fallas industriales pertenecen a: Turismo. Manufactura. Empareje la librería de Python con su función. matplotlib Elegir... Gráficos estáticos básicos. pandas Elegir...Manipulación y organización de datos. plotly Elegir... Gráficos interactivos. seaborn Elegir... Visualización estadística. ¿Qué librería se usa para gráficos interactivos en Python?. plotly. pandas. ¿Cuál de los siguientes métodos es una técnica de extracción de características?. PCA. Eliminación de columnas. ¿Cuál es el objetivo principal de la minería de datos?. Generar reportes estáticos. Descubrir patrones y conocimiento útil en los datos. Reducir el dataset a dos componentes principales significa que: El dataset perdió la mayoría de los registros. Cada registro ahora se describe con dos combinaciones de variables. ¿Qué disciplina aporta conceptos como media, varianza y regresión?. Visualización de datos. Estadística. Con base en los histogramas de los Dataset A y B, ¿Cuáles afirmaciones son correctas? (Seleccione todas las correctas). El Dataset A presenta una distribución aproximadamente simétrica. En el Dataset B los valores altos aparecen con menor frecuencia. El Dataset B presenta una distribución sesgada a la derecha. Con el porcentaje de varianza obtenido, ¿para qué escenario NO sería suficiente usar solo dos componentes?. Visualización exploratoria. Modelado predictivo. ¿Por qué la minería de datos es especialmente útil en análisis exploratorios?. Porque elimina la necesidad de expertos. Porque permite descubrir conocimiento sin supuestos iniciales. Clasificar correos como spam/no spam es: Supervisado. Exploratorio. En el proceso de minería de datos, ¿cuál es el rol principal del ser humano?. Definir objetivos, interpretar resultados y tomar decisiones. Ejecutar manualmente los algoritmos. Un sistema recibe correos etiquetados como “spam” o “no spam” y aprende a clasificar nuevos correos. Este es un ejemplo de: Supervisado. Agrupamiento. La línea de código df[num_cols].describe() en Pandas sirve para generar un resumen estadístico descriptivo de las columnas numéricas (num_cols) seleccionadas dentro de un DataFrame (df). La media del monto de compra es mayor que la mediana. ¿Qué indica esto?. Distribución uniforme. Distribución asimétrica con sesgo a la derecha. La línea de código df[num_cols].describe() en Pandas sirve para generar un resumen estadístico descriptivo de las columnas numéricas (num_cols) seleccionadas dentro de un DataFrame (df). El valor count del resumen estadístico ¿Qué representa este valor?. El valor máximo. El número de registros. ¿Por qué no se observan indicios claros de valores atípicos en la variable edad?. Porque no existen valores mínimos en la edad. Porque la edad máxima no se aleja significativamente del resto de los valores y la distribución es más equilibrada. ¿Cuál de las siguientes NO es una estrategia de reducción de datos?. Reducción de dimensionalidad. Normalización de bases de datos. Ventaja del aprendizaje no supervisado: Usa etiquetas. Descubre patrones ocultos. ¿Para qué fue útil PCA en esta práctica? (Seleccione todas las correctas). Detectar agrupamientos. Identificar outliers. Reducir la complejidad visual. ¿Cuáles son características del Análisis de Componentes Principales ?. . PCA puede usarse antes de clustering. PCA combina variables. ¿Qué se entiende por dimensión en un conjunto de datos?. Una variable o característica. Un registro del dataset. Predecir demanda de energía es: Supervisado. Asociación. Un modelo que estima la demanda futura de un producto es: Descriptivo. Predictivo. ¿Cuál es una ventaja clave de las gráficas interactivas?. Reemplazan la minería de datos. Permiten explorar subconjuntos de datos. Un sistema analiza correos con variables como presencia de palabras (“gratis”, “oferta”), número de enlaces y remitente. ¿Qué algoritmo del tema se asocia clásicamente a este escenario por su enfoque probabilístico?. K-NN. Naive Bayes. Empareja cada algoritmo con su idea central. K-NN Elegir...Similitud / vecinos más cercanos. Naive Bayes Elegir...Probabilidad (teorema de Bayes). Regresión logística Elegir... Probabilidad + umbral para asignar clase. Árbol de decisión Elegir... Reglas jerárquicas tipo “preguntas”. Caso: Una empresa tiene información de clientes, pero no sabe quiénes son “buenos” o “malos”. Solo desea agrupar clientes según comportamiento de compra. ¿Qué enfoque es el más adecuado?. . Recomendación, porque sugiere productos de inmediato. Clustering, porque no hay etiquetas y se buscan grupos por similitud. Complete: La regresión logística se utiliza cuando la variable objetivo representa una cantidad continua agrupación sin etiquetas { }. decisión binaria. Ambos son iguales. ¿Cuál afirmación es correcta?. Supervisado es descriptivo. Supervisado es predictivo y no supervisado descriptivo. ¿Por qué el gráfico de barras es más adecuado que un gráfico de líneas para comparar ventas por trimestre?. . Porque permite observar correlaciones. Porque los trimestres son categorías discretas. En la práctica, los dos primeros componentes explicaron ≈49 % de la varianza total. ¿Qué se puede concluir correctamente?. El dataset es complejo y requiere más componentes. PCA falló. Identifique el tipo de problema predictivo descrito. Una empresa desea estimar el costo mensual de mantenimiento según el número de usuarios. Clasificación. Regresión lineal. En el proceso general de minería de datos (recolección → preparación → construcción → evaluación → uso),¿en qué fase se aplica directamente un algoritmo de clasificación (p. ej., K-NN, Naive Bayes, árbol, regresión logística)?. Construcción del modelo. Preparación de datos. Estimar el precio de una vivienda según su tamaño y ubicación corresponde a: Regresión. Reglas de asociación. ¿Cuál es el objetivo principal de los modelos predictivos?. Visualizar información. Predecir valores futuros o desconocidos. ¿Qué disciplina aporta técnicas como indexación y acceso eficiente a los datos?. Visualización. Bases de datos. ¿Qué librerías se usan para visualización en Python? Seleccione una o más de una: plotly. seaborn. matplotlib. La reducción de dimensionalidad se considera una técnica de: Preprocesamiento. Postprocesamiento. ¿Cuáles son ejemplos de tareas de clasificación? Seleccione una o más de una: Detectar fraude. Aprobar / Reprobar. Selección de personal usa: Educación. Recursos Humanos. La regresión sirve para: Agrupar. Predecir valores numéricos. ¿Por qué es importante clasificar las variables en numéricas y categóricas antes del análisis?. Para usar el mismo gráfico en todas. Porque cada tipo requiere análisis y gráficas distintas. La reducción de dimensionalidad busca principalmente: Convertir variables categóricas en numéricas. Simplificar el dataset sin perder información relevante. ¿Qué tipo de datos maneja principalmente la minería de datos?. Datos no estructurados únicamente. Grandes volúmenes de datos. ¿Cuál de las siguientes afirmaciones sobre PCA es correcta?. Combina variables para crear nuevas. Funciona solo con datos categóricos. Decisiones paso a paso usan: . Árboles de decisión. Reglas de asociación. ¿Cuál opción describe mejor su lógica general?. Combina clasificación y/o predicción sobre datos históricos para sugerir ítems. No usa datos históricos; recomienda aleatoriamente. Un modelo de regresión logística estima P(Riesgoso) para un cliente. Si la política del banco define umbral 0.70, ¿cuándo se clasifica como Riesgoso?. Cuando el cliente es similar a sus 3 vecinos más cercanos. Cuando P(Riesgoso) ≥ 0.70. Un falso positivo ocurre cuando: El modelo predice positivo y es realmente negativo. El modelo predice negativo y es positivo. Predecir inundaciones corresponde a: Marketing. Ciencias y medio ambiente. Reducir dimensionalidad siempre implica: Posible pérdida parcial de información. Convertir variables categóricas. En minería de datos, un modelo se define como: Un software de análisis. Una representación matemática o estadística construida a partir de datos. ¿Cuál es una aplicación actual típica de la minería de datos?. Procesamiento de texto simple sin análisis. Sistemas de recomendación. ¿Cuál NO es objetivo de un modelo descriptivo?. Predecir valores futuros. Explorar datos. Los dos primeros componentes explicaron aproximadamente el 48.9 % de la varianza total. Esto indica que el dataset: Contiene información distribuida en varias dimensiones. Perdió información irrelevante. La selección de características consiste en: Eliminar variables irrelevantes o redundantes. Crear nuevas variables combinadas. El proceso KDD incluye: Preparación, selección de técnica, aplicación e interpretación/validación. Hacer un gráfico final. El PCA (Análisis de Componentes Principales) es una técnica: No supervisada. De regresión. Naive Bayes se basa en: Teorema de Bayes. Distancia euclidiana. Una institución tiene datos (horas de estudio, asistencia, participación) y además conoce si cada estudiante aprobó o reprobó. Se entrena un modelo para predecir si un nuevo estudiante aprobará. ¿Qué tipo de aprendizaje es?. Supervisado. Reforzado. Un sistema de recomendación combina: Técnicas de clasificación y predicción. Solo clustering. Un modelo con buen accuracy puede NO ser adecuado en salud si (seleccione todas las correctas): Se usa como única fuente de decisión. Presenta muchos falsos negativos. No considera impacto humano. ¿Por qué la minería de datos se considera una disciplina multidisciplinaria?. Porque integra técnicas de estadística, aprendizaje automático, bases de datos y visualización. Porque reemplaza a la estadística. ¿Cuáles son beneficios de la visualización de datos? Seleccione una o más de una: Apoyar decisiones. Comprender patrones. Detectar valores atípicos. ¿Cuál de los siguientes problemas surge al analizar datasets con muchas variables?. Mayor facilidad de interpretación. Mayor consumo de recursos y complejidad. PCA se usa principalmente para: Predecir valores. Reducir dimensionalidad. Clasificar una transacción como fraude o no fraude es un ejemplo de: Agrupamiento (clustering). Clasificación. Un modelo con alto accuracy pero clases desbalanceadas puede: Ser siempre excelente. No ser confiable. Detectar fraude bancario usa: Clasificación. PCA. Netflix puede clasificar contenidos como “Recomendado” o “No recomendado” para un usuario específico, usando historial del usuario y de usuarios similares. Si la salida final es esa etiqueta binaria, ¿qué componente del sistema se parece más a un problema de: Asociación exclusivamente. Clasificación. Empareje el tipo de gráfico con su uso principal. Gráfico de dispersión Elegir... Relacionar dos variables numéricas. Gráfico de barras Elegir...Comparar categorías. Boxplot Elegir... Detectar valores. Histograma Elegir... Analizar la distribución de una variable. ¿Qué gráfico permite analizar la relación entre dos variables numéricas?. Gráfico de dispersión. Gráfico de barras. ¿Cuántos registros contiene el dataset?. 250. 12. |





