MINERIA DE DATOS
![]() |
![]() |
![]() |
Título del Test:![]() MINERIA DE DATOS Descripción: APUNTES PARA EXAMEN |




Comentarios |
---|
NO HAY REGISTROS |
1. ¿Para qué sirve principalmente la regresión lineal?. Clasificar clientes en segmentos. Predecir valores categóricos. Predecir valores numéricos continuos. Detectar valores atípicos. Relaciona la acción descrita con el paso correspondiente del proceso KDD. Usa gráficos de barras para mostrar el comportamiento mensual de compra. Aplica un algoritmo de clustering para segmentar clientes por comportamiento. Filtra los registros solo de clientes activos en los últimos 6 meses. Unifica los datos de ventas, atención al cliente y redes sociales en una sola base. ¿Cuál es una ventaja de los árboles de decisión?. Son difíciles de interpretar. Requieren muchos datos de entrada. Permiten representar decisiones de forma clara y jerárquica. Solo sirven para regresión. ¿Qué tipo de gráfico es más útil para identificar valores atípicos en los datos?. Gráfico de barras. Diagrama de cajas. Histograma. Polígono de frecuencia. Relaciona cada herramienta de minería de datos con su característica. SAS. RapidMiner. Orange. WEKA. ¿Qué tipo de minería de datos se usa para detectar opiniones en redes sociales?. Minería de texto. Minería de estructuras web. Minería de procesos. ¿Qué caracteriza a la herramienta Orange?. Basada en lenguaje R, especializada en bioinformática. Diseñada solo para minería de texto. Interfaz visual con widgets para análisis de datos. Solo se puede usar en sistemas Mac. Un sistema de salud desea predecir si un paciente será readmitido al hospital según historial clínico. ¿Qué tipo de tarea debe usarse?. Agrupamiento. Asociación. Clasificación. Regresión. ¿Cuándo es apropiado utilizar un gráfico de dispersión?. Para representar proporciones entre categorías. Cuando se quiere comparar tendencias en el tiempo. Al explorar relaciones entre dos variables numéricas. Para mostrar distribución de una variable categórica. Relaciona cada técnica con su aplicación. Clasificación. Regresión logística. Series temporales. Regresión lineal. ¿Cuál es el objetivo principal de la visualización dentro del proceso de minería de datos?. . Almacenar datos en gráficos visuales. Presentar resultados estéticamente. Facilitar el reconocimiento de patrones y la toma de decisiones. Sustituir el análisis estadístico. ¿Cuál es uno de los principales desafíos al analizar datos de redes sociales?. Fácil acceso a los datos. Tamaño, ruido y dinamismo de los datos. Costos elevados del hardware. Ausencia de algoritmos de clasificación. ¿Cuál es una aplicación común del análisis de redes sociales en minería de datos?. Identificar estructuras de red neuronal profunda. Predecir conexiones entre usuarios y medir influencia. Crear gráficos de barras. Determinar el costo de algoritmos. ¿En qué consiste el filtrado colaborativo basado en usuarios?. Se usa el contenido del producto para hacer recomendaciones. Se utilizan usuarios similares para predecir preferencias del usuario objetivo. Se predicen las etiquetas sin datos previos. Se seleccionan los productos más vendidos. . Relaciona el sector con la aplicación de minería de texto. Mantenimiento. Redes sociales. Salud. Finanzas. Relaciona el paso del proceso KDD con su descripción. Presentación del conocimiento. Evaluación de patrones. Integración de datos. Transformación de datos. ¿Cómo se seleccionan los componentes principales en PCA?. Por orden alfabético. Según la varianza que explican. Por número de columnas originales. Aleatoriamente. ¿Cuál es una funcionalidad destacada de RapidMiner?. Analizar únicamente datos en pape. Diseñar redes sociales. Realizar minería de texto, análisis predictivo y aprendizaje automático. Crear perfiles de usuario en redes. ¿Cuál es una de las razones del auge actual de la minería de datos?. La disponibilidad de grandes volúmenes de datos y el aumento del poder computacional. La falta de herramientas estadísticas y de visualización. El reemplazo total del análisis cualitativo por métodos automatizados. Una tienda en línea quiere recomendar productos observando patrones de usuarios con comportamientos similares. ¿Qué técnica aplicaría?. Clasificación supervisada. Filtrado colaborativo basado en usuarios. Series temporales. Análisis de varianza. ¿Qué hace el clasificador k-vecinos más cercanos (k-NN)?. Predice etiquetas usando redes neuronales profundas. Asigna una clase basada en los k ejemplos más cercanos. Construye árboles de decisión basados en distancia. Usa probabilidad condicional para clasificar datos. ¿Cuál NO es una ventaja directa de reducir la dimensionalidad?. Reducir el tiempo de cómputo. Mejorar la interpretación de resultados. Aumentar el tamaño del conjunto de datos. Eliminar variables irrelevantes. ¿Cuál es el objetivo principal del Análisis de Componentes Principales (PCA)?. Aumentar el número de atributos. Reducir dimensionalidad conservando la mayor varianza posible. Eliminar datos duplicados. Transformar atributos categóricos en numéricos. ¿Cómo puede ayudar la minería de texto en el servicio al cliente?. Al crear encuestas visuales en redes sociales. Al responder automáticamente cualquier correo. Al identificar temas frecuentes en comentarios y tickets. Al traducir publicaciones en tiempo real. ¿En cuál de los siguientes casos usarías regresión logística?. Predecir el precio de una casa. Estimar la probabilidad de fraude en una transacción. Calcular ingresos anuales. Pronosticar el tráfico vehicular diario. Relaciona el concepto con su definición. Predicción numérica. Modelado predictivo. Variable dependiente. Regresión polinomial. ¿Cuál de las siguientes afirmaciones sobre minería de datos es verdadera?. La minería de datos puede descubrir conocimiento útil a partir de datos que antes eran desconocidos. La minería de datos solo sirve para analizar bases de datos relacionales. La minería de datos reemplaza completamente el análisis estadístico tradicional. ¿Cuál es una diferencia entre selección y extracción de características?. La selección crea nuevas variables; la extracción elimina las irrelevantes. La selección usa PCA; la extracción, umbrales. La selección elige un subconjunto; la extracción transforma los datos. No hay diferencia. ¿Cuál es una aplicación típica de las reglas de asociación?. Predicción del clima. Análisis de sentimiento. Cestas de mercado. Detección de fallos. ¿En qué se diferencian la minería de datos y la minería web?. La minería de datos usa algoritmos, y la web no. La minería web se enfoca en hipervínculos, contenido web y registros. No existe diferencia técnica. La minería de datos se usa solo en Excel. ¿Cuál de las siguientes tareas busca encontrar valores atípicos o inusuales?. Clasificación. Regresión. Agrupamiento. Detección de anomalías. ¿Qué es la minería de texto?. El análisis de datos estructurados provenientes de bases de datos. La extracción de conocimiento útil desde datos textuales no estructurados. La traducción automática de textos a varios idiomas. La búsqueda de información exacta en tablas numéricas. ¿Por qué se usan gráficos de densidad suave en visualización de datos?. Para mostrar relaciones causales. Para crear modelos predictivos. Por su estética y suavidad en la representación de distribuciones. Para análisis multivariado exclusivamente. ¿Cuál es una ventaja clave de usar modelos predictivos en minería de datos?. Eliminan la necesidad de validar modelos. Permiten anticipar eventos futuros y tomar decisiones informadas. Funcionan sin datos históricos. Solo aplican en datos textuales. Relaciona cada disciplina con su aporte a la minería de datos. Aprendizaje automático. Visualización de datos. Bases de datos. Estadística. Relaciona cada tipo de tarea con su propósito general. Agrupamiento. Regresión. Asociación. Clasificación. Un analista desea predecir el ingreso mensual de una persona con base en su edad y nivel de estudios. ¿Qué técnica es adecuada?. Clasificación. Series temporales. Regresión logística. Regresión lineal. ¿En qué caso es ilegal el Web Scraping?. Cuando se usa para fines educativos. Cuando se extraen datos de acceso público. Cuando se extraen datos no públicos sin autorización. Cuando se usan bibliotecas de Python. Una aplicación de análisis de señales busca identificar fuentes independientes a partir de mezclas observadas. ¿Qué técnica es más adecuada?. LDA. ICA. PCA. Autoencoder. Un medio digital quiere resumir automáticamente artículos extensos para sus lectores. ¿Qué subtarea del PNL es más útil?. Tokenización. Categorización de texto. Resumen automático. Clasificación supervisada. Un sistema de streaming quiere sugerir películas similares a las que un usuario ha visto recientemente. ¿Qué técnica es más adecuada?. Basado en contenido. Clustering. Series temporales. Naive Bayes. Una empresa desea comparar automáticamente precios de productos en diferentes sitios web. ¿Qué técnica debe usar?. Visualización de datos. Clasificación supervisada. Web Scraping. Análisis de sentimientos. Relaciona cada tarea de minería de datos con un ejemplo correspondiente. Asociación. Clasificación. Regresión. Agrupamiento. Una tienda analiza transacciones para encontrar productos que suelen comprarse juntos. ¿Qué técnica debe aplicar?. Clasificación. Agrupamiento. Asociación. Regresión. ¿Cuál es uno de los principales desafíos del filtrado colaborativo?. Requiere supervisión médica. Es costoso computacionalmente. Las matrices de calificación suelen ser dispersas. Funciona solo con imágenes. Relaciona el tipo de recomendación con su descripción. Basado en conocimiento. Basado en contenido. Filtrado colaborativo. Híbrido. Relaciona la técnica de selección con su principio. Umbral de varianza. Umbral de correlación. Algoritmo genético. Normalización. ¿Cuál de los siguientes NO es un paso del proceso KDD?. Traducción automática del texto. Limpieza de datos. Minería de datos. Evaluación de patrones. ¿Cuál de las siguientes tareas de minería de datos es de tipo predictivo?. Segmentación de clientes. Clasificación de correos como spam o no spam. Agrupación basada en comportamiento de compra. Reducción de dimensionalidad. Un analista utiliza Orange para seleccionar puntos de un gráfico de dispersión y resaltar nodos de un árbol de decisión. ¿Qué tipo de visualización está aplicando?. Gráfico animado. Gráfico acumulado. Gráfico interactivo. Gráfico categórico. ¿Cuál es una diferencia entre minería de datos y OLAP?. OLAP explora datos conocidos; la minería de datos busca descubrir patrones ocultos. Minería de datos solo analiza texto, mientras que OLAP solo analiza números. OLAP se basa en inteligencia artificial, mientras que minería de datos no. Un analista quiere visualizar datos de 100 atributos en 2 dimensiones sin perder mucha información. ¿Qué técnica debería aplicar?. Autoencode. PCA. LDA. Clustering. ¿Cuál es la primera fase del proceso de minería de texto?. Extracción de información. Visualización de resultados. Preprocesamiento del texto. Análisis de sentimientos. ¿Cuáles son los dos componentes clave del Web Scraping?. Rastreador y clasificador. Scraper y motor de búsqueda. Crawler y Scraper. HTML y XML. ¿Cuál es un riesgo ético importante de la minería de texto?. Fallas en el resumen automático. Baja calidad del texto digitalizado. Uso indebido de datos personales sin consentimiento. Limitación para textos de marketing. ¿Qué tarea realiza la tokenización en minería de texto?. Agrupa documentos similares. Clasifica automáticamente los textos. Divide el texto en palabras o frases llamadas tokens. Calcula la frecuencia de términos en una base de datos. ¿Qué caracteriza a un sistema de recomendación basado en contenido?. Usa la historia de otros usuarios para recomendar. Considera solo atributos del ítem y preferencias previas del usuario. No requiere retroalimentación previa. Se basa únicamente en ubicación geográfica. ¿Cuál es la diferencia principal entre regresión lineal y regresión logística?. La lineal predice categorías; la logística predice valores continuos. La logística transforma variables numéricas en texto. La lineal predice valores continuos; la logística estima probabilidades de clases. Ambas se usan únicamente con variables categóricas. Durante el análisis de un conjunto de datos, se detecta una distribución con dos picos (bimodal). ¿Qué indica esto?. Que hay un error en el gráfico. Que los datos tienen valores atípicos mal codificados. Que existen dos subpoblaciones diferentes en los datos. Que no se pueden usar algoritmos de minería. ¿Cuál es una característica clave de los histogramas?. Muestran relaciones entre variables. Se utilizan solo para datos categóricos. Requieren intervalos de clase. Presentan valores acumulados. Relaciona cada técnica con su descripción. Autoencoder. ICA. PCA. LDA. Relaciona la técnica con su función en minería de texto. NER. Análisis de sentimientos. Tokenización. PoS tagging. ¿Cuál es la principal suposición del clasificador Naive Bayes?. Que los atributos son dependientes entre sí. Que las clases son mutuamente excluyentes. Que los atributos son independientes dado el valor de clase. Que todos los datos son normales. ¿Qué paso del proceso KDD implica eliminar ruido y datos incoherentes?. Limpieza de datos. Minería de datos. Evaluación de patrones. Relaciona cada tipo de minería web con su descripción. Uso. Contenido. Estructura. . Una empresa de ventas en línea ha recopilado millones de registros sobre las compras de sus clientes. El equipo de análisis ha identificado la necesidad de eliminar registros duplicados, corregir errores tipográficos y eliminar campos incompletos antes de extraer patrones de comportamiento. ¿Qué etapa del proceso KDD están realizando?. Limpieza de datos. Evaluación de patrones. Minería de datos. ¿Por qué se divide un conjunto de datos en entrenamiento y validación?. Para crear dos modelos diferentes. Para aumentar la complejidad computacional. Para evaluar si el modelo generaliza bien. Para reducir el tamaño del conjunto original. ¿Cuál es el objetivo principal de la minería de datos?. Descubrir patrones y conocimientos útiles a partir de grandes volúmenes de datos. Diseñar bases de datos para almacenar información estructurada. Traducir datos numéricos a lenguaje natural. Automatizar la recolección de datos desde sitios web. ¿Cuál es una funcionalidad destacada de RapidMiner?. Analizar únicamente datos en papel. Diseñar redes sociales. Realizar minería de texto, análisis predictivo y aprendizaje automático. Crear perfiles de usuario en redes. ¿Qué tipo de gráfico es más útil para identificar valores atípicos en los datos?. Gráfico de barras. Diagrama de cajas. Histograma. Polígono de frecuencia. ¿Cuál es una característica de los autoencoders?. Solo sirven para clasificación. Requieren etiquetado previo. Son redes neuronales que comprimen y reconstruyen datos. Funcionan solo con datos categóricos. ¿Cuál es el propósito de la visualización en minería de texto?. Eliminar palabras sin significado. Aplicar redes neuronales. Representar gráficamente los resultados del análisis textual. Etiquetar palabras clave. Una empresa de marketing quiere predecir si un cliente responderá a una campaña. ¿Qué técnica debe usar?. Clustering. Regresión logística. Regresión lineal. Árbol de decisión no supervisado. ¿Cuál es la diferencia principal entre regresión lineal y regresión logística?. La lineal predice categorías; la logística predice valores continuos. La logística transforma variables numéricas en texto. La lineal predice valores continuos; la logística estima probabilidades de clases. Ambas se usan únicamente con variables categóricas. ¿Cuál de los siguientes problemas es un ejemplo de regresión?. Predecir si un cliente cancelará su suscripción. Determinar el precio estimado de una vivienda. Clasificar correos como importantes o no. Detectar patrones de acceso no autorizados. ¿Qué indica un valor de p < 0.05 en los coeficientes de un modelo de regresión?. Que la variable es irrelevante. Que debe eliminarse del modelo. Que la variable es estadísticamente significativa. Que el modelo es incorrecto. ¿Qué distingue a los sistemas de recomendación basados en conocimiento?. Utilizan calificaciones históricas exclusivamente. Basan la recomendación en requisitos explícitos del usuario. Imputan datos no observados entre pares. Se centran en gustos de otros usuarios. Relaciona el tipo de gráfico con su principal función. Gráfico de barras. Gráfico de líneas. Histograma. Diagrama de cajas. Relaciona la herramienta con su característica destacada. SAS. Orange. RapidMiner. DataMelt. |