option
Cuestiones
ayuda
daypo
buscar.php

Minería de Datos

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Minería de Datos

Descripción:
Simulador Examen 2025

Fecha de Creación: 2025/07/17

Categoría: Universidad

Número Preguntas: 202

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

RECOPILACIÓN SIMULADOR - TEST. .

¿Qué tarea realiza la tokenización en minería de texto?. Agrupa documentos similares. Clasifica automáticamente los textos. Divide el texto en palabras o frases llamadas tokens. Calcula la frecuencia de términos en una base de datos.

Un analista utiliza Orange para seleccionar puntos de un gráfico de dispersión y resaltar nodos de un árbol de decisión. ¿Qué tipo de visualización está aplicando?. Gráfico animado. Gráfico acumulado. Gráfico interactivo. Gráfico categórico.

Una aplicación de análisis de señales busca identificar fuentes independientes a partir de mezclas observadas. ¿Qué técnica es más adecuada?. LDA. ICA. PCA. Autoencoder.

¿En cuál de los siguientes casos usarías regresión logística?. Predecir el precio de una casa. Estimar la probabilidad de fraude en una transacción. Calcular ingresos anuales. Pronosticar el tráfico vehicular diario.

Una empresa desea conocer la percepción de su marca analizando los comentarios en sus publicaciones de redes sociales. ¿Qué técnica debería aplicar?. Tokenización. Análisis de sentimientos. Traducción automática. NER.

¿Cuál es el objetivo principal del Análisis de Componentes Principales (PCA)?. Aumentar el número de atributos. Reducir dimensionalidad conservando la mayor varianza posible. Eliminar datos duplicados. Transformar atributos categóricos en numéricos.

¿Cuál de las siguientes afirmaciones sobre minería de datos es verdadera?. La minería de datos puede descubrir conocimiento útil a partir de datos que antes eran desconocidos. La minería de datos solo sirve para analizar bases de datos relacionales. La minería de datos reemplaza completamente el análisis estadístico tradicional.

Un analista desea predecir el ingreso mensual de una persona con base en su edad y nivel de estudios. ¿Qué técnica es adecuada?. Clasificación. Series temporales. Regresión logística. Regresión lineal.

¿Cuál es una aplicación típica de las reglas de asociación?. Predicción del clima. Análisis de sentimiento. Cestas de mercado. Detección de fallos.

Una tienda en línea quiere recomendar productos observando patrones de usuarios con comportamientos similares. ¿Qué técnica aplicaría?. Clasificación supervisada. Filtrado colaborativo basado en usuarios. Series temporales. Análisis de varianza.

¿En qué consiste el filtrado colaborativo basado en usuarios?. Se usa el contenido del producto para hacer recomendaciones. Se utilizan usuarios similares para predecir preferencias del usuario objetivo. Se predicen las etiquetas sin datos previos. Se seleccionan los productos más vendidos.

¿Qué caracteriza a la herramienta Orange?. Basada en lenguaje R, especializada en bioinformática. Diseñada solo para minería de texto. Interfaz visual con widgets para análisis de datos. Solo se puede usar en sistemas Mac.

Relaciona cada disciplina con su aporte a la minería de datos. Visualización de datos. Aprendizaje automático. Bases de datos. Estadística.

Un analista quiere visualizar datos de 100 atributos en 2 dimensiones sin perder mucha información. ¿Qué técnica debería aplicar?. Autoencoder. PCA. LDA. Clustering.

¿Qué paso del proceso KDD implica eliminar ruido y datos incoherentes?. Limpieza de datos. Minería de datos. Evaluación de patrones.

Relaciona cada tipo de tarea con su propósito general. Agrupamiento. Regresión. Asociación. Clasificación.

¿Cuál es el propósito de la visualización en minería de texto?. Eliminar palabras sin significado. Aplicar redes neuronales. Representar gráficamente los resultados del análisis textual. Etiquetar palabras clave.

¿En qué se diferencian la minería de datos y la minería web?. La minería de datos usa algoritmos, y la web no. La minería web se enfoca en hipervínculos, contenido web y registros. No existe diferencia técnica. La minería de datos se usa solo en Excel.

¿Para qué sirve principalmente la regresión lineal?. Clasificar clientes en segmentos. Predecir valores categóricos. Predecir valores numéricos continuos. Detectar valores atípicos.

¿Por qué se divide un conjunto de datos en entrenamiento y validación?. Para crear dos modelos diferentes. Para aumentar la complejidad computacional. Para evaluar si el modelo generaliza bien. Para reducir el tamaño del conjunto original.

Un investigador analiza los comentarios sobre candidatos políticos en redes sociales para identificar opiniones dominantes. ¿Qué combinación de técnicas usaría?. Web Scraping + análisis de sentimientos. Agrupamiento jerárquico. Redes neuronales profundas. Regresión lineal múltiple.

¿Cuál es el objetivo principal de la minería de datos?. Descubrir patrones y conocimientos útiles a partir de grandes volúmenes de datos. Diseñar bases de datos para almacenar información estructurada. Traducir datos numéricos a lenguaje natural. Automatizar la recolección de datos desde sitios web.

¿Cuáles son los dos componentes clave del Web Scraping?. Rastreador y clasificador. Scraper y motor de búsqueda. Crawler y Scraper. HTML y XML.

Relaciona cada herramienta de minería de datos con su característica. SAS. RapidMiner. WEKA. Orange.

¿Cuál es una diferencia entre selección y extracción de características?. La selección crea nuevas variables; la extracción elimina las irrelevantes. La selección usa PCA; la extracción, umbrales. La selección elige un subconjunto; la extracción transforma los datos. No hay diferencia.

¿Cuál es una aplicación común del análisis de redes sociales en minería de datos?. Identificar estructuras de red neuronal profunda. Predecir conexiones entre usuarios y medir influencia. Crear gráficos de barras. Determinar el costo de algoritmos.

¿Cuál es la diferencia principal entre clasificación y regresión?. Clasificación predice categorías; regresión predice valores numéricos. Clasificación usa redes neuronales y regresión no. Regresión es más precisa que clasificación. Clasificación trabaja solo con datos de texto.

Una empresa de ventas en línea ha recopilado millones de registros sobre las compras de sus clientes. El equipo de análisis ha identificado la necesidad de eliminar registros duplicados, corregir errores tipográficos y eliminar campos incompletos antes de extraer patrones de comportamiento. ¿Qué etapa del proceso KDD están realizando?. Limpieza de datos. Evaluación de patrones. Minería de datos.

¿Para qué se utiliza un umbral de varianza en la selección de características?. Eliminar características que no aportan valor. Incrementar el número de variables. Asignar pesos a variables. Clasificar los datos en grupos.

¿Cuál es una ventaja de los árboles de decisión?. Son difíciles de interpretar. Requieren muchos datos de entrada. Permiten representar decisiones de forma clara y jerárquica. Solo sirven para regresión.

Una empresa de marketing quiere predecir si un cliente responderá a una campaña. ¿Qué técnica debe usar?. Clustering. Regresión logística. Regresión lineal. Árbol de decisión no supervisado.

Relaciona la técnica de selección con su principio. Algoritmo genético. Umbral de varianza. Normalización. Umbral de correlación.

¿Cuál es la diferencia principal entre clasificación y predicción en minería de datos?. Clasificación predice valores continuos y predicción predice etiquetas. Clasificación trabaja con series temporales; predicción con texto. Clasificación predice clases; predicción estima valores numéricos. Ambas se utilizan solo en sistemas de recomendación.

¿Cuál es la principal suposición del clasificador Naive Bayes?. Que los atributos son dependientes entre sí. Que las clases son mutuamente excluyentes. Que los atributos son independientes dado el valor de clase. Que todos los datos son normales.

Un medio digital quiere resumir automáticamente artículos extensos para sus lectores. ¿Qué subtarea del PNL es más útil?. Tokenización. Categorización de texto. Resumen automático. Clasificación supervisada.

Relaciona el paso del proceso KDD con su descripción. Integración de datos. Evaluación de patrones. Presentación del conocimiento. Transformación de datos.

¿Cuál es el objetivo del análisis de sentimientos?. Determinar la estructura gramatical de un texto. Traducir palabras a diferentes idiomas. Detectar opiniones y emociones en el texto. Agrupar documentos por longitud.

¿Qué caracteriza al análisis de series temporales?. El uso de variables categóricas para predicción. Predicción sin orden cronológico. Uso del tiempo como variable independiente. Modelo no supervisado de clasificación.

Una tienda analiza transacciones para encontrar productos que suelen comprarse juntos. ¿Qué técnica debe aplicar?. Clasificación. Agrupamiento. Asociación. Regresión.

¿Qué técnica se puede usar para facilitar la comprensión de los resultados de minería de datos?. Visualización de datos. Normalización de variables. Muestreo estratificado. Codificación de atributos categóricos.

¿Cuál es una característica de los autoencoders?. Solo sirven para clasificación. Requieren etiquetado previo. Son redes neuronales que comprimen y reconstruyen datos. Funcionan solo con datos categóricos.

Relaciona el concepto con su definición. Predicción numérica. Variable dependiente. Regresión polinomial. Modelado predictivo.

Relaciona el tipo de gráfico con su principal función. Diagrama de cajas. Gráfico de barras. Gráfico de líneas. Histograma.

¿Cuál de las siguientes tareas de minería de datos es de tipo predictivo?. Segmentación de clientes. Clasificación de correos como spam o no spam. Agrupación basada en comportamiento de compra. Reducción de dimensionalidad.

Un sistema de streaming quiere sugerir películas similares a las que un usuario ha visto recientemente. ¿Qué técnica es más adecuada?. Basado en contenido. Clustering. Series temporales. Naive Bayes.

¿Cuál es una característica clave de los histogramas?. Muestran relaciones entre variables. Se utilizan solo para datos categóricos. Requieren intervalos de clase. Presentan valores acumulados.

¿Qué es la minería de texto?. El análisis de datos estructurados provenientes de bases de datos. La extracción de conocimiento útil desde datos textuales no estructurados. La traducción automática de textos a varios idiomas. La búsqueda de información exacta en tablas numéricas.

Una empresa desea comparar automáticamente precios de productos en diferentes sitios web. ¿Qué técnica debe usar?. Visualización de datos. Clasificación supervisada. Web Scraping. Análisis de sentimientos.

¿Cuál NO es una ventaja directa de reducir la dimensionalidad?. Reducir el tiempo de cómputo. Mejorar la interpretación de resultados. Aumentar el tamaño del conjunto de datos. Eliminar variables irrelevantes.

¿Qué distingue a la regresión polinomial?. Solo se aplica a datos categóricos. Agrega términos no lineales de las variables independientes. Utiliza algoritmos genéticos. Se limita a funciones logarítmicas.

Relaciona la acción descrita con el paso correspondiente del proceso KDD. Unifica los datos de ventas, atención al cliente y redes sociales en una sola base. Usa gráficos de barras para mostrar el comportamiento mensual de compra. Aplica un algoritmo de clustering para segmentar clientes por comportamiento. Filtra los registros solo de clientes activos en los últimos 6 meses.

Relaciona el tipo de recomendación con su descripción. Filtrado colaborativo. Híbrido. Basado en conocimiento. Basado en contenido.

Relaciona la herramienta con su característica destacada. DataMelt. Orange. SAS. RapidMiner.

¿Qué indica un valor de p < 0.05 en los coeficientes de un modelo de regresión?. Que la variable es irrelevante. Que debe eliminarse del modelo. Que la variable es estadísticamente significativa. Que el modelo es incorrecto.

¿Cómo puede ayudar la minería de texto en el servicio al cliente?. Al crear encuestas visuales en redes sociales. Al responder automáticamente cualquier correo. Al identificar temas frecuentes en comentarios y tickets. Al traducir publicaciones en tiempo real.

¿Cuál es uno de los principales desafíos al analizar datos de redes sociales?. Fácil acceso a los datos. Tamaño, ruido y dinamismo de los datos. Costos elevados del hardware. Ausencia de algoritmos de clasificación.

¿Qué distingue a los sistemas de recomendación basados en conocimiento?. Utilizan calificaciones históricas exclusivamente. Basan la recomendación en requisitos explícitos del usuario. Imputan datos no observados entre pares. Se centran en gustos de otros usuarios.

¿Por qué se usan gráficos de densidad suave en visualización de datos?. Para mostrar relaciones causales. Para crear modelos predictivos. Por su estética y suavidad en la representación de distribuciones. Para análisis multivariado exclusivamente.

¿En qué caso es ilegal el Web Scraping?. Cuando se usa para fines educativos. Cuando se extraen datos de acceso público. Cuando se extraen datos no públicos sin autorización. Cuando se usan bibliotecas de Python.

¿Cuál de los siguientes problemas es un ejemplo de regresión?. Predecir si un cliente cancelará su suscripción. Determinar el precio estimado de una vivienda. Clasificar correos como importantes o no. Detectar patrones de acceso no autorizados.

Relaciona cada técnica con su función en minería de texto. NER. Análisis de sentimientos. PoS tagging. Tokenización.

Relaciona cada algoritmo con su característica principal. Árboles de decisión. Redes neuronales. k-NN (k-Nearest Neighbors). Naive Bayes.

¿Qué permite identificar la técnica NER en minería de texto?. Errores ortográficos. Palabras sin significado. Entidades como nombres, ubicaciones y organizaciones. Longitud de los párrafos.

Relaciona cada disciplina con su aporte a la minería de datos. Visualización de datos. Aprendizaje automático. Bases de datos. Estadística.

Relaciona cada técnica con su aplicación. Regresión lineal. Regresión logística. Clasificación. Series temporales.

Relaciona cada tipo de minería web con su descripción. Estructura. Contenido. Uso.

¿Cuál es una funcionalidad destacada de RapidMiner?. Analizar únicamente datos en papel. Diseñar redes sociales. Realizar minería de texto, análisis predictivo y aprendizaje automático. Crear perfiles de usuario en redes.

Relaciona cada sector con su aplicación de minería de texto. Finanzas. Mantenimiento. Salud. Redes sociales.

¿Cuál es una ventaja clave de usar modelos predictivos en minería de datos?. Eliminan la necesidad de validar modelos. Permiten anticipar eventos futuros y tomar decisiones informadas. Funcionan sin datos históricos. Solo aplican en datos textuales.

¿Cuál es la primera fase del proceso de minería de texto?. Extracción de información. Visualización de resultados. Preprocesamiento del texto. Análisis de sentimientos.

¿Qué hace el clasificador k-vecinos más cercanos (k-NN)?. Predice etiquetas usando redes neuronales profundas. Asigna una clase basada en los k ejemplos más cercanos. Construye árboles de decisión basados en distancia. Usa probabilidad condicional para clasificar datos.

¿Cómo se seleccionan los componentes principales en PCA?. Por orden alfabético. Según la varianza que explican. Por número de columnas originales. Aleatoriamente.

¿Qué describe la “maldición de la dimensionalidad”?. La dificultad de aplicar modelos en datos numéricos. El crecimiento exponencial de datos necesario al aumentar dimensiones. La pérdida de datos en bases grandes. El sobreajuste de modelos simples.

¿Cuál es una de las razones del auge actual de la minería de datos?. La disponibilidad de grandes volúmenes de datos y el aumento del poder computacional. La falta de herramientas estadísticas y de visualización. El reemplazo total del análisis cualitativo por métodos automatizados.

¿Qué caracteriza a un sistema de recomendación basado en contenido?. Usa la historia de otros usuarios para recomendar. Considera solo atributos del ítem y preferencias previas del usuario. No requiere retroalimentación previa. Se basa únicamente en ubicación geográfica.

¿Cuándo es apropiado utilizar un gráfico de dispersión?. Para representar proporciones entre categorías. Cuando se quiere comparar tendencias en el tiempo. Al explorar relaciones entre dos variables numéricas. Para mostrar distribución de una variable categórica.

¿Cuál es la diferencia principal entre regresión lineal y regresión logística?. La lineal predice categorías; la logística predice valores continuos. La logística transforma variables numéricas en texto. La lineal predice valores continuos; la logística estima probabilidades de clases. Ambas se usan únicamente con variables categóricas.

¿Cuál de las siguientes tareas busca encontrar valores atípicos o inusuales?. Clasificación. Regresión. Agrupamiento. Detección de anomalías.

¿Qué tipo de minería de datos se usa para detectar opiniones en redes sociales?. Minería de texto. Minería de estructuras web. Minería de procesos.

¿Qué tipo de gráfico es más útil para identificar valores atípicos en los datos?. Gráfico de barras. Diagrama de cajas. Histograma. Polígono de frecuencia.

¿Qué tarea de minería de datos es típicamente de tipo descriptivo?. Regresión. Detección de fraudes. Agrupamiento. Clasificación.

¿Cuál es una diferencia entre minería de datos y OLAP?. OLAP explora datos conocidos; la minería de datos busca descubrir patrones ocultos. Minería de datos solo analiza texto, mientras que OLAP solo analiza números. OLAP se basa en inteligencia artificial, mientras que minería de datos no.

¿Cuál NO es un tipo de minería web?. Minería de contenido web. Minería de usuarios móviles. Minería de estructuras web. Minería de uso web.

¿Cuál de las siguientes técnicas de reducción de dimensionalidad es supervisada?. PCA. ICA. LDA. Autoencoder.

Un sistema de salud desea predecir si un paciente será readmitido al hospital según historial clínico. ¿Qué tipo de tarea debe usarse?. Agrupamiento. Asociación. Clasificación. Regresión.

Relaciona cada técnica con su descripción. PCA. LDA. Autoencoder. ICA.

¿Cuál de los siguientes NO es un paso del proceso KDD?. Traducción automática del texto. Limpieza de datos. Minería de datos. Evaluación de patrones.

Relaciona cada tarea de minería de datos con un ejemplo correspondiente. Clasificación. Asociación. Agrupamiento. Regresión.

Durante el análisis de un conjunto de datos, se detecta una distribución con dos picos (bimodal). ¿Qué indica esto?. Que hay un error en el gráfico. Que los datos tienen valores atípicos mal codificados. Que existen dos subpoblaciones diferentes en los datos. Que no se pueden usar algoritmos de minería.

¿Cuál es el objetivo principal de la visualización dentro del proceso de minería de datos?. Almacenar datos en gráficos visuales. Presentar resultados estéticamente. Facilitar el reconocimiento de patrones y la toma de decisiones. Sustituir el análisis estadístico.

¿Qué gráfico sería más útil para representar visualmente la frecuencia relativa de salarios en una empresa?. Histograma. Gráfico de torta. Gráfico de barras apiladas. Diagrama de dispersión.

En relación con la Figura Gráfico de Burbuja en Seaborn, ¿qué afirmación es correcta sobre la relación entre las variables?. No existe una relación visible entre horas de trabajo y productividad. A mayor cantidad de horas invertidas, generalmente se observa mayor productividad y mayor costo del proyecto. El gráfico muestra que todos los proyectos con más de 10 horas tienen el mismo costo. El tamaño de las burbujas representa el número de trabajadores por tarea.

En relación con la Figura Gráfico de Densidad en Seaborn, ¿qué afirmación es correcta sobre la distribución de las calificaciones?. Las calificaciones están uniformemente distribuidas entre 50 y 120. El gráfico indica que hay una correlación positiva entre calificación y tiempo de estudio. La densidad es mayor en los extremos de la distribución, indicando alta variabilidad. La mayoría de los estudiantes obtuvo calificaciones cercanas a 90, lo que se refleja en el pico de la curva.

¿Qué función de Matplotlib permite crear una distribución libre de subgráficos dentro de una figura?. plt.hist(). subplot_mosaic(). plt.figure(). plt.title().

¿Qué técnica sería adecuada para predecir si un paciente tiene alto riesgo de enfermedad?. Regresión lineal. Clustering. Regresión logística. Análisis de componentes principales.

¿Cuál es un riesgo ético importante de la minería de texto?. Fallas en el resumen automático. Baja calidad del texto digitalizado. Uso indebido de datos personales sin consentimiento. Limitación para textos de marketing.

¿Cuál es uno de los principales desafíos del filtrado colaborativo?. Requiere supervisión médica. Es costoso computacionalmente. Las matrices de calificación suelen ser dispersas. Funciona solo con imágenes.

¿Cuál es la función del método train_test_split dentro del flujo de la practica?. Dividir los datos en subconjuntos de entrenamiento y prueba. Ajustar automáticamente el valor de k. Cargar el dataset desde un archivo CSV. Calcular la matriz de confusión.

¿Qué métrica fue utilizada en la práctica para evaluar el rendimiento del modelo?. Precisión (Accuracy). Error absoluto medio (MAE). Pérdida logarítmica (Log Loss). Curva ROC-AUC.

Analiza el siguiente código. ¿Qué representa la línea color = tarea1.values? fig= px.bar(x = tarea1.index, y = tarea1.values, color = tarea1.values). Proporcionar precisión, recall y F1-score del modelo. Visualizar gráficamente los datos. Seleccionar las columnas predictoras. Dividir el dataset en partes iguales.

¿Cuál de las siguientes practicas puede inducir a una interpretación errónea de una visualización?. Truncar el eje Y para exagerar diferencias. Usar títulos descriptivos y ejes etiquetados. Mostrar leyendas diferenciadas por color. Añadir grillas para facilitar la lectura.

¿Qué función se utiliza en pandas para verificar si hay valores nulos en un dataset?. df.shape(). df.isnull().sum(). df.corr(). df.describe().

¿Cuál es el primer paso para preparar el dataset IRIS antes de aplicar el modelo k-NN?. Dividir el dataset en variables predictoras y objetivo. Visualizar variables con pairplot. Calcular la matriz de confusión. Eliminar la columna “Id” para evitar ruido en los datos.

En el diagrama de distribución de opiniones, ¿qué se puede concluir sobre los datos mostrados?. La mediana de las opiniones es cercana a 30.000. La distribución es simétrica y sin valores atípicos. La mayoría de los valores están concentrados cerca del rango inferior, pero existen numerosos outliers por encima del rango superior. No es posible identificar si hay valores atípicos en un diagrama de caja.

¿Qué indica la diagonal principal en la matriz de confusión?. El número de vecinos usados por k-NN. La media de los valores predictivos. Las predicciones incorrectas acumuladas. Las predicciones correctas para cada clase.

Analiza el siguiente código. ¿Qué representa la línea color = tarea1?values? fig= px.bar(x = tarea1.index, y = tarea1.values, color = tarea1.values). Asigna una escala de color a cada barra en función de su valor (cantidad de ocurrencias). Proporcionar precisión, recall y F1-score del modelo. Visualizar gráficamente los datos. Seleccionar las columnas predictoras. Dividir el dataset en partes iguales.

¿Cuál es la función del parámetro hue='Species' en los gráficos de seaborn?. Mostrar la densidad de puntos en el gráfico. Agregar etiquetas a los ejes. Aumentar el número de puntos en el gráfico. Colorear los puntos según la especie para diferenciar visualmente.

¿Cuál es la diferencia principal entre un histograma y un gráfico de barras?. El gráfico de barras representa datos agrupados automáticamente. El histograma agrupa datos continuos en intervalos, mientras que el gráfico de barras muestra categorías discretas. El gráfico de barras siempre tiene colores. El histograma solo se usa para porcentajes.

¿Qué medida ayuda a evitar el sobreajuste al entrenar un árbol de decisión?. Estandarizar todas las variables. Limitar la profundidad máxima del árbol (max_depth). Usar más variables independientes. Aumentar el número de vecinos (k).

¿Qué propósito tiene la métrica classification_report en la práctica con k-NN?. Seleccionar las columnas predictoras. Visualizar gráficamente los datos. Proporcionar precisión, recall y F1-score del modelo. Dividir el dataset en partes iguales.

¿Qué tipo de gráfico es más adecuado para analizar la distribución de una variable continua?. Histograma. Gráfico de barras. Gráfico de pastel. Gráfico de líneas.

RECOPILACIÓN QUIZIZZ. .

¿Qué tipo de lógica se menciona en relación con el softcomputing. Lógica borrosa. Lógica binaria. Lógica matemática. Lógica simbólica.

¿Qué preocupación surge con el acceso a grandes cantidades de datos personales?. La privacidad y seguridad. El costo del almacenamiento. La falta de datos. La velocidad de procesamiento.

¿Qué técnica se utiliza para agrupar vectores en función de criterios específicos?. Análisis de regresión. Árboles de decisión. Agrupación (clustering). Redes neuronales.

¿Qué incluye el paso de preparación de datos en KDD?. Clasificación y regresión. Limpieza, transformación, integración y reducción de datos. Interpretación y visualización. Almacenamiento y recuperación.

¿Qué es el descubrimiento de conocimiento en bases de datos (KDD)?. Un proceso para almacenar datos masivos. Un proceso para identificar patrones significativos en los datos. Un método para mejorar la velocidad de los algoritmos. Un sistema para aumentar la capacidad de almacenamiento.

¿Qué disciplina tiene un peso similar al que actualmente tiene la Estadística, según el texto del 2006?. Matemáticas. Minería de datos. Física. Biología.

¿Cuál es el rol clave del data mining para las empresas?. Aumentar la producción. Detectar patrones de comportamiento. Mejorar la comunicación interna. Reducir costos operativos.

¿Qué ventaja competitiva brinda la minería de datos en el ámbito financiero?. Aumentar la producción. Reducir costos. Detectar fraudes. Mejorar la atención al cliente.

¿Qué se ha convertido en uno de los recursos más valiosos en la era digital?. El dinero. El tiempo. La información. La energía.

¿Qué se puede usar para definir la arquitectura de una red neuronal?. Los valores de los pesos de sus conexiones. El número de capas ocultas. El tipo de activación. El tamaño del conjunto de datos.

¿Qué ha revolucionado la minería de datos en el ámbito empresarial?. Las estrategias de marketing y ventas. La producción en masa. La gestión de recursos humanos. La logística de distribución.

¿Cuál de las siguientes técnicas se utiliza en minería de datos?. Manejo de proyectos. Diseño gráfico. Programación en C++. Redes neuronales.

¿Qué tipo de datos se menciona que la minería de datos aún no maneja completamente?. Datos numéricos. Datos simbólicos. Datos de texto e imágenes. Datos de secuencias temporales.

¿Qué se busca lograr al aplicar algoritmos en minería de datos?. Mejorar la calidad de los datos. Aumentar el número de empleados. Disminuir el tiempo de trabajo. Reducir el uso de tecnología.

¿Qué se puede afirmar sobre la primera generación de algoritmos de minería de datos?. No han demostrado su validez. Han demostrado su validez. Son limitados a datos de texto. No se utilizan en la actualidad.

¿Qué se busca con la minería de datos en la medicina y farmacia?. Segmentación de clientes. Diagnóstico de enfermedades. Identificación de galaxias. Recuperación de información no numérica.

¿Qué se necesita para automatizar el proceso de análisis de datos?. Más analistas. Tecnologías informáticas. Menos datos. Más tiempo.

¿Qué se intenta mejorar durante la preparación de los datos en KDD?. La velocidad de los algoritmos. La calidad de los datos. La capacidad de almacenamiento. La estructura de los datos.

¿Cuál de estas industrias lidera en la adopción de soluciones de inteligencia artificial según el informe?. Educación. Agricultura. Servicios financieros. Textil.

¿Cuál es una ventaja clave al combinar minería de datos con IA, según lo inferido del informe?. Mayor generación de bases de datos. Reducción del uso de métricas estadísticas. Automatización y predicción más precisa. Eliminación de todas las variables irrelevantes.

¿Cuál de los siguientes hallazgos del informe es más relevante para el análisis de datos en el futuro?. El aumento de la automatización en el análisis de datos. La disminución de la importancia de los datos en tiempo real. La reducción de la necesidad de habilidades técnicas en el análisis de datos. El estancamiento de las tecnologías de inteligencia artificial.

Según el informe, ¿qué aspecto de la IA ha mostrado un crecimiento más acelerado en el último año?. El número de nuevas universidades con carreras de IA. La inversión privada en modelos pequeños. El uso de modelos fundamentales en múltiples industrias. El reemplazo total de trabajos humanos por robots.

¿Qué afirmación es correcta sobre la relación entre IA y minería de datos según lo leído?. La IA reemplaza completamente a la minería de datos. La minería de datos solo se usa para datos numéricos. Ambas disciplinas pueden complementarse en procesos de toma de decisiones. Solo la IA tiene capacidad predictiva.

¿Qué tendencia en IA se destaca como dominante en el 2024?. Computación cuántica. Modelos de IA explicables. Modelos fundamentales como ChatGPT o Claude. Redes neuronales simples.

De la lectura con las 15 gráficas que explican el estado actual de la IA, ¿Qué dato te llamó más la atención?. La mayor inversión en IA en los EEUU, está en el campo de la IA generativa. Los latinos son el tercer grupo étnico que más solicitudes de ubicación toman en el área de ciencias computacionales. Google lidera el número de modelos de IA fundamentales. GPT-3 es el modelo que genera una mayor huella de carbono en su fase de entrenamiento.

En la lectura con las 15 gráficas que explican el estado actual de la IA, se muestran algunas tareas en la que la IA ya ha superado al humano. ¿Has usado alguna de ellas?. Clasificación de imágenes. Entendimiento del idioma inglés. Razonamiento de lectura. Ninguna de las anteriores.

¿Qué herramienta relacionada con IA facilita la interpretación de grandes volúmenes de datos mediante visualizaciones?. Redes sociales. Paneles de control interactivos (dashboards). Motores de búsqueda. Lenguaje SQL.

¿Cuál de los siguientes elementos ha permitido el análisis de datos en tiempo real gracias a dispositivos conectados?. Big Data. Inteligencia Artificial. Internet de las Cosas (IoT). Análisis predictivo.

¿Cuál de las siguientes no es una actividad básica de la minería de datos?. Recopilación de datos. Procesamiento de datos. Análisis de datos. Distribución de datos.

¿Cuál es la definición de Minería de Datos?. Descubrimiento de patrones y relaciones en grandes conjuntos de datos. Conexión de dispositivos cotidianos a internet. Análisis de grandes volúmenes de datos. Aprendizaje de máquina para mejorar procesos.

¿Qué tipo de conjuntos de datos se utilizan en la minería de datos?. Grandes conjuntos de datos. Pequeños conjuntos de datos. Conjuntos de datos de texto. Conjuntos de datos de imágenes.

¿Cuál es el propósito principal de la minería de datos?. Mejorar la calidad de los datos. Encontrar información valiosa y oculta. Reducir el tamaño de los datos. Aumentar la velocidad de procesamiento.

¿Qué se busca identificar en la minería de datos?. Tendencias. Errores de software. Nuevas tecnologías. Recursos naturales.

¿Cuáles de las siguientes fases del proceso de Data Mining se realizan antes del modelado?. Evaluación. Comprensión del negocio. Preparación de datos. Despliegue.

¿Cuál es el objetivo principal del escalado y normalización?. Eliminar Duplicados. Ajustar los datos a una escala común. Codificar variables. Identificar valores atípicos.

¿Qué fase implica establecer los objetivos y requisitos del análisis desde el punto de vista de la organización?. Preparación de los datos. Comprensión del negocio. Evaluación. Despliegue.

¿Por qué es importante escalar o normalizar los datos antes del modelado?. Para eliminar los duplicadores. Para evitar sesgos debido a rangos de valores diferentes. Para facilitar el almacenamiento. Para reducir el tamaño del conjunto de datos.

¿Qué técnica puede utilizar una dueña de tienda para entender mejor las preferencias de sus clientes?. Minería de datos. Publicidad en televisión. Reducción de precios. Expansión del local.

¿Qué se busca con el uso de modelos estadísticos en el contexto del DM?. Análisis de datos para extraer información valiosa. Conexión de dispositivos a internet. Automatización de procesos. Mejora de la eficiencia en la industria.

¿Cuáles fueron las primeras técnicas de minería de datos?. A) Análisis de conglomerados y árbol de decisión. B) Minería de textos y minería de redes sociales. C) Análisis de mercado y segmentación de clientes. D) Programación y diseño de algoritmos.

¿Qué se construye con técnicas de aprendizaje automático?. Modelos predictivos y clasificadores. Obras de arte. Edificios. Instrumentos musicales.

¿Qué diferencia a la Minería de Datos del Big Data y el Internet de las cosas?. IoT se refiere a la minería de datos en redes sociales. La Minería de Datos se utiliza solo para almacenar datos. La Minería de Datos se enfoca en extraer conocimientos de datos, Big Data se refiere a la gestión de grandes volúmenes de datos, e IoT se centra en la interconexión de dispositivos. Big Data se ocupa de la visualización de datos en tiempo real.

¿Cuál es el objetivo principal de la minería de datos?. Mejorar la velocidad de procesamiento de datos. Descubrir información significativa para la toma de decisiones. Reducir el costo de almacenamiento de datos. Aumentar la cantidad de datos recopilados.

¿Cuál es la definición de Data Mining?. Descubrimiento de patrones y relaciones en grandes conjuntos de datos. Conexión de dispositivos cotidianos a internet. Análisis de grandes volúmenes de datos. Aprendizaje de máquina para mejorar procesos.

¿Qué aplicación de minería de datos permite ofrecer recomendaciones personalizadas en plataformas como Netflix o Amazon?. Agrupación de clientes. Segmentación de mercado. Visualización de datos. Sistemas de recomendación.

En el sector salud, ¿qué utilidad tiene la minería de datos con dispositivos portátiles como smartwatches?. Desincentiva el uso de tecnología de salud. Reduce la necesidad de atención médica. Optimiza el monitoreo de la salud y personaliza tratamientos. Aumenta el riesgo de enfermedades crónicas.

Ejemplo de un modelo predictivo: Modelo de series temporales para analizar datos de ventas. Modelo de regresión lineal para predecir precios de casas. Modelo de clustering para agrupar clientes según sus preferencias. Modelo de clasificación para identificar especies de plantas.

Diferencia entre técnicas supervisadas y no supervisadas: Las técnicas supervisadas son más rápidas que las no supervisadas. Las técnicas supervisadas no requieren datos etiquetados; las no supervisadas sí. Las técnicas no supervisadas siempre producen mejores resultados que las supervisadas. Las técnicas supervisadas requieren datos etiquetados; las no supervisadas no.

Ejemplo de un modelo descriptivo: Un modelo que compara diferentes culturas. Un modelo que analiza la economía de un país. Un modelo que predice el clima de una región. Un modelo que describe el clima de una región.

Diferencia entre modelo descriptivo y predictivo: El modelo descriptivo explica patrones en los datos, y el modelo predictivo hace predicciones sobre datos futuros. El modelo descriptivo se centra en la visualización de datos, y el modelo predictivo se enfoca en la recolección de datos. El modelo descriptivo se basa en suposiciones, mientras que el modelo predictivo utiliza datos históricos. El modelo descriptivo predice resultados futuros, y el modelo predictivo describe datos pasados.

¿Cómo se utiliza un modelo predictivo de clasificación en la banca?. Para medir la satisfacción del cliente. Para determinar si las transacciones son fraudulentas. Para calcular el interés de los préstamos. Para predecir el valor de las acciones.

¿Cuál es una característica clave de un modelo predictivo de clasificación?. Predice el clima. Asignar categorías basadas en datos aprendidos. Calcula el valor de las acciones. Mide la temperatura.

¿Qué tipo de enfoque utiliza la regresión en el aprendizaje automático?. Enfoque no lineal. Enfoque de clasificación. Enfoque lineal. Enfoque de almacenamiento.

¿Cómo se relaciona el análisis de series de tiempo con los conjuntos de datos?. Se basa en conjuntos de datos basados en el tiempo. Se ignoran los conjuntos de datos. Se utilizan solo datos cualitativos. Se enfoca en datos aleatorios.

¿Qué se predice en el análisis de series de tiempo?. La variable dependiente en el tiempo. La estructura de datos. La eficiencia del algoritmo. La calidad del software.

¿Qué herramienta se utiliza para predecir variables dependientes en el tiempo?. Análisis de series de tiempo. Análisis de regresión. Análisis de varianza. Análisis de correlación.

¿Qué tipo de algoritmo de aprendizaje utiliza datos etiquetados para la clasificación y predicción?. Supervisado. No Supervisado. Aleatorio. Determinístico.

¿Qué tipo de técnica es la minería de datos no supervisada?. Predictiva. Descriptiva. Intuitiva. Analítica.

¿Cuál de las siguientes opciones describe mejor la minería de datos supervisada?. Se utiliza para describir datos. Se utiliza para predecir resultados. No utiliza algoritmos. No requiere datos de entrenamiento.

¿Cuál de las siguientes opciones es una técnica de minería de datos no supervisada que busca encontrar patrones frecuentes?. Regresión lineal. Reglas de asociación. Análisis discriminante. Redes bayesianas.

¿Qué aspecto se evalúa al revisar el “tamaño y formato” del conjunto de datos en un análisis exploratorio?. Se analiza la procedencia de los datos y su origen. Se evalúa la calidad de los datos y su relevancia. Se determina la visualización de los datos y su presentación. Se evalúa la cantidad de registros y variables, y la estructura de los datos.

Supón que estás revisando un dataset con atributos como “edad”, “ingresos” y “ciudad”. ¿Cuál sería un ejemplo correcto de identificación de subpoblaciones?. Convertir todas las variables a texto. Eliminar registros con valores nulos. Agrupar por ciudad para comparar ingresos promedio. Reordenar el archivo por fecha.

Supón que estás revisando un dataset con atributos como “edad”, “ingresos” y “ciudad”. ¿Cuál sería un ejemplo correcto de identificación de subpoblaciones?. Subpoblación de personas de 30 a 40 años con ingresos superiores a 50,000 en una ciudad específica. Subpoblación de personas de 25 a 35 años sin considerar ingresos en una ciudad específica. Subpoblación de personas de 50 a 60 años con ingresos de 30,000 en una ciudad grande. Subpoblación de personas menores de 20 años con ingresos bajos en cualquier ciudad.

¿Cuál de las siguientes opciones no es una tarea incluida en el resumen de datos?. Reestructuración de conjuntos de datos. Separación entre entrenamiento y validación. Detección de valores atípicos. Aplicación directa de modelos predictivos.

Si encuentras que el atributo “edad” tiene 1000 registros, pero 250 son valores extremos como 200 años, ¿qué deberías hacer?. Promediar los valores extremos con los valores normales. Ignorar esos registros. Convertir los valores a texto. Eliminar o corregir los valores extremos de edad.

¿Qué tipo de gráfico es más adecuado para visualizar la relación entre dos variables cuantitativas como “peso” y “altura”?. Histograma. Gráfico de dispersión. Polígono de frecuencia. Gráfico de barras.

Un grupo de estudiantes registra sus puntajes en una prueba. ¿Cómo identificarías la tendencia general del grupo?. Aplicando una codificación de variables. Haciendo un gráfico de dispersión entre nombres y notas. Usando un histograma para observar la frecuencia de puntajes. Reduciendo la dimensionalidad del dataset.

¿Cuál es una ventaja principal de las gráficas interactivas respecto a las estáticas?. Requieren menos memoria para su ejecución. Permiten aplicar algoritmos directamente sobre ellas. No permiten exportar los resultados. Facilitan el análisis exploratorio mediante selección de subconjuntos.

Estás usando un dashboard con gráficos interactivos para analizar ventas por región. ¿Qué acción representa un uso adecuado de esta herramienta?. Escribir código para predecir ventas futuras. Hacer clic sobre una región específica para ver detalles de sus ventas. Reorganizar los datos en Excel. Aplicar un algoritmo de clustering directamente desde la interfaz.

¿Cuál de los siguientes subtemas NO está relacionado con los algoritmos de predicción?. Regresión lineal. Regresión logística. Clasificación de los Algoritmos de Predicción. Minería de datos en redes sociales.

¿Cuál es la diferencia principal entre los algoritmos de regresión lineal y regresión logística según la introducción?. La regresión lineal estima relaciones lineales entre variables, mientras que la regresión logística se emplea para modelos de clasificación binaria. La regresión lineal predice probabilidades, mientras que la regresión logística estima relaciones lineales. Ambas predicen resultados en categorías múltiples. Ambas se utilizan solo para datos históricos.

Mencione dos técnicas que utilizan los sistemas de clasificación para analizar los datos de entrada y asignar etiquetas de clase.

¿Cuáles son los pasos principales que siguen los sistemas de predicción para generar resultados futuros a partir de datos históricos?. Recopilar datos, construir modelos predictivos, validar modelos y hacer predicciones. Recopilar datos, clasificar datos, eliminar datos irrelevantes. Construir modelos, analizar usuarios, recomendar productos. Validar modelos, clasificar datos, predecir ventas.

Completa: Un ejemplo de un sistema de recomendación es la ...................... de productos en tiendas en línea.

Selecciona los algoritmos que se utilizan en los sistemas de clasificación. Árboles de decisión. Filtrado colaborativo. Máquinas de vectores de soporte (SVM). Regresión lineal.

¿Cuál es el objetivo principal de los algoritmos de predicción en la minería de datos?. Predecir valores desconocidos o futuros a partir de datos históricos y patrones identificados. Almacenar grandes volúmenes de datos. Eliminar datos irrelevantes de una base de datos. Visualizar datos en gráficos interactivos.

¿Cuáles de las siguientes son ventajas de la minería predictiva en los negocios?. Aumenta la producción de la empresa. Reducir los riesgos en los negocios. Ayuda a tomar mejores decisiones. Aumenta los costos operativos.

Completa: El modelo predictivo de regresión utiliza un enfoque .................. para modelar la relación entre variables.

¿Para qué se utiliza principalmente el análisis de regresión en la minería de datos?. Para predicción numérica. Para clasificar imágenes. Para almacenar datos. Para cifrar información.

¿Qué característica principal distingue al análisis de series de tiempo en modelos predictivos?. Utiliza datos basados en el tiempo para predecir variables dependientes. Se basa en datos espaciales. Solo utiliza variables categóricas. No requiere datos históricos.

¿Cuál es la diferencia principal entre el aprendizaje supervisado y el no supervisado en el contexto de los algoritmos de predicción?. El aprendizaje supervisado utiliza datos etiquetados, mientras que el no supervisado no. El aprendizaje supervisado es más rápido que el no supervisado. El aprendizaje no supervisado utiliza datos etiquetados, mientras que el supervisado no. No hay diferencia entre ambos.

¿Cuáles de las siguientes técnicas pertenecen al aprendizaje supervisado?. Regresión. Agrupamiento. Árboles de decisión. A priori.

Completa: La minería de datos predictiva incluye técnicas como clasificación, regresión, predicción y ................ de series de tiempo.

¿Cuál es el objetivo principal de la regresión en la minería de datos?. Predecir valores numéricos en un conjunto de datos. Clasificar objetos en categorías predefinidas. Agrupar datos similares sin etiquetas. Analizar la estructura de los datos.

¿Cuál es la diferencia principal entre la predicción numérica y el análisis de series de tiempo en minería de datos?. La predicción numérica se basa en datos categóricos, mientras que el análisis de series de tiempo utiliza datos numéricos. La predicción numérica predice valores basados en la descripción de otros datos, mientras que el análisis de series de tiempo utiliza datos basados en el tiempo para predecir variables dependientes. El análisis de series de tiempo solo se usa en finanzas, mientras que la predicción numérica se usa en todos los campos. La predicción numérica no utiliza regresión, mientras que el análisis de series de tiempo sí.

¿Cuáles de las siguientes afirmaciones son correctas sobre los algoritmos de aprendizaje supervisado y no supervisado?. El aprendizaje supervisado utiliza datos etiquetados para entrenar el modelo. El aprendizaje no supervisado requiere que el usuario especifique el número de intervalos. El aprendizaje supervisado es controlado por el ingeniero del conocimiento. El aprendizaje no supervisado utiliza datos etiquetados para clasificar.

Completa: Los algoritmos de clasificación supervisada incluyen regresión logística, árboles de decisión y ................

¿Cuál es la característica principal que diferencia los algoritmos de clasificación supervisados de los no supervisados?. La presencia de datos etiquetados en la supervisada y la ausencia en la no supervisada. El uso de árboles de decisión en la no supervisada. La supervisada no puede predecir nuevas clases. La no supervisada utiliza solo datos numéricos.

¿Cuáles de los siguientes temas NO se abordan en la Unidad 3 sobre algoritmos de predicción?. Regresión polinómica. Regresión lineal. Regresión logística. Clasificación de los Algoritmos de Predicción.

Denunciar Test