SIMULADOR DE MINERIA DE DATOS

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

SIMULADOR DE MINERIA DE DATOS

Descripción:
MINERIA DE DATOS

Autor:

RODRIGUEZ COROZO

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/07/01

Categoría: Otros

Número Preguntas: 132

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Por qué la comprensibilidad del modelo es clave en minería de datos?. Porque mejora la velocidad. Porque los usuarios finales no siempre son expertos técnicos. Porque reduce el costo. Porque elimina errores automáticamente.

¿Por qué no se observan indicios claros de valores atípicos en la variable edad?. Porque la edad máxima no se aleja significativamente del resto de los valores y la distribución es más equilibrada. Porque no existen valores mínimos en la edad. Porque la edad es una variable categórica. Porque la edad tiene una media muy alta.

Un modelo que identifica que los clientes compran más los fines de semana es: Predictivo. Supervisado. Prescriptivo. Descriptivo.

Seleccione características de la minería de datos. Descubre patrones ocultos. Utiliza algoritmos avanzados. Reemplaza bases de datos. Solo almacena información. Ayuda a tomar decisiones.

¿Por qué el análisis exploratorio es indispensable antes de aplicar minería de datos?. ERR Porque reemplaza a los modelos. ERR Porque elimina automáticamente los errores. ERR Porque mejora la correlación. ERR Porque permite entender distribución, dispersión y problemas del dataset.

Durante el proceso KDD, una organización detectó registros duplicados, valores incompletos y formatos inconsistentes en su base de datos. Antes de aplicar algoritmos de descubrimiento de patrones, fue necesario realizar una etapa de. Posteriormente, los analistas aplicaron modelos capaces de encontrar relaciones ocultas entre variables; esta etapa corresponde a. Cuando los resultados obtenidos fueron revisados para verificar si tenían sentido dentro del contexto empresarial, se desarrolló la fase de.

Un banco detectó automáticamente una transacción realizada desde un país distinto al comportamiento habitual del cliente y decidió bloquear temporalmente la operación. Para lograrlo, el sistema comparó el nuevo movimiento con grandes volúmenes de operaciones anteriores almacenadas en. Este escenario representa un caso de. La capacidad de identificar este tipo de patrones sospechosos se considera una de las principales.

Amazon recomienda productos usando: Redes. Almacenamiento. Minería de datos. Visualización.

¿Qué tipo de datos maneja principalmente la minería de datos?. Solo datos pequeños. Grandes volúmenes de datos. Datos no estructurados únicamente. Datos manuales.

Al comparar el monto de compra por género, ¿Qué se observa en la mediana?. Ambos géneros tienen la misma mediana. El género masculino presenta una mediana mayor. No se puede observar. El género femenino presenta una mediana mayor.

Emparejar con el tipo de modelo que se debe aplicar en cada escenario: Una empresa revisa las ventas registradas durante el último año para conocer el total vendido por mes y por sucursal. Una institución educativa analiza las calificaciones parciales, la asistencia y el uso de la plataforma virtual para determinar qué estudiantes podrían reprobar la asignatura al finalizar el semestre. Una empresa de telefonía examina el historial de pagos, reclamos y tiempo de permanencia de sus clientes para identificar quiénes podrían cancelar el servicio en los próximos meses.

¿Cuál es el objetivo principal del Análisis Exploratorio de Datos (EDA)?. Comprender la estructura y características de los datos. Preparar informes finales. Construir modelos predictivos. Eliminar variables irrelevantes.

PCA se usa principalmente para: Predecir valores. Detectar fraude. Clasificar. Reducir dimensionalidad.

¿Cuál es el objetivo principal de los modelos predictivos?. Visualizar información. Predecir valores futuros o desconocidos. Agrupar registros. Explorar los datos.

¿Qué gráficos se utilizan para analizar distribuciones?. Histograma. Gráfico de líneas. Gráfico de pastel. Boxplot.

Antes de aplicar PCA, al analizar solo dos variables originales en un gráfico de dispersión, el principal problema fue que: PCA aún no estaba entrenado. Los datos estaban mal escalados. Se perdía información de otras variables relevantes. No existían valores faltantes.

¿Cuál de los siguientes problemas surge al analizar datasets con muchas variables?. Mayor facilidad de interpretación. Resultados más claros automáticamente. Menor tiempo de procesamiento. Mayor consumo de recursos y complejidad.

Si se quisiera conservar al menos el 80 % de la información original, la acción más adecuada sería: No aplicar PCA. Eliminar variables manualmente. Usar únicamente CP1. Aumentar el número de componentes.

¿Qué criterios se utilizaron para conservar variables? Seleccione todas las respuestas correctas. Menor redundancia. Variables con nombres más cortos. Matriz de correlación. Orden alfabético. Importancia en análisis inmobiliario.

Empareje el beneficio con el resultado esperado. Visualización simplificada. Eliminación de ruido. Menos dimensiones. Reducción de redundancia.

¿Qué puede ocurrir si se eliminan demasiadas variables? Seleccione todas las respuestas correctas. Eliminar registros automáticamente. Reducir calidad del análisis. Afectar futuros modelos. Pérdida de información. Crear componentes principales.

Empareje la correlación con su interpretación. 0.07. 0.81. 0.72. 0.66.

Empareje el término con el ejemplo correcto. Variable irrelevante. Extracción de características. Compresión de datos. Reducción de numerosidad.

Empareje el tipo de compresión con su característica. Sin pérdida. Con pérdida.

Seleccione las afirmaciones correctas sobre la varianza explicada. Seleccione todas las opciones correctas. Permite analizar la posible pérdida de información. Indica cuánta información aporta cada componente. Representa el número total de filas del dataset. Ayuda a decidir cuántos componentes conservar. Elimina automáticamente variables categóricas.

Empareje el concepto con la situación correcta. PCA. Varianza. Variables redundantes. StandardScaler.

¿Para qué fue útil PCA en esta práctica? (Seleccione todas las correctas). Predecir precios de viviendas. Reemplazar el dataset original. Identificar outliers. Reducir la complejidad visual. Detectar agrupamientos.

¿Qué variables podrían considerarse parcialmente redundantes?. Satisfaccion_1a10 y Evaluacion_Desempeno. Edad y Capacitaciones_anio. Ausencias_dias y Horas_Extras_mes. Experiencia_anios y Antiguedad_empresa_anios.

Empareje el componente con su interpretación. CP1. CP2.

¿Cuál de las siguientes NO es una estrategia de reducción de datos?. Compresión de datos. Reducción de numerosidad. Reducción de dimensionalidad. Normalización de bases de datos.

Considere la siguiente matriz de confusión: Asumiendo que: 0 = No tiene diabetes 1 = Tiene diabetes ¿Cuántos pacientes fueron clasificados como sanos cuando en realidad tenían diabetes?. 285. 145. 678. 122.

Cuál de las siguientes es una forma de análisis de datos: Rapid mining. Extracción. Proceso. Clasificación.

Observe la gráfica "Relación entre Horas de estudio y Errores en el examen". Seleccione las afirmaciones correctas: La relación entre altura y peso es perfectamente lineal. A medida que aumentan las horas de estudio, el número de errores tiende a disminuir. Un modelo de regresión lineal podría utilizarse para realizar predicciones aproximadas. La dispersión observada indica que existen otros factores además de las horas de estudio que influyen en los errores del examen. Todas las personas con la misma altura tienen exactamente el mismo peso. El peso depende únicamente de la altura.

Con base a la practica de regresión logística, relacione el porcentaje o dato con la cantidad correspondiente. 20% de prueba. Dataset completo. Accuracy obtenido. 80% de entrenamiento.

Relacione la etapa con la instrucción utilizada. Predecir. Cargar dataset. Evaluar accuracy. Entrenar modelo.

En regresión logística: (Seleccione todas las correctas). Se usa para decisiones binarias. Se realiza clasificación. Se estima una probabilidad. Se predicen valores continuos.

Relacione el término con su significado. Variable objetivo. Variable predictora. Variable dependiente. Variable independiente.

Se refiere a una forma de análisis de datos en la que un modelo de aprendizaje automático asigna una categoría específica a una nueva observación. Clasificación. Análisis de series temporales. Predicción. Regresión.

Un accuracy del 90 % parece alto, pero ¿por qué NO es suficiente por sí solo?. Porque solo aplica a regresión lineal. Porque no distingue el tipo de errores. Porque depende del color del gráfico. Porque siempre debe ser 100 %.

Ordene la frase correctamente: [históricos] para_anticipar_resultados Los_sistemas_de_predicción_utilizan_datos [futuros].

¿Qué realiza el método fit(X, y)? Seleccione una o más respuestas correctas. Analiza la relación entre X e y. Calcula la recta de regresión que mejor se ajusta a los datos. Entrena el modelo con los datos históricos. Genera automáticamente el documento Word. Elimina valores duplicados del dataset. Permite que el modelo aprenda patrones para predecir nuevos datos.

Si el dataset contiene 1200 registros y se utiliza test_size = 0.2, seleccione las afirmaciones correctas. Seleccione una o más respuestas correctas. 120 registros se usan para prueba. 960 registros se usan para entrenamiento. 1000 registros se usan para entrenamiento. 240 registros se usan para prueba.

Observe las cuatro gráficas de dispersión. Seleccione las gráficas en las que una variable permite explicar casi por completo el comportamiento de la otra. 1. 2. 3. 4.

Según la práctica, ¿Cuáles afirmaciones sobre las variables X e Y son correctas? Seleccione una o más respuestas correctas. Se aplico regresión logística en la practica para estimar los valores. La variable dependiente Y fue estatura. La estatura fue el valor que se deseó estimar. La variable independiente X fue edad. La edad fue la variable dependiente.

¿Cuáles corresponden a tareas de clasificación?. Estimar altura. Fraude o no fraude. Aprobar o no aprobar. Diabetes sí o no. Cancelará o no un servicio.

¿Cuál es el objetivo principal de la minería de datos?. Diseñar bases de datos relacionales. Generar reportes estáticos. Descubrir patrones y conocimiento útil en los datos. Almacenar grandes volúmenes de datos.

Un modelo con buen accuracy puede NO ser adecuado en salud si (seleccione todas las correctas): Tiene muchas variables predictoras. Se usa como única fuente de decisión. No considera impacto humano. Presenta muchos falsos negativos.

¿Cuál de los siguientes métodos es una técnica de extracción de características?. Discretización. PCA. Eliminación de columnas. Filtrado manual.

Selección de personal usa: Recursos Humanos. Turismo. Educación. Web.

Ventaja del aprendizaje no supervisado: Descubre patrones ocultos. Predice con exactitud. Requiere variable objetivo. Usa etiquetas.

En un contexto educativo, un falso negativo implica (seleccione todas las correctas): Posible desmotivación injustificada. Mejora del rendimiento académico. Un estudiante aprobado es clasificado como no aprobado. Eliminación del error humano.

¿Cuál de las siguientes afirmaciones sobre PCA es correcta?. Selecciona variables originales. Es una técnica supervisada. Combina variables para crear nuevas. Funciona solo con datos categóricos.

Un sistema de recomendación (p. ej., Netflix/Amazon) se apoya en técnicas de minería de datos para sugerir contenido. ¿Cuál opción describe mejor su lógica general?. Solo clustering, porque siempre agrupa usuarios. Solo reglas de asociación, porque no usa modelos supervisados. Combina clasificación y/o predicción sobre datos históricos para sugerir ítems. No usa datos históricos; recomienda aleatoriamente.

Reducir el dataset a dos componentes principales significa que: Se conservaron solo dos columnas originales. Se eliminaron variables irrelevantes. Cada registro ahora se describe con dos combinaciones de variables. El dataset perdió la mayoría de los registros.

¿Cuál NO es objetivo de un modelo descriptivo?. Resumir información. Explorar datos. Predecir valores futuros. Identificar patrones.

¿Cuál es una aplicación actual típica de la minería de datos?. Sistemas de recomendación. Escritura manual. Procesamiento de texto simple sin análisis. Contabilidad básica.

¿Por qué el gráfico de barras es más adecuado que un gráfico de líneas para comparar ventas por trimestre?. Porque los trimestres son categorías discretas. Porque reduce el número de datos. Porque permite observar correlaciones. Porque muestra mejor los valores atípicos.

La línea de código df[num_cols].describe() en Pandas sirve para generar un resumen estadístico descriptivo de las columnas numéricas (num_cols) seleccionadas dentro de un DataFrame (df). La media del monto de compra es mayor que la mediana. ¿Qué indica esto?. Distribución simétrica. Distribución uniforme. Distribución asimétrica con sesgo a la derecha. Distribución normal.

Un sistema recibe correos etiquetados como “spam” o “no spam” y aprende a clasificar nuevos correos. Este es un ejemplo de: No supervisado. Supervisado. Exploratorio. Agrupamiento.

El PCA (Análisis de Componentes Principales) es una técnica: De clasificación. Supervisada. No supervisada. De regresión.

¿Cuál es el objetivo principal de los modelos predictivos?. Explorar los datos. Agrupar registros. Predecir valores futuros o desconocidos. Visualizar información.

Empareje la librería de Python con su función. seaborn. plotly. pandas. matplotlib.

Netflix puede clasificar contenidos como “Recomendado” o “No recomendado” para un usuario específico, usando historial del usuario y de usuarios similares. Si la salida final es esa etiqueta binaria, ¿qué componente del sistema se parece más a un problema de: Predicción exclusivamente. Clasificación. Clustering exclusivamente. Asociación exclusivamente.

¿Qué librerías se usan para visualización en Python?. matplotlib. plotly. sklearn. seaborn.

La regresión sirve para: Agrupar. Asociar productos. Clasificar. Predecir valores numéricos.

¿Qué tipo de datos maneja principalmente la minería de datos?. Datos manuales. Grandes volúmenes de datos. Solo datos pequeños. Datos no estructurados únicamente.

Reducir dimensionalidad siempre implica: Convertir variables categóricas. No perder nunca información. Mejor desempeño garantizado. Posible pérdida parcial de información.

Identifique el tipo de problema predictivo descrito. Una empresa desea estimar el costo mensual de mantenimiento según el número de usuarios. Clustering. Regresión logística. Clasificación. Regresión lineal.

¿Cuál afirmación es correcta?. Supervisado es predictivo y no supervisado descriptivo. Ninguno usa datos. Supervisado es descriptivo. Ambos son iguales.

¿Para qué fue útil PCA en esta práctica? (Seleccione todas las correctas). Identificar outliers. Predecir precios de viviendas. Detectar agrupamientos. Reemplazar el dataset original. Reducir la complejidad visual.

Con base en los histogramas de los Dataset A y B, ¿Cuáles afirmaciones son correctas? (Seleccione todas las correctas). Ambos datasets presentan una distribución uniforme. El Dataset A presenta una distribución aproximadamente simétrica. El Dataset B presenta una distribución sesgada a la derecha. En el Dataset B los valores altos aparecen con menor frecuencia.

¿Qué disciplina aporta conceptos como media, varianza y regresión?. Aprendizaje automático. Bases de datos. Visualización de datos. Estadística.

¿Por qué es importante clasificar las variables en numéricas y categóricas antes del análisis?. Para usar el mismo gráfico en todas. Para eliminar columnas. Para reducir el tamaño del dataset. Porque cada tipo requiere análisis y gráficas distintas.

Si NO se hubiera aplicado StandardScaler antes de PCA, el resultado más probable sería: CP1 y CP2 serían iguales. PCA no funcionaría. Las variables de mayor escala dominarían los componentes. No se podría calcular la varianza.

En la práctica, los dos primeros componentes explicaron ≈49 % de la varianza total. ¿Qué se puede concluir correctamente?. El dataset es complejo y requiere más componentes. La información es insuficiente para análisis exploratorio. No era necesario escalar. PCA falló.

Un sistema de recomendación combina: Solo clasificación. Solo regresión. Técnicas de clasificación y predicción. Solo clustering.

La selección de características consiste en: Eliminar variables irrelevantes o redundantes. Aplicar clustering. Transformar datos en gráficos. Crear nuevas variables combinadas.

Clasificar una transacción como fraude o no fraude es un ejemplo de: Clasificación. Regresión. Agrupamiento (clustering). PCA.

Una plataforma de streaming usa historial y calificaciones previas para predecir si un usuario dará una calificación positiva a una nueva película. Este problema es de: Supervisado. No supervisado. Agrupamiento. Exploración.

¿Qué categoría de producto presenta la mediana de monto de compra más alta?. Ropa. Alimentos. Otros. Electrónica.

Predecir demanda de energía es: Agrupamiento. Asociación. No supervisado. Supervisado.

¿Por qué la minería de datos se considera una disciplina multidisciplinaria? Pregunta 8S. Porque reemplaza a la estadística. Porque integra técnicas de estadística, aprendizaje automático, bases de datos y visualización. Porque funciona únicamente con Big Data. Porque solo usa bases de datos.

Los dos primeros componentes explicaron aproximadamente el 48.9 % de la varianza total. Esto indica que el dataset: Es simple y fácil de resumir. No es adecuado para PCA. Contiene información distribuida en varias dimensiones. Perdió información irrelevante.

Un modelo que estima la demanda futura de un producto es: No supervisado. Predictivo. Exploratorio. Descriptivo.

Empareje el tipo de gráfico con su uso principal. Gráfico de barras. Boxplot. Histograma. Gráfico de dispersión.

Predecir inundaciones corresponde a: Educación. Ciencias y medio ambiente. Marketing. Turismo.

¿Cuál de las siguientes NO es una estrategia de reducción de datos?. Normalización de bases de datos. Reducción de numerosidad. Compresión de datos. Reducción de dimensionalidad.

Decisiones paso a paso usan: Árboles de decisión. Clustering. Reglas de asociación. PCA.

¿Cuál de los siguientes problemas surge al analizar datasets con muchas variables?. Mayor facilidad de interpretación. Mayor consumo de recursos y complejidad. Resultados más claros automáticamente. Menor tiempo de procesamiento.

Un modelo de regresión logística estima P(Riesgoso) para un cliente. Si la política del banco define umbral 0.70, ¿cuándo se clasifica como Riesgoso?. Cuando el árbol llega a una hoja con mayoría Riesgoso. Cuando el cliente es similar a sus 3 vecinos más cercanos. Cuando P(Riesgoso) ≥ 0.70. Cuando P(Riesgoso) ≤ 0.70.

Un sistema analiza correos con variables como presencia de palabras (“gratis”, “oferta”), número de enlaces y remitente. ¿Qué algoritmo del tema se asocia clásicamente a este escenario por su enfoque probabilístico?. Regresión lineal. Naive Bayes. K-NN. Clustering k-means.

Si se quisiera conservar al menos el 80 % de la información original, la acción más adecuada sería: Aumentar el número de componentes. Eliminar variables manualmente. Usar únicamente CP1. No aplicar PCA.

La reducción de dimensionalidad se considera una técnica de: Preprocesamiento. Visualización. Validación de modelos. Postprocesamiento.

¿Qué caracteriza a un patrón “interesante” en minería de datos?. Que sea complejo. Que use IA. Que sea útil, válido y comprensible. Que sea matemático.

¿Cuáles son características del Análisis de Componentes Principales ?. PCA puede usarse antes de clustering. PCA categorizar los datos. PCA elimina filas. PCA combina variables.

¿Cuál es una ventaja clave de las gráficas interactivas?. Permiten explorar subconjuntos de datos. Reemplazan la minería de datos. Reducen el tamaño del dataset. Eliminan valores atípicos.

El aprendizaje supervisado se caracteriza porque: No requiere variable objetivo. Solo agrupa datos. Trabaja con datos etiquetados. No usa datos históricos.

Empareja cada algoritmo con su idea central. Regresión logística. Naive Bayes. K-NN. Árbol de decisión.

Patrones de fallas industriales pertenecen a: Manufactura. Turismo. Política. Educación.

¿Cuáles son ejemplos de tareas de clasificación?. Aprobar / Reprobar. Predecir ventas. Estimar costos. Detectar fraude.

La reducción de dimensionalidad busca principalmente: Simplificar el dataset sin perder información relevante. Aumentar el número de variables. Crear bases de datos. Convertir variables categóricas en numéricas.

Empareje tarea y resultado. Regresión. Predicción. Clasificación.

En el proceso de minería de datos, ¿cuál es el rol principal del ser humano?. Definir objetivos, interpretar resultados y tomar decisiones. Almacenar los datos. Ejecutar manualmente los algoritmos. Programar sensores.

¿Qué se entiende por dimensión en un conjunto de datos?. Un registro del dataset. Una variable o característica. Un algoritmo. Un modelo predictivo.

¿Qué tipo de atributo es la variable ¨ciudad¨?. Date. Categórico. Numérico discreto. Numérico continuo.

¿Cuál de los siguientes es un ejemplo de modelo predictivo?. Identificar productos más vendidos. Agrupar usuarios por intereses. Resumir ventas mensuales. Predecir si una transacción será fraudulenta.

¿Cuál de las siguientes NO es una estrategia de reducción de datos?. Reducción de numerosidad. Reducción de dimensionalidad. Compresión de datos. Normalización de bases de datos.

¿Cuál de las siguientes afirmaciones sobre PCA es correcta?. Es una técnica supervisada. Selecciona variables originales. Combina variables para crear nuevas. Funciona solo con datos categóricos.

¿Qué gráfico permite analizar la relación entre dos variables numéricas?. Gráfico de dispersión. Gráfico de líneas. Histograma. Gráfico de barras.

Detectar fraude en tarjetas corresponde a. Educación. Finanzas y banca. Medicina. Marketing.

Un falso positivo ocurre cuando: El modelo acierta positivo. El modelo predice positivo y es realmente negativo. El modelo predice negativo y es positivo. El modelo acierta negativo.

Una institución tiene datos (horas de estudio, asistencia, participación) y además conoce si cada estudiante aprobó o reprobó. Se entrena un modelo para predecir si un nuevo estudiante aprobará. ¿Qué tipo de aprendizaje es?. Reforzado. Supervisado. Semi-supervisado. No supervisado.

Naive Bayes se basa en: Árboles jerárquicos. Varianza máxima. Distancia euclidiana. Teorema de Bayes.

¿Por qué la minería de datos es especialmente útil en análisis exploratorios?. Porque confirma hipótesis previas. Porque genera reportes automáticos. Porque elimina la necesidad de expertos. Porque permite descubrir conocimiento sin supuestos iniciales.

¿Qué librería se usa para gráficos interactivos en Python?. pandas. matplotlib. seaborn. plotly.

Caso: Una empresa tiene información de clientes, pero no sabe quiénes son “buenos” o “malos”. Solo desea agrupar clientes según comportamiento de compra. ¿Qué enfoque es el más adecuado?. Clustering, porque no hay etiquetas y se buscan grupos por similitud. Predicción, porque estima valores futuros. Recomendación, porque sugiere productos de inmediato. Clasificación, porque asigna una clase conocida.

En K-NN, un nuevo estudiante es comparado con los K estudiantes más similares. ¿Cómo se determina la clase final (p. ej., “Aprueba/No aprueba”) en la forma más común de K-NN para clasificación?. Se construye una jerarquía de reglas desde una raíz. Se elige la clase más frecuente entre los K vecinos. Se ajusta una recta y se predice un valor continuo. Se calcula una probabilidad con el teorema de Bayes.

Un modelo con alto accuracy pero clases desbalanceadas puede: Ser no supervisado. Ser siempre excelente. No tener errores. No ser confiable.

La línea de código df[num_cols].describe() en Pandas sirve para generar un resumen estadístico descriptivo de las columnas numéricas (num_cols) seleccionadas dentro de un DataFrame (df). El valor count del resumen estadístico ¿Qué representa este valor?. El valor máximo. El promedio de compras. La cantidad de variables. El número de registros.

En minería de datos, un modelo se define como: Un conjunto de tablas. Un software de análisis. Una representación matemática o estadística construida a partir de datos. Un reporte visual.

Con el porcentaje de varianza obtenido, ¿para qué escenario NO sería suficiente usar solo dos componentes?. Identificación de outliers. Visualización exploratoria. Detección de patrones generales. Modelado predictivo.

Clasificar correos como spam/no spam es: Descriptivo. Supervisado. Exploratorio. No supervisado.

Detectar fraude bancario usa: Visualización. PCA. Clustering. Clasificación.

PCA se usa principalmente para: Predecir valores. Detectar fraude. Reducir dimensionalidad. Clasificar.

En el proceso general de minería de datos (recolección → preparación → construcción → evaluación → uso), ¿en qué fase se aplica directamente un algoritmo de clasificación (p. ej., K-NN, Naive Bayes, árbol, regresión logística)?. Preparación de datos. Uso del modelo en nuevos datos. Construcción del modelo. Recolección de datos.

El proceso KDD incluye: Solo aplicar un algoritmo. Preparación, selección de técnica, aplicación e interpretación/validación. Crear una base de datos. Hacer un gráfico final.

¿Cuáles son beneficios de la visualización de datos?. Detectar valores atípicos. Reemplazar algoritmos. Comprender patrones. Apoyar decisiones.

¿Qué ventaja ofrece el proceso KDD frente a aplicar solo algoritmos de minería de datos?. Reduce el tamaño de los datos. Asegura un proceso completo desde datos crudos hasta conocimiento útil. Automatiza decisiones sin intervención. Elimina la necesidad de validación.

¿Qué disciplina aporta técnicas como indexación y acceso eficiente a los datos?. Visualización. Bases de datos. Estadística. Inteligencia artificial.

Estimar el precio de una vivienda según su tamaño y ubicación corresponde a: Regresión. Reglas de asociación. Resumen. Clustering.

¿Qué se entiende por dimensión en un conjunto de datos?. Un modelo predictivo. Un registro del dataset. Una variable o característica. Un algoritmo.

¿Por qué es importante clasificar las variables en numéricas y categóricas antes del análisis?. Porque cada tipo requiere análisis y gráficas distintas. Para usar el mismo gráfico en todas. Para eliminar columnas. Para reducir el tamaño del dataset.

Denunciar Test