MINERÍA DE DATOS COFE

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

MINERÍA DE DATOS COFE

Descripción:
UNEMI VI SEMESTRE

Autor:

COQUE FÉLIX

OTROS TESTS DEL AUTOR

Fecha de Creación: 2025/07/23

Categoría: Otros

Número Preguntas: 145

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Relaciona el tipo de recomendación con su descripción. Híbrido. Basado en conocimiento. Filtrado colaborativo. Basado en contenido.

Relaciona cada tarea de minería de datos con un ejemplo correspondiente. Clasificación. Agrupamiento. Regresión. Asociación.

¿Qué distingue a los sistemas de recomendación basados en conocimiento?. Utilizan calificaciones históricas exclusivamente. Basan la recomendación en requisitos explícitos del usuario. Imputan datos no observados entre pares. Se centran en gustos de otros usuarios.

¿Cuál de las siguientes afirmaciones sobre minería de datos es verdadera?. La minería de datos puede descubrir conocimiento útil a partir de datos que antes eran desconocidos. La minería de datos solo sirve para analizar bases de datos relacionales. La minería de datos reemplaza completamente el análisis estadístico tradicional.

¿Por qué se usan gráficos de densidad suave en visualización de datos?. Para mostrar relaciones causales. Para crear modelos predictivos. Por su estética y suavidad en la representación de distribuciones. Para análisis multivariado exclusivamente.

¿Cuál es el objetivo principal del Análisis de Componentes Principales (PCA)?. Aumentar el número de atributos. Reducir dimensionalidad conservando la mayor varianza posible. Eliminar datos duplicados. Transformar atributos categóricos en numéricos.

¿En qué caso es ilegal el Web Scraping?. Cuando se usa para fines educativos. Cuando se extraen datos de acceso público. Cuando se extraen datos no públicos sin autorización. Cuando se usan bibliotecas de Python.

¿Qué caracteriza al análisis de series temporales?. El uso de variables categóricas para predicción. Predicción sin orden cronológico. Uso del tiempo como variable independiente. Modelo no supervisado de clasificación.

Una aplicación de análisis de señales busca identificar fuentes independientes a partir de mezclas observadas. ¿Qué técnica es más adecuada?. LDA. ICA. PCA. Autoencoder.

¿Cuál de los siguientes problemas es un ejemplo de regresión?. Predecir si un cliente cancelará su suscripción. Determinar el precio estimado de una vivienda. Clasificar correos como importantes o. Detectar patrones de acceso no autorizados.

Relaciona la técnica con su función en minería de texto. NER (Reconocimiento de Entidades Nombradas). PoS tagging (Etiquetado de Partes del Habla). Análisis de sentimientos. Tokenización.

Relaciona cada algoritmo con su característica principal. Árboles de decisión. k-NN (k-Nearest Neighbors). Redes neuronales. Naive Bayes.

Un analista quiere visualizar datos de 100 atributos en 2 dimensiones sin perder mucha información. ¿Qué técnica debería aplicar?. Autoencoder. PCA. LDA. Clustering.

¿Qué permite identificar la técnica NER en minería de texto?. Errores ortográficos. Palabras sin significado. Entidades como nombres, ubicaciones y organizaciones. Longitud de los párrafos.

¿Qué tarea realiza la tokenización en minería de texto?. Agrupa documentos similares. Clasifica automáticamente los textos. Divide el texto en palabras o frases llamadas tokens. Calcula la frecuencia de términos en una base de datos.

Relaciona el concepto con su definición. Modelado predictivo. Variable dependiente. Regresión polinomial. Predicción numérica.

Relaciona cada tipo de tarea con su propósito general. Agrupamiento. Regresión. Asociación. Clasificación.

Durante el análisis de un conjunto de datos, se detecta una distribución con dos picos (bimodal). ¿Qué indica esto?. Que hay un error en el gráfico. Que los datos tienen valores atípicos mal codificados. Que existen dos subpoblaciones diferentes en los datos. Que no se pueden usar algoritmos de minería.

¿Cuál es una aplicación común del análisis de redes sociales en minería de datos?. Identificar estructuras de red neuronal profunda. Predecir conexiones entre usuarios y medir influencia. Crear gráficos de barras. Determinar el costo de algoritmos.

Aquí tienes la relación correcta entre cada disciplina y su aporte a la minería de datos: Visualización de datos. Estadística. Bases de datos. Aprendizaje automático.

Relaciona cada disciplina con su aporte a la minería de datos. Visualización de datos. Estadística. Bases de datos. Aprendizaje automático.

Una empresa desea conocer la percepción de su marca analizando los comentarios en sus publicaciones de redes sociales. ¿Qué técnica debería aplicar?. Tokenización. Análisis de sentimientos. Traducción automática. NER.

¿Cuál es el objetivo del análisis de sentimientos?. Determinar la estructura gramatical de un texto. Traducir palabras a diferentes idiomas. Detectar opiniones y emociones en el texto. Agrupar documentos por longitud.

¿Cuál es la principal suposición del clasificador Naive Bayes?. Que los atributos son dependientes entre sí. Que las clases son mutuamente excluyentes. Que los atributos son independientes dado el valor de clase. Que todos los datos son normales.

¿Cómo puede ayudar la minería de texto en el servicio al cliente?. Al crear encuestas visuales en redes sociales. Al responder automáticamente cualquier correo. Al identificar temas frecuentes en comentarios y tickets. Al traducir publicaciones en tiempo real.

Relaciona cada técnica con su aplicación. Regresión lineal. Regresión logística. Clasificación. Series temporales.

Un investigador analiza los comentarios sobre candidatos políticos en redes sociales para identificar opiniones dominantes. ¿Qué combinación de técnicas usaría?. Web Scraping + análisis de sentimientos. Agrupamiento jerárquico. Redes neuronales profundas. Regresión lineal múltiple.

¿Cuál es uno de los principales desafíos del filtrado colaborativo?. Requiere supervisión médica. Es costoso computacionalmente. Las matrices de calificación suelen ser dispersas. Funciona solo con imágenes.

Un analista desea predecir el ingreso mensual de una persona con base en su edad y nivel de estudios. ¿Qué técnica es adecuada?. Clasificación. Series temporales. Regresión logística. Regresión lineal.

¿Cuál es la diferencia principal entre clasificación y predicción en minería de datos?. Clasificación predice valores continuos y predicción predice etiquetas. Clasificación trabaja con series temporales; predicción con texto. Clasificación predice clases; predicción estima valores numéricos. Ambas se utilizan solo en sistemas de recomendación.

Relaciona cada tipo de minería web con su descripción. Estructura. Uso. Contenido.

¿Cuál es un riesgo ético importante de la minería de texto?. Fallas en el resumen automático. Baja calidad del texto digitalizado. Uso indebido de datos personales sin consentimiento. Limitación para textos de marketing.

¿Cuál es una funcionalidad destacada de RapidMiner?. Analizar únicamente datos en papel. Diseñar redes sociales. Realizar minería de texto, análisis predictivo y aprendizaje automático. Crear perfiles de usuario en redes.

Relaciona el sector con la aplicación de minería de texto. Finanzas. Salud. Redes sociales. Mantenimiento.

¿Qué caracteriza a la herramienta Orange?. Basada en lenguaje R, especializada en bioinformática. Diseñada solo para minería de texto. Interfaz visual con widgets para análisis de datos. Solo se puede usar en sistemas Mac.

¿Cuál es una ventaja clave de usar modelos predictivos en minería de datos?. Eliminan la necesidad de validar modelos. Permiten anticipar eventos futuros y tomar decisiones informadas. Funcionan sin datos históricos. Solo aplican en datos textuales.

¿Para qué sirve principalmente la regresión lineal?. Clasificar clientes en segmentos. Predecir valores categóricos. Predecir valores numéricos continuos. Detectar valores atípicos.

¿Qué es la minería de texto?. El análisis de datos estructurados provenientes de bases de datos. La extracción de conocimiento útil desde datos textuales no estructurados. La traducción automática de textos a varios idiomas. La búsqueda de información exacta en tablas numéricas.

¿Qué indica un valor de p < 0.05 en los coeficientes de un modelo de regresión?. Que la variable es irrelevante. Que debe eliminarse del modelo. Que la variable es estadísticamente significativa. Que el modelo es incorrecto.

Un medio digital quiere resumir automáticamente artículos extensos para sus lectores. ¿Qué subtarea del PNL es más útil?. Tokenización. Categorización de texto. Resumen automático. Clasificación supervisada.

Un sistema de streaming quiere sugerir películas similares a las que un usuario ha visto recientemente. ¿Qué técnica es más adecuada?. Basado en contenido. Clustering. Series temporales. Naive Bayes.

¿En qué se diferencian la minería de datos y la minería web?. La minería de datos usa algoritmos, y la web no. La minería web se enfoca en hipervínculos, contenido web y registros. No existe diferencia técnica. La minería de datos se usa solo en Excel.

¿Cuál es uno de los principales desafíos al analizar datos de redes sociales?. Fácil acceso a los datos. Tamaño, ruido y dinamismo de los datos. Costos elevados del hardware. Ausencia de algoritmos de clasificación.

¿Qué distingue a la regresión polinomial?. Solo se aplica a datos categóricos. Agrega términos no lineales de las variables independientes. Utiliza algoritmos genéticos. Se limita a funciones logarítmicas.

¿En qué consiste el filtrado colaborativo basado en usuarios?. Se usa el contenido del producto para hacer recomendaciones. Se utilizan usuarios similares para predecir preferencias del usuario objetivo. Se predicen las etiquetas sin datos previos. Se seleccionan los productos más vendidos.

Relaciona cada técnica con su aplicación. Series temporales. Regresión lineal. Regresión logística. Clasificación.

Una empresa de marketing quiere predecir si un cliente responderá a una campaña. ¿Qué técnica debe usar?. Clustering. Regresión logística. Regresión lineal. Árbol de decisión no supervisado.

¿Cuál es la primera fase del proceso de minería de texto?. Extracción de información. Visualización de resultados. Preprocesamiento del texto. Análisis de sentimientos.

¿Qué hace el clasificador k-vecinos más cercanos (k-NN)?. Predice etiquetas usando redes neuronales profundas. Asigna una clase basada en los k ejemplos más cercanos. Construye árboles de decisión basados en distancia. Usa probabilidad condicional para clasificar datos.

¿Cuál es el propósito de la visualización en minería de texto?. Eliminar palabras sin significado. Aplicar redes neuronales. Representar gráficamente los resultados del análisis textual. Etiquetar palabras clave.

¿Qué técnica sería adecuada para predecir si un paciente tiene alto riesgo de enfermedad?. Regresión lineal. Clustering. Regresión logística. Análisis de componentes principales.

Una tienda en línea quiere recomendar productos observando patrones de usuarios con comportamientos similares. ¿Qué técnica aplicaría?. Clasificación supervisada. Filtrado colaborativo basado en usuarios. Series temporales. Análisis de varianza.

¿En cuál de los siguientes casos usarías regresión logística?. Predecir el precio de una casa. Estimar la probabilidad de fraude en una transacción. Calcular ingresos anuales. Pronosticar el tráfico vehicular diario.

¿Cómo se seleccionan los componentes principales en PCA?. Por orden alfabético. Según la varianza que explican. Por número de columnas originales. Aleatoriamente.

¿Cuál es una ventaja de los árboles de decisión?. Son difíciles de interpretar. Requieren muchos datos de entrada. Permiten representar decisiones de forma clara y jerárquica. Solo sirven para regresión.

¿Qué describe la 'maldición de la dimensionalidad'?. La dificultad de aplicar modelos en datos numéricos. El crecimiento exponencial de datos necesario al aumentar dimensiones. La pérdida de datos en bases grandes. El sobreajuste de modelos simples.

¿Cuál de los siguientes NO es un paso del proceso KDD?. Traducción automática del texto. Limpieza de datos. Minería de datos. Evaluación de patrones.

¿Cuáles son los dos componentes clave del Web Scraping?. Rastreador y clasificador. Scraper y motor de búsqueda. Crawler y Scraper. HTML y XML.

¿Qué paso del proceso KDD implica eliminar ruido y datos incoherentes?. Limpieza de datos. Minería de datos. Evaluación de patrones.

¿Cuál es una de las razones del auge actual de la minería de datos?. La disponibilidad de grandes volúmenes de datos y el aumento del poder computacional. La falta de herramientas estadísticas y de visualización. El reemplazo total del análisis cualitativo por métodos automatizados.

¿Cuál es el objetivo principal de la visualización dentro del proceso de minería de datos?. Almacenar datos en gráficos visuales. Presentar resultados estéticamente. Facilitar el reconocimiento de patrones y la toma de decisiones. Sustituir el análisis estadístico.

¿Qué caracteriza a un sistema de recomendación basado en contenido?. Usa la historia de otros usuarios para recomendar. Considera solo atributos del ítem y preferencias previas del usuario. No requiere retroalimentación previa. Se basa únicamente en ubicación geográfica.

Relaciona la herramienta con su característica destacada. Orange. RapidMiner. DataMelt. SAS.

¿Cuándo es apropiado utilizar un gráfico de dispersión?. Para representar proporciones entre categorías. Cuando se quiere comparar tendencias en el tiempo. Al explorar relaciones entre dos variables numéricas. Para mostrar distribución de una variable categórica.

¿Cuál es la diferencia principal entre regresión lineal y regresión logística?. La lineal predice categorías; la logística predice valores continuos. La logística transforma variables numéricas en texto. La lineal predice valores continuos; la logística estima probabilidades de clases. Ambas se usan únicamente con variables categóricas.

¿Cuál es una característica de los autoencoders?. Solo sirven para clasificación. Requieren etiquetado previo. Son redes neuronales que comprimen y reconstruyen datos. Funcionan solo con datos categóricos.

¿Cuál de las siguientes tareas de minería de datos es de tipo predictivo?. Segmentación de clientes. Clasificación de correos como spam o no spam. Agrupación basada en comportamiento de compra. Reducción de dimensionalidad.

¿Cuál es el objetivo principal de la minería de datos?. Descubrir patrones y conocimientos útiles a partir de grandes volúmenes de datos. Diseñar bases de datos para almacenar información estructurada. Traducir datos numéricos a lenguaje natural. Automatizar la recolección de datos desde sitios web.

¿Para qué se utiliza un umbral de varianza en la selección de características?. Eliminar características que no aportan valor. Incrementar el número de variables. Asignar pesos a variables. Clasificar los datos en grupos.

Una empresa de ventas en línea ha recopilado millones de registros sobre las compras de sus clientes. El equipo de análisis ha identificado la necesidad de eliminar registros duplicados, corregir errores tipográficos y eliminar campos incompletos antes de extraer patrones de comportamiento. ¿Qué etapa del proceso KDD están realizando?. Limpieza de datos. Evaluación de patrones. Minería de datos.

¿Cuál de las siguientes tareas busca encontrar valores atípicos o inusuales. Clasificación. Regresión. Agrupamiento. Detección de anomalías.

¿Cuál es una diferencia entre selección y extracción de características?. La selección crea nuevas variables; la extracción elimina las irrelevantes. extracción elimina las irrelevantes. La selección elige un subconjunto; la extracción transforma los datos. No hay diferencia.

¿Cuál es una aplicación típica de las reglas de asociación?. Predicción del clima. Análisis de sentimiento. Cestas de mercado. Detección de fallos.

¿Cuál es la diferencia principal entre clasificación y regresión?. Clasificación predice categorías; regresión predice valores numéricos. Clasificación usa redes neuronales y regresión no. Regresión es más precisa que clasificación. Clasificación trabaja solo con datos de texto.

¿Cuál NO es una ventaja directa de reducir la dimensionalidad?. Reducir el tiempo de cómputo. Mejorar la interpretación de resultados. Aumentar el tamaño del conjunto de datos. Eliminar variables irrelevantes.

Un analista utiliza Orange para seleccionar puntos de un gráfico de dispersión y resaltar nodos de un árbol de decisión. ¿Qué tipo de visualización está aplicando?. Gráfico animado. Gráfico acumulado. Gráfico interactivo. Gráfico categórico.

¿Qué tipo de minería de datos se usa para detectar opiniones en redes sociales?. Minería de texto. Minería de estructuras web. Minería de procesos.

Una empresa desea comparar automáticamente precios de productos en diferentes sitios web. ¿Qué técnica debe usar?. Visualización de datos. Clasificación supervisada. Web Scraping. Análisis de sentimientos.

¿Qué tipo de gráfico es más útil para identificar valores atípicos en los datos?. Gráfico de barras. Diagrama de cajas. Histograma. Polígono de frecuencia.

¿Qué técnica se puede usar para facilitar la comprensión de los resultados de minería de datos?. Visualización de datos. Normalización de variables. Muestreo estratificado. Codificación de atributos categóricos.

¿Qué tarea de minería de datos es típicamente de tipo descriptivo?. Regresión. Detección de fraudes. Agrupamiento. Clasificación.

Relaciona cada algoritmo con su característica principal. Árboles de decisión. Redes neuronales. k-NN. Naive Bayes.

Relaciona cada algoritmo con su característica principal. Agrupamiento. Asociación. Regresión. Clasificación.

¿Cuál es una diferencia entre minería de datos y OLAP?. OLAP explora datos conocidos; la minería de datos busca descubrir patrones ocultos. Minería de datos solo analiza texto, mientras que OLAP solo analiza números. OLAP se basa en inteligencia artificial, mientras que minería de datos no.

¿Cuál NO es un tipo de minería web?. Minería de contenido web. Minería de usuarios móviles. Minería de estructuras web. Minería de uso web.

¿Cuál de las siguientes técnicas de reducción de dimensionalidad es supervisada?. PCA. ICA. LDA. Autoencoder.

Relaciona la técnica de selección con su principio. Umbral de correlación. Algoritmo genético. Umbral de varianza. Normalización.

Relaciona el sector con la aplicación de minería de texto. MANTENIMIENTO:. SALUD. REDES SOCIALES. FINANZAS: d.

Relaciona cada disciplina con su aporte a la minería de datos. ESTADÍSTICA:. BASES DE DATOS. APRENDIZAJE AUTOMÁTICO. VISUALIZACIÓN DE DATOS:.

Relaciona cada herramienta de minería de datos con su característica. RapidMiner:. Orange:. SAS:. Weka.

Un sistema de salud desea predecir si un paciente será readmitido al hospital según historial clínico. ¿Qué tipo de tarea debe usarse?. Agrupamiento. Asociación. Clasificación. Regresión.

¿Cuál es una característica clave de los histogramas?. Muestran relaciones entre variables. Se utilizan solo para datos. Requieren intervalos de clase. Presentan valores acumulados.

Relaciona la acción descrita con el paso correspondiente del proceso KDD. PRESENTACION DEL CONOCIMIENTO. MINERIA DE DATOS. Filtra los registros solo de clientes activos en los últimos 6 meses. Unifica los datos de ventas, atención al cliente y redes sociales en una sola base.

Relaciona el tipo de gráfico con su principal función. Histograma:. Gráfico de líneas. Gráfico de barras. Diagrama de cajas.

Una tienda analiza transacciones para encontrar productos que suelen comprarse juntos. ¿Qué técnica debe aplicar?. Clasificación. Agrupamiento. Asociación. Regresión.

Relaciona cada técnica con su descripción. PCA (Análisis de Componentes Principales):. LDA (Análisis Discriminante Lineal):. Autoencoder:. ICA (Análisis de Componentes Independientes):.

¿Por qué se divide un conjunto de datos en entrenamiento y validación?. Para crear dos modelos diferentes. Para aumentar la complejidad computacional. Para evaluar si el modelo generaliza bien. Para reducir el tamaño del conjunto original.

Relaciona el paso del proceso KDD con su descripción. Transformación de datos:. Presentación del conocimiento:. Evaluación de patrones:. Integración de datos:.

Relaciona cada tarea de minería de datos con un ejemplo correspondiente. Regresión:. Clasificación:. Asociación:. Agrupamiento:.

¿Cuál es el objetivo principal de la minería de datos. Descubrir patrones y conocimientos útiles a partir de grandes volúmenes de datos. Diseñar bases de datos para almacenar información estructurada. Traducir datos numéricos a lenguaje natural. Automatizar la recolección de datos desde sitios web.

¿Cuál de las siguientes tareas busca encontrar valores atípicos o inusuales?. Clasificación. Regresión. Agrupamiento. Detección de anomalías.

En relación con la Figura Gráfico de Densidad en Seaborn, ¿qué afirmación es correcta sobre la distribución de las calificaciones?. Las calificaciones están uniformemente distribuidas entre 50 y 120. La densidad es mayor en los extremos de la distribución, indicando alta variabilidad. La mayoría de los estudiantes obtuvo calificaciones cercanas a 90, lo que se refleja en el pico de la curva. El gráfico indica que hay una correlación positiva entre calificación y tiempo de estudio.

En relación con la Figura Gráfico de Burbuja en Seaborn, ¿qué afirmación es correcta sobre la relación entre las variables?. El tamaño de las burbujas representa el número de trabajadores por tarea. A mayor cantidad de horas invertidas, generalmente se observa mayor productividad y mayor costo del proyecto. El gráfico muestra que todos los proyectos con más de 10 horas tienen el mismo costo. No existe una relación visible entre horas de trabajo y productividad.

¿Cuál de las siguientes prácticas puede inducir a una interpretación errónea de una visualización?. Usar títulos descriptivos y ejes etiquetados. Truncar el eje Y para exagerar diferencias. Añadir grillas para facilitar la lectura. Mostrar leyendas diferenciadas por color.

En el siguiente código, ¿qué representa color = tarea1.values? fig = px.bar( x = tarea1.index, y = tarea1.values, color = tarea1.values, title = 'Cantidad de ocurrencias por delito', labels = {'x':'Primary Type', 'y':'Ocurrencias'} ). Aplica escala logarítmica al eje Y. Muestra etiquetas en el eje Y con los nombres de los delitos. Cambia la fuente de los textos del gráfico. Asigna un color a cada barra según la cantidad de ocurrencias.

¿Cuál es la utilidad del parámetro bins en un histograma?. Cambia el color de fondo de la figura. Controla la cantidad de intervalos en que se agrupan los datos. Establece el ancho de la barra en un gráfico de barras. Define el tamaño del texto del eje Y.

¿Qué tipo de gráfico es más adecuado para mostrar la evolución de una variable a lo largo del tiempo?. Gráfico de torta. Diagrama de dispersión. Gráfico de barras. Gráfico de líneas.

¿Cuál es la diferencia principal entre un histograma y un gráfico de barras?. El histograma agrupa datos continuos en intervalos, mientras que el gráfico de barras muestra categorías discretas. El gráfico de barras representa datos agrupados automáticamente. El gráfico de barras siempre tiene colores. El histograma solo se usa para porcentajes.

En relación con la Figura Histograma en Matplotlib, ¿qué interpretación es correcta sobre la distribución de las calificaciones?. La mayor concentración de estudiantes obtuvo calificaciones entre 90 y 95. El histograma muestra una clara correlación entre edad y calificación. Las calificaciones están distribuidas uniformemente entre 65 y 100. La mayoría de los estudiantes obtuvo calificaciones inferiores a 75.

¿Qué tipo de gráfico es más adecuado para analizar la distribución de una variable continua?. Histograma o gráfico de densidad. Gráfico circular. Gráfico de líneas con múltiples ejes. Gráfico de barras apiladas.

¿Qué ventajas ofrece una visualización interactiva creada con Plotly frente a una visualización estática?. Funciona solo en notebooks. Permite explorar, filtrar y personalizar la vista de los datos en tiempo real. Requiere menos líneas de código que matplotlib. No necesita etiquetas ni títulos.

¿Qué función de Matplotlib permite crear una distribución libre de subgráficos dentro de una figura?. plt.hist(). plt.title(). subplot_mosaic(). plt.figure().

¿Cuál es una diferencia entre selección y extracción de características?. La selección crea nuevas variables; la extracción elimina las irrelevantes. La selección usa PCA; la extracción, umbrales. La selección elige un subconjunto; la extracción transforma los datos. No hay diferencia.

Analiza el siguiente código. ¿Qué representa la línea color = tarea1.values? fig = px.bar(x = tarea1.index, y = tarea1.values, color = tarea1.values). Aplica un color aleatorio sin relación con los datos. Asigna una escala de color a cada barra en función de su valor (cantidad de ocurrencias). Cambia el color de fondo de la figura. Muestra una barra por cada color en el dataset.

Relaciona la técnica de selección con su principio. Umbral de correlación. Umbral de varianza. Normalización. Algoritmo genético.

¿Qué tipo de minería de datos se usa para detectar opiniones en redes sociales?. Minería de texto. Minería de estructuras web. Minería de procesos.

¿Cuál es la principal utilidad de un gráfico de dispersión con muchos puntos de datos?. Representar proporciones sobre un total. Identificar patrones y relaciones entre dos variables numéricas. Comparar porcentajes entre categorías. Mostrar series temporales.

¿Qué recomendación se menciona en la guía para la etapa posterior a la creación del gráfico?. Imprimir el gráfico para revisión manual. Evaluar si comunica el mensaje deseado y considerar la interactividad. Ajustar el tamaño del texto de los ejes. Cambiar los colores para hacerlo más llamativo.

Observa el siguiente código y selecciona la afirmación correcta: sns.kdeplot(scores, fill=True, color='skyblue'). Genera una gráfica de densidad que representa la distribución continua de los datos. Es un gráfico de dispersión con forma de campana. Muestra un gráfico de barras verticales con colores suaves. Agrupa los datos por categoría en intervalos de clase.

En relación con el gráfico de dispersión que muestra el precio frente al número de reseñas, ¿qué se puede inferir sobre la relación entre las variables?. La línea de regresión indica que el número de reseñas depende exclusivamente del precio. Hay una fuerte correlación negativa entre el precio y las reseñas. Existe una relación débilmente positiva entre el precio y el número de reseñas, con alta dispersión y presencia de valores atípicos. Los productos con mayor precio siempre tienen más reseñas.

¿Cuál es el propósito principal de la visualización de datos según la guía?. Sustituir el análisis estadístico descriptivo. Facilitar la identificación de patrones, tendencias y relaciones en los datos. Ocultar valores atípicos de forma visual. Generar gráficos para impresión únicamente.

Relaciona la acción descrita con el paso correspondiente del proceso KDD. Usa gráficos de barras para mostrar el comportamiento mensual de compra. Unifica los datos de ventas, atención al cliente y redes sociales en una sola base. Filtra los registros solo de clientes activos en los últimos 6 meses. Aplica un algoritmo de clustering para segmentar clientes por comportamiento.

¿Qué gráfico sería más útil para representar visualmente la frecuencia relativa de salarios en una empresa?. Gráfico de barras apiladas. Diagrama de dispersión. Histograma. Gráfico de torta.

¿Cuál es una de las ventajas principales de usar Seaborn, según la guía?. Permite construir gráficos estadísticos complejos con código simple. Se integra exclusivamente con arrays de NumPy. Requiere configuración avanzada para cada gráfico. No permite modificar la apariencia de los gráficos.

Según el histograma de distribución de precios, ¿qué observación es correcta sobre los datos?. La distribución de los precios es uniforme entre 0 y 400. El histograma indica que los valores atípicos se encuentran entre 0 y 50 dólares. Los precios muestran una tendencia lineal con respecto al conteo. La mayoría de los precios están concentrados en valores bajos, mientras que unos pocos se distribuyen en rangos altos.

¿Qué métrica fue utilizada en la práctica para evaluar el rendimiento del modelo KNN?. Pérdida logarítmica (Log Loss). Curva ROC-AUC. Precisión (Accuracy). Error absoluto medio (MAE).

¿Qué ventaja tienen los árboles de decisión frente a modelos como KNN o regresión logística?. Requieren menos datos para entrenarse. Son más rápidos que cualquier otro modelo. Son fáciles de interpretar y visualizar como reglas de decisión. No requieren preprocesamiento de datos.

¿Qué medida ayuda a evitar el sobreajuste al entrenar un árbol de decisión?. Limitar la profundidad máxima del árbol (max_depth). Usar más variables independientes. Aumentar el número de vecinos (k). Estandarizar todas las variables.

¿Qué indica la diagonal principal en la matriz de confusión?. Las predicciones correctas para cada clase. El número de vecinos usados por k-NN. Las predicciones incorrectas acumuladas. La media de los valores predictivos.

¿Qué función se utiliza en pandas para verificar si hay valores nulos en un dataset?. df.corr(). df.isnull().sum(). df.describe(). df.shape().

¿Cuál es el propósito principal de usar StandardScaler en el preprocesamiento del conjunto de datos?. Eliminar las columnas con valores faltantes. Dividir el conjunto de datos en entrenamiento y prueba. Seleccionar solo las variables categóricas. Normalizar las características para que tengan media cero y desviación estándar uno.

¿Qué comando se utiliza para dividir el conjunto de datos en entrenamiento y prueba?. classifier.split(X, y). iris.split(0.8). split_train_test(iris). train_test_split(X, y, test_size=0.2).

En el diagrama de distribución de opiniones, ¿qué se puede concluir sobre los datos mostrados?. La mayoría de los valores están concentrados cerca del rango inferior, pero existen numerosos outliers por encima del rango superior. La distribución es simétrica y sin valores atípicos. La mediana de las opiniones es cercana a 30.000. No es posible identificar si hay valores atípicos en un diagrama de caja.

¿Cuál es el primer paso para preparar los datos antes de aplicar un modelo predictivo en la práctica?. Cargar y explorar los datos para entender su estructura y calidad. Dividir los datos en conjuntos de entrenamiento y prueba. Aplicar directamente el modelo sin preprocesamiento. Evaluar la precisión del modelo.

¿Qué función se utiliza en pandas para verificar si hay valores nulos en un dataset?. df.isnull().sum(). df.shape(). df.describe(). df.corr().

¿Qué indica la diagonal principal en la matriz de confusión?. Las predicciones correctas para cada clase. las Predicciones incorrectas acumuladas. La media de los valores predictivos. El número de vecinos usados por k-NN.

¿Qué propósito tiene la métrica classification_report en la práctica con k-NN?. Proporcionar precisión, recall y F1-score del modelo. Visualizar gráficamente los datos. Seleccionar las columnas predictoras. Dividir el dataset en partes iguales.

¿Qué se concluye cuando se onserva una matriz de confusión con muchos falsos positivos?. El modelo está clasificando incorrectamente muchos casos negativos como positivos. El modelo no fue entrenado con suficienetes datos. El modelo tiene una presición perfecta. Los datos deben ser nuevamente normalizados.

¿Qué ventaja tienen los árboles de decisión frente a modelos como KNN o regresión logística?. Son fáciles de interpretar y visualizar como reglas de decisión. Requieren menos datos para entrenarse. No requieren preprocesamineto de datos. Son más rápidos que cualquier otro modelo.

¿Cuál es la función del método train_test_split dentro del flujo de la práctica?. Cargar el dataset desde un archivo CSV. Ajustar automáticamente el valor de k. Dividir los datos en subconjuntos de entrenamiento y prueba. Calcular la matriz de confusión.

¿Qué acción permite determinar el número óptimo de vecinos (k) en el algoritmo KNN?. Analizar el histograma de frecuencias de la clase. Usar una matriz de correlación de variables. Aplicar reducción de dimensionalidad con PCA. Graficar el error de validación para diferentes valores de k.

¿Cuál es la función del parámetro hue='Species' en los gráficos de seaborn?. Mostrar la densidad de puntos en el gráfico. Aumentar el número de puntos en el gráfico. Colorear los puntos según la especie para diferenciar visualmente. Agregar etiquetas a los ejes.

¿Qué representa el resultado de accuracy_score(y_test, y_pred).?. El porcentaje de predicciones correctas del modelo. La cantidad de clases en el dataset. El tiempo de entrenamiento del modelo. El valor de k óptimo.

Denunciar Test

▲