option
Cuestiones
ayuda
daypo
buscar.php

Machine Learning

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Machine Learning

Descripción:
Preguntas creadas por IA

Fecha de Creación: 2025/01/12

Categoría: Otros

Número Preguntas: 96

Valoración:(1)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

¿Cuál es el principal objetivo del preprocesamiento de datos en un proyecto de Machine Learning?. A) Crear nuevos modelos directamente. B) Generar gráficos de análisis. C) Obtener datos finales limpios y aptos para los modelos. D) Dividir el conjunto de datos en entrenamiento y prueba.

¿Qué técnica se usa para manejar datos faltantes?. A) Normalización. B) Imputación de datos faltantes. C) Identificación de ruido. D) Transformación de datos.

¿Cuál de las siguientes tareas pertenece a la transformación de datos?. A) Construcción de características. B) Eliminación de datos duplicados. C) Manejo de datos faltantes. D) Integración de datos.

¿Qué es la normalización de datos?. A) Convertir los datos en gráficos. B) Unificar las unidades de medida para los atributos. C) Detectar y eliminar datos redundantes. D) Corregir valores faltantes.

¿Qué define un algoritmo supervisado?. A) Aprende sin datos etiquetados. B) Aprende de datos etiquetados con entradas y salidas conocidas. C) Se utiliza únicamente para clustering. D) Evalúa modelos mediante validación cruzada.

¿Cuál de los siguientes es un ejemplo de clasificación?. A) Predecir los precios de casas. B) Determinar si un correo es spam o no. C) Estimar la temperatura del día siguiente. D) Calcular los costos de un accidente.

¿Qué indica la curva ROC?. A) El rendimiento de un clasificador binario. B) Los datos mal clasificados en un modelo. C) La tasa de aciertos y errores en regresión. D) La precisión de un modelo en datos categóricos.

¿Qué es el área bajo la curva (AUC)?. A) Una métrica para evaluar algoritmos de clustering. B) Indica el rendimiento de un modelo basado en la curva ROC. C) Mide la concordancia entre evaluadores. D) Representa la tasa de datos faltantes en un conjunto.

¿Qué significa la profundidad de un nodo en un árbol de decisión?. A) El número total de nodos. B) Los pasos necesarios para llegar desde la raíz hasta el nodo. C) El número de hijos que tiene un nodo. D) La cantidad de datos procesados en ese nodo.

¿Qué mide la entropía en un árbol de decisión?. A) La cantidad de nodos hijos. B) La pureza de un conjunto de datos. C) La distancia entre nodos. D) La profundidad de un nodo.

¿Qué técnica se utiliza para evitar el sobreajuste en árboles de decisión?. A) Incrementar la cantidad de ramas. B) Poda del árbol. C) Aumentar la profundidad máxima. D) Usar métricas como la curva ROC.

¿Qué enfoque combina varios modelos del mismo tipo mediante muestreo con reemplazo?. A) Stacking. B) Bagging. C) Boosting. D) Regularización.

¿Qué diferencia tiene el Boosting frente al Bagging?. A) Entrena modelos débiles secuencialmente. B) Usa modelos de diferentes tipos. C) Requiere datos categóricos únicamente. D) No utiliza votación ponderada.

¿Qué indica un valor de R² de 0.85?. A) Que el modelo explica el 85% de la variabilidad de los datos. B) Que el modelo tiene un error medio absoluto de 85. C) Que el modelo clasifica correctamente el 85% de los datos. D) Que el modelo tiene un 85% de precisión en la validación cruzada.

¿Qué técnica se utiliza para ajustar la línea de regresión?. A) Método de mínimos cuadrados. B) División de datos en subconjuntos. C) Poda del árbol. D) Validación cruzada.

¿Qué es una neurona artificial?. A) Una célula biológica que procesa información. B) Una unidad básica de cálculo en una red neuronal. C) Una función matemática para minimizar errores. D) Un método para calcular la distancia entre puntos.

¿Qué hace una función de activación en una red neuronal?. A) Determina el peso de las entradas. B) Decide si una neurona debe activarse y pasar información. C) Conecta las capas de entrada y salida. D) Optimiza los datos de entrada.

¿Cuál es una ventaja de la función de activación ReLU?. A) Genera valores negativos y positivos balanceados. B) Evita el desvanecimiento del gradiente en redes profundas. C) Converge más rápido en problemas lineales. D) Produce siempre una salida binaria.

¿Qué técnica se utiliza para ajustar los pesos en el entrenamiento de redes neuronales?. A) Normalización. B) Poda del árbol. C) Descenso de gradiente. D) Validación cruzada.

¿Qué es el backpropagation en redes neuronales?. A) Un método para dividir el conjunto de datos en entrenamiento y prueba. B) Un algoritmo que ajusta los pesos desde la capa de salida hacia atrás. C) Una técnica para agregar capas a una red neuronal. D) Una forma de aumentar el tamaño del conjunto de datos.

¿Qué problema puede surgir con la función ReLU?. A) Neuronas muertas debido a valores negativos constantes. B) Genera salidas que no son interpretables. C) Reduce la precisión del modelo en tareas de clasificación. D) Incrementa el desvanecimiento del gradiente.

¿Qué tipo de aprendizaje es el clustering?. A) Supervisado. B) No supervisado. C) Refuerzo. D) Semi-supervisado.

¿Qué mide el índice de Silhouette en clustering?. A) La precisión de un clasificador. B) La calidad de un modelo de regresión. C) La cohesión y separación de los grupos creados. D) La probabilidad de pertenencia a un grupo.

¿Cuál es una limitación del algoritmo K-Means?. A) No puede manejar datos numéricos. B) Asume un número fijo de clusters. C) Es lento para datos pequeños. D) No utiliza medidas de distancia.

¿Qué se entiende por el concepto de "centroides" en K-Means?. A) El número total de clusters. B) Los puntos medios que representan cada cluster. C) Los datos iniciales del conjunto. D) Los valores mínimos y máximos de cada cluster.

¿Qué permite calcular la regla de Bayes?. A) La probabilidad de un evento dado un resultado conocido. B) La correlación entre dos variables. C) La entropía de un conjunto de datos. D) La probabilidad conjunta de dos eventos.

En un sistema basado en reglas, ¿qué ocurre si hay conflictos entre reglas?. A) Se eliminan automáticamente las reglas en conflicto. B) Los valores de certeza de las reglas se combinan. C) Se priorizan las reglas más complejas. D) Las reglas en conflicto se ignoran.

¿Qué describe la independencia probabilística entre dos variables?. A) P(X | Y) = P(X). B) P(X | Y) > P(X). C) P(X | Y) = P(Y). D) P(X, Y) = P(X) + P(Y).

¿Qué indica un alto error cuadrático medio (MSE) en un modelo?. A) El modelo tiene predicciones muy cercanas al valor real. B) El modelo tiene predicciones con errores significativos. C) El modelo está perfectamente ajustado a los datos. D) El modelo no necesita más entrenamiento.

¿Cuál es la principal diferencia entre regresión lineal simple y múltiple?. A) La regresión simple usa múltiples variables independientes. B) La regresión múltiple requiere menos datos. C) La regresión múltiple incluye más de una variable independiente. D) La regresión simple usa análisis no lineales.

¿Qué representa un nodo hoja en un árbol de decisión?. A) Un nodo con más de dos hijos. B) Un nodo final que contiene una clasificación o predicción. C) Un nodo inicial sin padres. D) Un nodo que divide los datos en subconjuntos.

¿Qué es el índice Gini en árboles de decisión?. A) Una métrica para medir la profundidad del árbol. B) Una medida de la impureza de un nodo. C) Un método para dividir los datos de entrenamiento. D) Una técnica para evitar el sobreajuste.

¿Qué se busca al realizar una poda en un árbol de decisión?. A) Reducir el número de clases. B) Aumentar la profundidad del árbol. C) Mejorar el rendimiento en datos nuevos. D) Incrementar la cantidad de divisiones.

¿Cuál es una desventaja principal de los árboles de decisión?. A) No pueden manejar datos categóricos. B) Son propensos al sobreajuste. C) Solo funcionan con grandes conjuntos de datos. D) Requieren datos normalizados.

¿Qué técnica en Ensemble Learning utiliza modelos de diferentes tipos para combinar predicciones?. A) Bagging. B) Stacking. C) Boosting. D) Regularización.

¿Qué técnica intenta corregir los errores de los modelos previos en un conjunto?. A) Bagging. B) Boosting. C) Stacking. D) Normalización.

¿Qué característica diferencia a Random Forest de otros métodos de Bagging?. A) Utiliza modelos secuenciales. B) Construye árboles de decisión usando subconjuntos aleatorios de datos y características. C) Solo funciona con datos categóricos. D) No puede manejar datos ruidosos.

¿Cuál es una característica del algoritmo DBSCAN?. A) No requiere especificar un número de clusters. B) Solo funciona con datos categóricos. C) Depende de la inicialización aleatoria de centroides. D) Es más lento que K-Means en todos los casos.

¿Qué se entiende por "clustering jerárquico"?. A) Dividir datos en clusters sin un orden específico. B) Crear una estructura de árbol para representar los grupos. C) Usar centroides para determinar los clusters. D) Calcular la distancia media entre clusters.

¿Qué métrica se utiliza comúnmente para medir la distancia entre puntos en clustering?. A) Tasa de error. B) Distancia euclidiana. C) Curva ROC. D) Entropía.

¿Qué significa que una red neuronal sea "profunda"?. A) Tiene más de una capa oculta. B) Tiene más de 10 millones de parámetros. C) Utiliza datos no etiquetados. D) Procesa únicamente datos de alta dimensionalidad.

¿Qué función de activación produce valores entre -1 y 1?. A) Sigmoide. B) ReLU. C) Tanh. D) Lineal.

¿Qué problema soluciona el descenso de gradiente en Backpropagation?. A) Reduce el tiempo de entrenamiento. B) Encuentra los pesos óptimos para minimizar el error. C) Aumenta la cantidad de datos disponibles. D) Divide el conjunto de datos en subconjuntos.

¿Qué tipo de aprendizaje se utiliza comúnmente en redes neuronales para clasificación?. A) No supervisado. B) Supervisado. C) Reinforcement Learning. D) Aprendizaje semi-supervisado.

¿Cuál es una ventaja clave del aprendizaje no supervisado en redes neuronales?. A) No requiere datos etiquetados. B) Aumenta automáticamente el tamaño del conjunto de datos. C) Siempre produce modelos lineales. D) Utiliza funciones de activación lineales exclusivamente.

¿Qué indica el resultado de aplicar la regla de Bayes?. A) La probabilidad de un evento condicionado a otro. B) La media de una distribución. C) La relación entre dos variables independientes. D) La correlación entre eventos no relacionados.

¿Qué significa que dos eventos sean independientes?. A) P(X | Y) = P(X) y P(Y | X) = P(Y). B) P(X | Y) = P(X) + P(Y). C) P(X, Y) = P(X | Y) + P(Y | X). D) P(X) y P(Y) son siempre iguales.

¿Cuál es una limitación de los sistemas basados en reglas?. A) Requieren grandes volúmenes de datos. B) La validez de una regla puede depender del contexto. C) No permiten combinaciones de probabilidades. D) Solo funcionan con datos numéricos.

¿Qué técnica se utiliza para convertir variables categóricas en numéricas?. A) Normalización. B) Imputación de datos faltantes. C) Creación de variables dummy. D) Transformación logarítmica.

¿Qué subtarea pertenece a la integración de datos?. A) Detección de duplicados. B) Imputación de datos faltantes. C) Normalización de escalas. D) Construcción de características.

¿Cuál es el propósito de la discretización en el preprocesado?. A) Dividir los datos en categorías o intervalos. B) Fusionar datos de múltiples fuentes. C) Detectar valores atípicos en el conjunto de datos. D) Reducir el tamaño del conjunto de datos.

¿Qué significa el término "overfitting" en un clasificador?. A) Que el modelo no logra capturar patrones en los datos. B) Que el modelo tiene un rendimiento bajo en el conjunto de prueba. C) Que el modelo se adapta demasiado a los datos de entrenamiento. D) Que el modelo clasifica incorrectamente los datos no etiquetados.

¿Qué proporción es común para dividir los datos en entrenamiento y prueba?. A) 50%-50%. B) 80%-20%. C) 60%-40%. D) 90%-10%.

¿Qué herramienta gráfica se utiliza para evaluar clasificadores?. A) Histograma. B) Boxplot. C) Curva ROC. D) Gráfico de dispersión.

¿Qué se mide con la métrica Kappa en clasificadores?. A) El error absoluto medio del modelo. B) La concordancia entre dos evaluadores. C) La pureza del conjunto de datos. D) La variabilidad explicada por el modelo.

¿Qué representa la pendiente (b1) en una ecuación de regresión lineal?. A) El valor de la variable dependiente cuando todas las independientes son 0. B) El cambio en la variable dependiente por cada unidad de cambio en la independiente. C) La variabilidad total explicada por el modelo. D) El promedio de los errores al cuadrado.

¿Qué indica un residuo alto en un modelo de regresión?. A) Que el modelo se ajusta perfectamente a los datos. B) Que el valor real y el predicho son muy diferentes. C) Que no hay necesidad de ajustar el modelo. D) Que el modelo explica toda la variabilidad de los datos.

¿Cuál es una técnica para tratar residuos altos en un modelo?. A) Reducir el tamaño del conjunto de datos. B) Usar transformaciones como logaritmos. C) Eliminar la variable dependiente. D) Aumentar la pendiente de la línea.

¿Qué rol juega el sesgo ("bias") en una neurona artificial?. A) Elimina valores negativos de las entradas. B) Permite que la neurona produzca una salida incluso si las entradas son cero. C) Multiplica las entradas por sus pesos. D) Define el rango de salida de la función de activación.

¿Qué sucede durante la fase forward de backpropagation?. A) Se ajustan los pesos de la red. B) Se generan predicciones basadas en los pesos actuales. C) Se calcula la dirección del gradiente. D) Se eliminan conexiones débiles en la red.

¿Qué problema ocurre cuando las neuronas en una red profunda no transmiten señales significativas?. A) Sobreajuste. B) Neuronas muertas. C) Falta de datos de entrenamiento. D) Divergencia del gradiente.

¿Qué ventaja tiene el uso de la función Tanh sobre la función sigmoide?. A) Produce valores únicamente positivos. B) Tiene un rango entre -1 y 1, lo que ayuda a representar relaciones negativas. C) Es más eficiente computacionalmente. D) Evita el problema de gradiente desaparecido.

¿Qué técnica es más adecuada si se busca reducir el sobreajuste en árboles de decisión?. A) Bagging. B) Boosting. C) Stacking. D) Normalización.

¿Qué característica define a un modelo débil en Boosting?. A) Es un modelo que clasifica todos los datos correctamente. B) Es un modelo con un rendimiento ligeramente superior al azar. C) Es un modelo con alta capacidad de generalización. D) Es un modelo que nunca comete errores.

¿Qué métrica se utiliza para combinar los resultados de múltiples modelos en Stacking?. A) Promedio ponderado. B) Validación cruzada. C) AUC-ROC. D) Ponderación secuencial.

¿Qué impacto tiene no normalizar las variables cuando se utiliza un algoritmo como KNN o SVM?. A) Mejora la precisión del modelo. B) Las variables con mayor rango tendrán más peso en los cálculos. C) El modelo ignora las diferencias entre escalas. D) Reduce el tiempo de entrenamiento.

¿Por qué es importante manejar datos faltantes antes de entrenar un modelo?. A) Los modelos no funcionan con valores faltantes. B) Los valores faltantes no afectan los modelos predictivos. C) Los valores faltantes pueden introducir sesgos o distorsionar el entrenamiento. D) Para reducir el tamaño del conjunto de datos.

¿Cuál es la ventaja de realizar la discretización de datos continuos en algoritmos como Naive Bayes?. A) Simplifica los cálculos al convertir variables continuas en categóricas. B) Reduce el tamaño del conjunto de datos. C) Permite usar datos no estructurados directamente. D) Hace que los datos se vuelvan lineales.

¿Qué métrica es más adecuada para evaluar un modelo en un conjunto de datos desbalanceado?. A) Accuracy. B) F1-Score. C) Tasa de error. D) MSE.

¿Qué representa un punto en la curva ROC?. A) El número de instancias mal clasificadas. B) Un umbral específico de clasificación con su TPR y FPR. C) La precisión global del modelo. D) El porcentaje de datos no clasificados.

¿Qué implica un alto valor de F1-Score?. A) La precisión del modelo es alta. B) La tasa de falsos negativos es baja. C) Hay un buen equilibrio entre precisión y exhaustividad (recall). D) El modelo clasifica todos los datos correctamente.

¿Qué sucede si un modelo supervisado tiene un alto bias?. A) Tiende a sobreajustar. B) Tiende a subajustar y tiene un bajo rendimiento en entrenamiento y prueba. C) Tiende a dar valores muy extremos. D) Su rendimiento mejora en conjuntos grandes de datos.

¿Cuál es la principal ventaja de usar Random Forest frente a un único árbol de decisión?. A) Mayor interpretabilidad. B) Reducción del riesgo de sobreajuste. C) Menor tiempo de entrenamiento. D) Uso exclusivo de datos categóricos.

¿Qué técnica de ensemble combina modelos con diferentes arquitecturas?. A) Bagging. B) Stacking. C) Boosting. D) Voting.

¿Qué ocurre si el número de modelos en un ensemble basado en Bagging es demasiado bajo?. A) Aumenta el riesgo de sobreajuste. B) El rendimiento general del ensemble disminuye. C) Los modelos tienden a ser más dependientes. D) El ensemble deja de ser útil para problemas no lineales.

¿Qué se logra al aplicar la regla de Bayes en un modelo probabilístico?. A) Maximizar la entropía de un conjunto de datos. B) Calcular la probabilidad posterior de una hipótesis dados los datos observados. C) Encontrar correlaciones entre variables independientes. D) Reducir la dimensionalidad de los datos.

¿Qué supone la hipótesis de independencia en Naive Bayes?. A) Todas las características son independientes entre sí dado el valor de la clase. B) Todas las características son dependientes entre sí. C) Las clases no tienen correlación con las características. D) Las características dependen únicamente de la clase objetivo.

¿Qué indica un coeficiente de regresión cercano a 0?. A) La variable independiente no tiene relación con la dependiente. B) Existe una fuerte relación entre las variables. C) El modelo tiene alta varianza. D) El modelo está sobreajustado.

¿Qué indica un R² negativo?. A) El modelo es perfecto. B) El modelo tiene un error muy bajo. C) El modelo es peor que usar la media como predicción. D) El modelo no tiene pendiente.

¿Qué es el gradiente desaparecido en redes neuronales profundas?. A) Los gradientes se vuelven demasiado grandes, causando errores. B) Los gradientes se vuelven extremadamente pequeños, dificultando el aprendizaje. C) Las redes tienden a sobreajustar en la etapa de entrenamiento. D) Los pesos de las conexiones se vuelven negativos.

¿Qué ventaja tiene la función ReLU sobre la función Sigmoide?. A) Permite representar relaciones negativas. B) Reduce el problema del gradiente desaparecido. C) Genera resultados en el rango [-1, 1]. D) Mejora la precisión en problemas de clasificación binaria.

¿Qué estrategia se utiliza para reducir el sobreajuste en redes neuronales profundas?. A) Aumentar la tasa de aprendizaje. B) Aplicar Dropout durante el entrenamiento. C) Usar funciones de activación no lineales. D) Eliminar capas ocultas.

¿Qué describe mejor el proceso de Backpropagation?. A) Una técnica de preprocesado de datos. B) Un algoritmo para ajustar pesos en una red neuronal utilizando el error. C) Un método de inicialización de pesos en redes neuronales. D) Un algoritmo de clustering jerárquico.

¿Cuál es una desventaja del algoritmo K-Means?. A) Solo trabaja con datos categóricos. B) Requiere predefinir el número de clusters. C) No utiliza ninguna medida de distancia. D) Es computacionalmente ineficiente para grandes conjuntos de datos.

¿Qué métrica se utiliza para determinar el número óptimo de clusters en K-Means?. A) Índice de Silhouette. B) Entropía. C) Error cuadrático medio (MSE). D) Curva ROC.

¿Qué representa el concepto de "inercia" en K-Means?. A) La distancia promedio entre los centroides. B) La suma de las distancias cuadradas entre los puntos y su centroide más cercano. C) El tiempo requerido para converger. D) La varianza entre los datos agrupados.

¿Qué ventaja tiene el clustering jerárquico frente a K-Means?. A) Puede encontrar clusters de formas arbitrarias sin predefinir el número de clusters. B) Es más eficiente computacionalmente para grandes conjuntos de datos. C) Requiere menos pasos para converger. D) Solo funciona con datos numéricos.

¿Cuál es el propósito del método de "Elbow" en clustering?. A) Identificar el número óptimo de clusters. B) Medir la distancia entre puntos en un cluster. C) Calcular la densidad de puntos en cada cluster. D) Seleccionar la función de distancia más adecuada.

¿Qué característica diferencia al algoritmo DBSCAN de K-Means?. A) No requiere predefinir el número de clusters. B) No puede manejar ruido en los datos. C) Utiliza centroides como referencia. D) No funciona con datos espaciales.

¿Qué parámetro clave define la densidad mínima de un cluster en DBSCAN?. A) El número de centroides. B) La distancia máxima entre puntos (epsilon). C) La suma de las distancias cuadradas. D) El porcentaje de datos categóricos.

¿Qué ocurre si el valor de epsilon es muy grande en DBSCAN?. A) Se formarán demasiados clusters pequeños. B) Se clasificará todo como un único cluster. C) Aumentará el ruido en el modelo. D) El modelo no convergerá.

¿Qué tipo de datos son más adecuados para el algoritmo de clustering jerárquico?. A) Datos numéricos exclusivamente. B) Datos categóricos exclusivamente. C) Datos pequeños o moderados en tamaño con relaciones jerárquicas. D) Grandes conjuntos de datos con alta dimensionalidad.

¿Qué técnica se puede usar para evaluar la calidad de los clusters generados?. A) Índice de Silhouette. B) Error absoluto medio (MAE). C) Curva ROC. D) Validación cruzada.

En el clustering jerárquico, ¿qué describe el "enlace completo" (complete linkage)?. A) La distancia máxima entre dos puntos en diferentes clusters. B) La distancia mínima entre dos puntos en diferentes clusters. C) El promedio de las distancias entre todos los puntos en dos clusters. D) El centroide más cercano entre clusters.

¿Cuál es una ventaja del algoritmo DBSCAN sobre K-Means?. A) Identifica automáticamente el número de clusters y maneja ruido. B) Requiere menos memoria computacional. C) Es más rápido para conjuntos de datos muy grandes. D) Siempre encuentra clusters perfectamente definidos.

¿Cómo se determina un "punto central" en el algoritmo DBSCAN?. A) Es el punto más cercano al centroide. B) Es un punto que tiene al menos un número mínimo de vecinos dentro de una distancia epsilon. C) Es el promedio de las distancias en un cluster. D) Es el primer punto en el conjunto de datos.

Denunciar Test