AA 2024/2025 FIC

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

AA 2024/2025 FIC

Descripción:
Test de la asignatura Aprendizaje Automático Computación FIC GEI UDC

Autor:

Guille Raposo

OTROS TESTS DEL AUTOR

Fecha de Creación: 2025/05/19

Categoría: Informática

Número Preguntas: 44

Valoración:

(2)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Qué ocurre si un modelo tiene una dimensión VC muy alta?. Mejor capacidad de generalización. Mayor capacidad para ajustarse a los datos de entrenamiento pero menor generalización. Menor complejidad del modelo. Menor riesgo de overfitting.

¿Qué representa el término "shatter" en la teoría VC?. La capacidad de un modelo para clasificar correctamente cualquier distribución de clases en un conjunto de ejemplos. El proceso de normalización de datos. El conjunto de ejemplos no clasificables. La función objetivo de un modelo.

¿Cuál es el balance ideal para evitar underfitting y overfitting?. Error de entrenamiento alto y complejidad baja. Error de entrenamiento bajo y complejidad alta. Error de entrenamiento bajo y complejidad moderada. Error de entrenamiento alto y complejidad alta.

¿Qué efecto tiene aumentar el número de patrones de entrenamiento respecto a la dimensión VC?. Incrementa la confianza VC y el riesgo de overfitting. Disminuye la confianza VC y mejora la capacidad de generalización. No tiene efecto sobre la confianza VC. Disminuye la capacidad del modelo para aprender.

¿Qué papel tienen los multiplicadores de Lagrange en la optimización de SVM?. Ajustar pesos de una red neuronal. Incorporar las restricciones del problema en la función objetivo para hallar la solución dual. Normalizar las variables de entrada. Definir el kernel utilizado.

¿Qué indica la métrica de especificidad en una matriz de confusión?. La proporción de casos positivos correctamente clasificados. La proporción de casos negativos correctamente clasificados. La proporción de falsos positivos. La proporción de falsos negativos.

¿Qué métrica es más adecuada en problemas con clases muy desbalanceadas?. Precisión (accuracy). F1-score. Número total de predicciones positivas. Error absoluto.

¿Cuál es la diferencia principal entre sensibilidad (recall) y valor predictivo positivo (precision)?. Sensibilidad mide cuántos positivos reales son detectados; precisión mide cuántos positivos detectados son reales. Son métricas equivalentes. Sensibilidad mide cuántos negativos se clasifican correctamente; precisión mide los falsos positivos. Sensibilidad es usada solo en problemas multiclase; precisión en binaria.

¿Cómo se calcula el F1-score?. Media aritmética de precisión y sensibilidad. Media armónica de precisión y sensibilidad. Diferencia entre precisión y sensibilidad. Suma de precisión, sensibilidad y especificidad.

Cuál es la función del hiperplano en una SVM?. Minimizar la distancia a los puntos más lejanos. Separar las dos clases maximizando la distancia mínima a los puntos más cercanos. Clasificar los puntos dentro del margen. Reducir la dimensionalidad del conjunto de datos.

En problemas no linealmente separables, ¿qué técnica permite aplicar SVM?. Reducción de dimensionalidad. Uso de kernels para transformar el espacio de entrada. Aumento del número de vectores de soporte. Uso de árboles de decisión.

¿Qué propiedad tienen los vectores de soporte respecto al hiperplano?. Están fuera del margen. Son los únicos puntos que definen el margen óptimo. Son puntos descartados durante el entrenamiento. Se encuentran en la clase opuesta.

¿Qué se busca minimizar al elegir el atributo para dividir un nodo en el algoritmo ID3?. Ganancia de información. Entropía residual o incertidumbre en la partición. Número de ramas del árbol. Profundidad del árbol.

¿Qué representa una rama en un árbol de decisión?. Una posible pregunta sobre un atributo. El valor o conjunto de valores que puede tomar un atributo en un nodo. El resultado final de clasificación. Un error en la clasificación.

¿Qué condición detiene la recursión en la construcción de un árbol ID3?. Cuando todos los atributos han sido usados o todas las instancias en un nodo pertenecen a la misma clase. Cuando el árbol tiene una profundidad mayor a 10. Cuando el conjunto de entrenamiento se agota. Cuando la entropía alcanza su máximo.

¿Qué valor tiene la entropía si todos los ejemplos en un conjunto pertenecen a la misma clase?. 1. 0. Depende del número de ejemplos. Variable según el atributo.

¿Por qué se denomina "aprendizaje perezoso" al basado en instancias?. Porque no utiliza datos de entrenamiento. Porque no construye un modelo explícito durante el entrenamiento, y todo el cómputo se hace en la clasificación. Porque solo clasifica datos antiguos. Porque usa técnicas de clustering.

¿Qué es la regresión simbólica?. Un método para clasificar datos discretos. La búsqueda de expresiones matemáticas explícitas que ajustan datos de entrada y salida. Un método para reducción de dimensionalidad. Un algoritmo de clustering.

¿Cuál es una ventaja del método k-NN?. No requiere normalización de atributos. Puede adaptarse localmente a la distribución de datos sin un modelo global. Reduce el coste computacional en clasificación. Siempre es insensible al ruido.

¿Qué puede pasar si los atributos tienen diferentes rangos y no se normalizan en k-NN?. El resultado no se ve afectado. Los atributos con rangos mayores dominarán la distancia, distorsionando la clasificación. Se reduce el coste computacional. Se incrementa la precisión del clasificador.

¿Cuál es una variante de k-NN que considera la importancia de los vecinos según su distancia?. k-NN con rechazo. k-NN con distancia media. k-NN ponderado por distancia (distance-weighted k-NN). k-NN estándar.

¿Cuál de las siguientes técnicas es típica en regresión simbólica para explorar el espacio de posibles soluciones?. K-means. Programación genética. Redes neuronales profundas. Algoritmos de clustering jerárquico.

¿Qué representa el espacio semántico en regresión simbólica?. El espacio original de variables independientes. Un espacio definido por las salidas de un modelo para cada patrón de entrenamiento. Un tipo de árbol de decisión. La estructura jerárquica de las variables.

¿Cuál es el papel de los vectores a, b, c, d en la evaluación de nodos en regresión simbólica?. Definen la estructura del árbol. Se usan para calcular el error cuadrático medio global y evaluar cambios en subárboles. Representan la normalización de datos. Son parámetros de entrenamiento de redes neuronales.

¿Por qué es importante repetir varias veces la evaluación de un algoritmo no determinístico?. Porque el código cambia en cada ejecución. Para minimizar la variabilidad aleatoria y obtener una media representativa del rendimiento. Porque se utilizan diferentes algoritmos en cada repetición. No es importante repetir la evaluación.

¿Qué técnica consiste en tomar muestras con reemplazo para crear conjuntos de entrenamiento?. a) Holdout. b) Validación cruzada. c) Bootstrapping. d) Leave-one-out.

¿Qué representa la desviación típica en la evaluación de modelos?. La media de los errores. La variabilidad o dispersión de los resultados obtenidos en múltiples ejecuciones. La suma de errores. La tasa de aciertos.

¿Cuál es una ventaja de la validación cruzada k-fold respecto al holdout?. Menor tiempo computacional. Utiliza todos los datos para entrenamiento y test, proporcionando estimaciones más robustas. Solo se ejecuta una vez. No requiere particionar los datos.

¿Cuál es el teorema que afirma que no existe un clasificador que sea óptimo en todos los dominios?. Teorema de Bayes. Teorema No Free Lunch. Teorema de Pitágoras. Teorema del Gradiente.

¿Cuál de los siguientes NO es un método básico de metaclasificación?. Fusión de etiquetas. Stacking. DBSCAN. Cascada.

¿Qué método de metaclasificación usa un clasificador adicional para aprender a combinar las salidas de los clasificadores base?. Bagging. Boosting. Stacking. Voto por mayoría.

¿Qué característica deben tener los clasificadores base para que la combinación mediante metaclasificadores mejore el rendimiento?. Todos deben ser idénticos. Deben ser razonablemente precisos y cometer errores distintos (diversidad). Deben ser muy simples. Deben usar el mismo conjunto de datos de entrenamiento.

¿Qué problema resuelve el entrenamiento "greedy layer-wise"?. El problema de la pérdida de información. El problema del gradiente desvanecido en redes profundas. El problema del sobreajuste. La normalización de datos.

¿Cuál es la función de activación utilizada en AlexNet?. Sigmoid. Tanh. ReLU. Softmax.

¿Qué estructura tiene una CNN tradicional?. Capas secuenciales de convolución seguidas de capas densas. Árbol de decisión con capas convolucionales. Redes recurrentes con atención. Red con únicamente perceptrones multicapa.

¿Qué modelo se caracteriza por usar módulos "Inception" que aplican múltiples filtros simultáneamente?. AlexNet. VGG. GoogleLeNet. ResNet.

¿Qué ventaja tiene la Depthwise Separable Convolution usada en Xception?. Mezcla canales y posiciones espaciales simultáneamente. Reduce el número de conexiones y hace el modelo más ligero. No requiere entrenamiento. Aumenta la complejidad computacional.

¿Qué es un bloque residual en ResNet?. Un bloque con capas que tienen conexiones directas de entrada a salida para evitar degradación del gradiente. Un tipo de capa recurrente. Un método para preprocesar datos. Un algoritmo de clustering.

¿Cuál es el objetivo principal de las redes WideResNet?. Incrementar la profundidad para mejorar precisión. Incrementar la anchura y reducir la profundidad para mejorar la precisión y eficiencia. Reemplazar convoluciones por MLPs. Eliminar conexiones residuales.

¿Cuál es una diferencia clave entre MLP-Mixer y ConvMixer?. MLP-Mixer usa solo perceptrones multicapa, ConvMixer usa convoluciones. MLP-Mixer usa convoluciones, ConvMixer usa redes recurrentes. Ambos usan únicamente capas densas. Ninguno usa mecanismos de atención.

¿Qué tipo de datos utiliza el aprendizaje no supervisado?. Datos etiquetados con salidas conocidas. Datos sin etiquetas o salidas conocidas. Solo secuencias temporales. Datos binarios exclusivamente.

¿Cuál de los siguientes algoritmos no supervisados identifica grupos basados en la densidad de los datos?. k-means. DBSCAN. Árboles de decisión. SVM.

¿Qué describe el clustering jerárquico aglomerativo?. Dividir el conjunto de datos en clusters individuales y luego fusionarlos progresivamente. Agrupar puntos aleatoriamente. Crear clusters en base a modelos supervisados. Eliminar clusters según su tamaño.

¿Cuál es una limitación común de k-means?. No funciona con datos numéricos. Solo funciona bien con clusters globulares y varianza similar. Requiere etiquetas para entrenamiento. No tiene parámetros ajustables.

Denunciar Test

▲