Test AC IA
|
|
Título del Test:
![]() Test AC IA Descripción: test AC pero de gemini |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Según la definición de Tom Mitchell, un programa aprende si. Su rendimiento en la tarea T, medido por P, mejora con la experiencia E. Es capaz de programarse a sí mismo sin intervención humana inicial. Modifica su hardware para adaptarse a los datos de entrada. ¿Cuál de los siguientes es un ejemplo de Aprendizaje Supervisado?. Agrupar clientes en segmentos de mercado según sus compras (Clustering). Enseñar a un robot a caminar mediante premios y castigos (Refuerzo). Predecir el precio de una casa basándose en su tamaño y ubicación (Regresión). El sesgo inductivo (inductive bias) es: El error producido por tener pocos datos. El conjunto de asunciones que hace el algoritmo para poder generalizar a partir de los ejemplos observados. La tendencia del algoritmo a memorizar los datos de entrenamiento. En el algoritmo ID3, ¿qué estrategia de búsqueda se utiliza?. Búsqueda en anchura (BFS) con backtracking. Búsqueda top-down de tipo greedy (voraz) sin backtracking. Búsqueda aleatoria. La Entropía es una medida de: La pureza de un conjunto de ejemplos (es 0 si todos son de la misma clase). El error cuadrático medio. La distancia entre dos atributos. ¿Por qué se prefiere el Ratio de Ganancia (Gain Ratio) frente a la Ganancia de Información simple?. Porque es más fácil de calcular. Porque la Ganancia de Información tiende a favorecer atributos con muchos valores posibles (ej. fecha o ID). Porque el Ratio de Ganancia asegura que el árbol será binario. El sobreaprendizaje (overfitting) en árboles de decisión ocurre cuando: El árbol es demasiado simple y no captura la estructura de los datos. El árbol crece demasiado, ajustándose al ruido o a coincidencias aleatorias de los datos de entrenamiento. Se utiliza la poda (pruning) demasiado pronto. En el algoritmo CART para árboles de regresión, ¿qué medida de error se minimiza?. La entropía. La suma de diferencias cuadráticas (error cuadrático). El índice Gini. La poda (pruning) de un árbol tiene como objetivo: Aumentar la precisión en el conjunto de entrenamiento. Mejorar la capacidad de generalización simplificando el modelo. Convertir atributos continuos en discretos. ¿Cómo trata C4.5 (evolución de ID3) los atributos continuos?. No puede tratarlos, solo acepta discretos. Crea un umbral c dinámico que divide los datos en A < c y A >= c. Ignora los atributos continuos durante el entrenamiento. En la poda coste-complejidad de CART, el parámetro 'alpha' controla: La profundidad máxima del árbol. El compromiso (trade-off) entre el error de entrenamiento y el tamaño (complejidad) del árbol. El número de atributos a considerar en cada nodo. Si un nodo hoja en un árbol de clasificación no es puro (contiene ejemplos de varias clases), ¿cómo se clasifica un nuevo ejemplo que cae ahí?. Se devuelve la clase mayoritaria en ese nodo. No se puede clasificar (valor nulo). Se devuelve una clase aleatoria. ¿Qué medida de impureza utiliza habitualmente CART para clasificación?. Ganancia de Información. Índice Gini. Distancia Euclídea. El objetivo principal del Clustering es: Predecir una variable objetivo continua. Encontrar una partición de los datos en grupos (clústeres) tal que los elementos de un grupo sean similares entre sí y diferentes a los de otros grupos. Reducir el número de variables eliminando las irrelevantes. En el algoritmo K-Medias (K-Means), el resultado final: Es siempre el mismo, independientemente de la inicialización. Depende de la inicialización aleatoria de los centroides (puede caer en mínimos locales). Determina automáticamente el número óptimo de clústeres k. ¿Qué hace el Clustering Jerárquico Aglutinador (Agglomerative)?. Empieza con un solo grupo gigante y lo va dividiendo. Empieza con cada punto siendo su propio clúster y va fusionando los más cercanos. Asigna puntos aleatoriamente y luego los ajusta. En el clustering jerárquico, la distancia "Single Link" (Enlace Simple) entre dos grupos se define como: La distancia entre los dos puntos más lejanos de ambos grupos. La distancia entre los centroides de ambos grupos. La distancia entre los dos puntos más cercanos de ambos grupos. El algoritmo EM (Esperanza-Maximización) se utiliza para: Clustering probabilista (ej. mezcla de gaussianas) donde se estiman parámetros de variables ocultas. Crear árboles de decisión deterministas. Calcular la distancia euclídea exacta. ¿Qué caracteriza al Clustering basado en Densidad (como DBSCAN)?. Asume que los clústeres son siempre esféricos. Define clústeres como regiones de alta densidad de puntos separadas por regiones de baja densidad. Necesita que le especifiquemos el número $k$ de clústeres a priori. ¿Cómo podemos estimar el número adecuado de clústeres (k)?. El algoritmo siempre lo sabe automáticamente. Buscando un "codo" (elbow) en la gráfica del error de reconstrucción vs el número de clústeres. Siempre debe ser igual al número de variables. En el clustering difuso (Fuzzy Clustering): Un punto pertenece exclusivamente a un único clúster. Un punto puede pertenecer a varios clústeres con distintos grados de pertenencia. Los centroides son fijos y no se mueven. Una aplicación típica del clustering es: La compresión de imágenes (cuantización de colores). La predicción del tiempo atmosférico. El juego de las damas. El dendrograma es: Un gráfico para visualizar el error en redes neuronales. Una representación gráfica en forma de árbol del resultado de un clustering jerárquico. Un tipo de neurona artificial. Según el Teorema de Bayes, la probabilidad posterior P(h|D) es proporcional a: La verosimilitud P(D|h) multiplicada por la probabilidad previa P(h). La verosimilitud P(D|h) dividida por la probabilidad previa P(h). Simplemente la verosimilitud P(D|h). La hipótesis MAP (Máxima A Posteriori) busca: Maximizar solo P(D|h) (verosimilitud). Maximizar P(D|h) P(h). Minimizar el error cuadrático. El clasificador Naïve Bayes se llama "ingenuo" (naive) porque: Es un algoritmo muy simple que no funciona bien. Asume que los atributos son condicionalmente independientes dada la clase. No utiliza probabilidades reales. En Naïve Bayes, si la probabilidad previa de una clase P(v_j) es muy baja: No afecta a la predicción. Hará que sea menos probable que el clasificador prediga esa clase, a menos que la evidencia P(D|v_j) sea muy fuerte. El algoritmo fallará. Para atributos continuos en Naïve Bayes, normalmente se asume: Una distribución uniforme. Una distribución Gaussiana (Normal) para cada atributo dado la clase. Que se deben discretizar obligatoriamente. ¿Cuál es una ventaja principal de Naïve Bayes?. Modela perfectamente las interacciones complejas entre atributos. Es muy eficiente computacionalmente y robusto a datos irrelevantes. No requiere datos de entrenamiento. Si en un problema de clasificación tenemos información previa fiable sobre la frecuencia de las clases (ej: el cáncer afecta al 1% de la población): Debemos ignorarla para no sesgar el modelo. Debemos incorporarla como Probabilidad Previa $P(h)$ en el modelo Bayesiano. Debemos usar una red neuronal. En una validación cruzada de k-pliegues (k-fold cross-validation) con k=10: Se divide el conjunto en 10 partes y se entrena 10 veces, usando cada vez una parte distinta para validar. Se entrena con el 10% de los datos y se valida con el 90%. Se repite el experimento 10 veces con divisiones aleatorias 70/30. La matriz de confusión sirve para: Confundir al adversario en juegos. Visualizar el desempeño de un algoritmo, mostrando verdaderos positivos, falsos positivos, etc. Calcular la distancia entre clústeres. El test de McNemar se utiliza para: Comparar si dos clasificadores tienen tasas de error significativamente diferentes. Calcular la entropía de un árbol. Inicializar los pesos de una red neuronal. La Curva ROC representa: Precisión vs Recall. Tasa de Verdaderos Positivos vs Tasa de Falsos Positivos. Error de entrenamiento vs Error de validación. ¿Qué conjunto de datos se debe usar para ajustar los hiperparámetros (tuning)?. El conjunto de Test. El conjunto de Validación. El conjunto de Entrenamiento (el mismo que para los pesos). El Perceptrón simple solo puede resolver problemas que sean: Linealmente separables. Polinómicos. De clustering. El algoritmo Backpropagation (Retropropagación) se basa en: El descenso por gradiente (Gradient Descent) para minimizar el error. Búsqueda genética. Fuerza bruta. ¿Qué función de activación es necesaria en capas ocultas para que un Perceptrón Multicapa (MLP) pueda aprender funciones no lineales?. Lineal (y=x). Sigmoide, Tanh o ReLU (No lineal). Escalón unitario. El término "Momentum" en el entrenamiento de redes neuronales sirve para: Aumentar la velocidad del procesador. Acelerar la convergencia y evitar oscilaciones en mínimos locales usando la inercia de actualizaciones previas. Reducir el número de neuronas. Los Mapas Autoorganizativos (SOM) de Kohonen son un tipo de red: Supervisada. No supervisada (competitiva). Recurrente. Una red neuronal convolucional (CNN) es especialmente útil para: Datos tabulares financieros. Procesamiento de imágenes y reconocimiento de patrones visuales. Regresión lineal simple. El Análisis de Componentes Principales (PCA) es una técnica de: Selección de características (Feature Selection). Extracción de características (Feature Extraction) no supervisada. Clasificación supervisada. En PCA, el primer componente principal es: La dirección de menor varianza de los datos. La dirección de mayor varianza de los datos. La media de los datos. La "Selección hacia delante" (Forward Selection) consiste en: Empezar con todas las variables e ir eliminando las peores. Empezar sin variables e ir añadiendo la que más mejora el modelo iterativamente. Transformar las variables con PCA. La maldición de la dimensionalidad indica que: Al aumentar el número de dimensiones, necesitamos exponencialmente más datos para generalizar bien. Cuantas más dimensiones, más fácil es el problema. Los ordenadores no pueden procesar más de 3 dimensiones. ¿Qué técnica se puede usar para tratar valores perdidos (missing values)?. Eliminar la tupla completa. Imputar el valor (ej. con la media o mediante predicción). Ambas son correctas. Un "outlier" es: Un valor que falta. Un dato atípico que se desvía significativamente del resto de la distribución. Una variable categórica. La normalización Min-Max escala los datos al rango: [0, 1]. Media 0 y varianza 1. [- infinito, + infinito]. Si tuviéramos un dataset con 100.000 correos electrónicos para detectar SPAM (Clasificación Binaria), ¿Qué algoritmo sería rápido y efectivo como primera aproximación (baseline)?. Red Neuronal Profunda de 50 capas. Naïve Bayes. Clustering Jerárquico. En un árbol de decisión, cuanto más arriba está un atributo: Menos importante es. Mayor ganancia de información aporta (mejor clasifica por sí solo). Más valores distintos tiene. ¿Qué algoritmo utilizarías para segmentar a los clientes de un supermercado sin tener etiquetas previas?. K-Medias (Clustering). SVM (Support Vector Machine). Regresión Lineal. En una red neuronal, si el error de entrenamiento baja mucho pero el de validación sube, estamos ante: Underfitting. Overfitting. Convergencia óptima. El índice Gini en árboles de decisión alcanza su valor máximo cuando: Todos los elementos del nodo son de la misma clase (pureza máxima). Los elementos están equitativamente repartidos entre todas las clases (máxima impureza). No hay elementos en el nodo. ¿Qué diferencia principal hay entre PCA y LDA (Linear Discriminant Analysis)?. PCA es supervisado y LDA no. PCA es no supervisado (busca varianza) y LDA es supervisado (busca separar clases). Son lo mismo. ¿Qué es el "vanishing gradient" (gradiente desvaneciente)?. Cuando el gradiente se hace tan pequeño en redes profundas que las primeras capas dejan de aprender. Cuando el error llega a cero. Cuando el gradiente explota a infinito. En el algoritmo "Candidate Elimination" (Version Space), si llega un ejemplo positivo: Se generaliza la hipótesis específica (S). Se especializa la hipótesis general (G). No se hace nada. ¿Qué es un atributo irrelevante para un árbol de decisión?. Uno que tiene ganancia de información cercana a 0. Uno que es numérico. El que se elige primero. En una regresión lineal y = wx + w_0, el objetivo es encontrar w y w_0 que: Maximicen la probabilidad de la clase. Minimicen la suma de errores cuadráticos entre la predicción y el valor real. Maximicen la entropía. El bootstrapping es una técnica de: Muestreo con reemplazamiento. Poda de árboles. Inicialización de pesos. Si un clasificador predice probabilidades, ¿qué umbral de decisión por defecto se suele usar para clasificación binaria?. 0.9. 0.5. 0.1. |





