Inteligencia Artificial Avanzada
|
|
Título del Test:
![]() Inteligencia Artificial Avanzada Descripción: Segundo Parcial - Siglo XXI |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Qué característica define al algoritmo AdaBoost?. No permite la combinación de múltiples modelos. Ajusta los pesos de las instancias en cada iteración. Un analista inmobiliario necesita desarrollar un modelo preciso para predicción de precios de viviendas con relaciones no lineales complejas. ¿Qué técnica debe utilizar?. Regresión lineal simple. Aplicar Gradient Boosting con árboles de decisión. ¿Qué función cumplen las conexiones de salto (skip connections) en la arquitectura Transformer?. Reducir la dimensionalidad de los embeddings. Combinar la información original con la procesada para preservar información y estabilizar el gradiente. Enmascarar tokens futuros en el decodificador. En el aprendizaje por refuerzo, todas las acciones deben llevar necesariamente a una recompensa positiva. Falso. Verdadero. Un meteorólogo analiza datos de temperatura con mucho ruido. ¿Qué técnica debe aplicar para identificar la tendencia subyacente?. Aplicar diferenciación para estabilizar la serie. Usar el método Naive con el último valor. Aplicar suavizado exponencial para reducir el ruido. ¿Qué representa una época en el entrenamiento de una CNN?. Un lote (batch) de imágenes procesadas en paralelo. Una iteración del optimizador sobre un mini-batch. Un ciclo completo de procesamiento de todos los datos de entrenamiento. ¿Cuál es el objetivo principal de la atención multi-head en los Transformers?. Reducir el número de parámetros del modelo. Permitir un procesamiento paralelo capturando distintos tipos de relaciones simultáneamente. Enmascarar los tokens futuros durante la generación. Selecciona las 3 opciones correctas. ¿Qué componentes principales incluye un modelo ARIMA?. Media móvil (MA). Autoregresivo (AR). Integrado (I) - diferenciación. Estacional (S). Suavizado exponencial (SE). ¿Qué arquitectura RNN es más adecuada para traducción automática?. One-to-One. Many-to-One. Many-to-Many. Un servicio de música enfrenta problemas de escalabilidad con su sistema de recomendación basado en usuarios. ¿Qué modificación debe realizar?. Usar solo datos recientes. Simplificar el algoritmo actual. Cambiar a filtrado colaborativo basado en ítems. En una RNN para predicción de temperatura, ¿qué representa el estado oculto h?. El valor de temperatura predicho para el siguiente paso. La tasa de aprendizaje del modelo en cada iteración. La memoria de patrones temporales previos acumulada a lo largo de la secuencia. Un chatbot de servicio al cliente debe aprender a mantener conversaciones efectivas. ¿Qué tipo de política es más apropiada?. Política determinista fija que siempre da la misma respuesta. Política basada en reglas sin aprendizaje. Implementar una política estocástica con ajuste dinámico. Selecciona las 4 opciones correctas. ¿Cuáles son las principales áreas donde se utilizan las LSTM para procesamiento de lenguaje natural?. Reconocimiento de voz a texto. Traducción automática de textos. Compresión de archivos de texto. Modelado de lenguaje y gramática. Generación de resúmenes. ¿Qué caracteriza al sistema de filtrado colaborativo?. Se basa en las características del contenido del artículo. Usa reglas explícitas definidas por expertos del dominio. Se basa en las preferencias de usuarios similares para hacer recomendaciones. ¿Cuál es el principio fundamental del aprendizaje ensamblado?. Entrenar un único modelo muy profundo con muchos parámetros. Combinar múltiples predictores para obtener un meta predictor con mejor rendimiento de generalización que cada uno individual. Reducir la complejidad del modelo para mejorar la interpretabilidad. Una plataforma de streaming quiere recomendar películas a nuevos usuarios sin historial usando imágenes de pósters. ¿Qué combinación es más apropiada?. Solo filtrado colaborativo basado en usuarios. CNN para extraer características visuales + sistema basado en contenido, resolviendo el cold start. Solo LSTM para analizar secuencias de visualización. ¿Por qué el algoritmo DQN (Deep Q-Network) usa redes neuronales profundas en lugar de una tabla Q tradicional?. Porque las redes neuronales son más rápidas de entrenar que tablas. Porque el espacio de estados es demasiado grande para una tabla; la red neuronal aproxima Q(s,a) para estados no vistos previamente. Porque las redes neuronales no requieren definir la función de recompensa. Durante el entrenamiento de una CNN para reconocimiento facial, se observa 99% de precisión en entrenamiento pero 75% en validación. ¿Qué estrategia será más efectiva?. Aumentar la tasa de aprendizaje. Reducir el número de épocas de entrenamiento. Añadir capas de dropout y aumentar el pooling. ¿Qué valores representan un píxel blanco en el modelo RGB antes de la normalización?. (255, 0, 0). (0, 0, 0). (255, 255, 255). Una CNN para clasificación de objetos alcanza solo 60% de precisión tanto en entrenamiento como en validación. ¿Cuál es el diagnóstico y la solución?. Sobreajuste; aplicar dropout. Subajuste (alto sesgo); aumentar profundidad o capacidad del modelo. Subajuste; reducir la tasa de aprendizaje. Un equipo necesita que su CNN mantenga el mismo tamaño espacial de salida que la entrada. ¿Qué técnica debe aplicar?. Aumentar el stride a 2. Aplicar zero-padding alrededor de la imagen. Reducir el tamaño del kernel. ¿Por qué se aplica ReLU después de cada capa convolucional en una CNN?. Para introducir no linealidad; sin ella la red profunda se comportaría como una única capa lineal. Para reducir el tamaño del mapa de características. Para normalizar los valores al rango [0,1]. En una CNN con salida de capas convolucionales de forma 5x5x64, ¿cuántos elementos tendrá el vector resultante después del Flatten?. 65. 25. 1600. ¿En qué capa de una CNN para clasificación multiclase se usa Softmax y por qué?. En todas las capas ocultas para mantener valores positivos. Solo en la primera capa para normalizar la entrada. En la capa de salida para convertir logits en probabilidades que sumen 1. La normalización de los valores de píxeles al rango [0,1] es opcional y no afecta el rendimiento del entrenamiento. Falso. Verdadero. Un modelo RNN para predecir consumo de energía muestra patrones oscilatorios en sus predicciones, mientras que los datos reales son más suaves. El modelo usa una ventana de 24 horas. ¿Qué modificación será más apropiada?. Aumentar la tasa de aprendizaje. Cambiar la función de activación. Aumentar la ventana móvil. ¿Qué arquitectura RNN es más apropiada para análisis de sentimiento de texto?. None-to-One. Many-to-One. One-to-One. ¿Qué desafío principal enfrenta el algoritmo BPTT en secuencias largas?. Desvanecimiento del gradiente. Complejidad del código. Falta de datos. El algoritmo BPTT es idéntico al backpropagation tradicional en términos de cómo se propagan los gradientes. ¿Verdadero o falso?. Verdadero, ambos propagan el error solo a través de las capas. Falso; BPTT propaga el error a través de las capas Y de cada paso temporal, lo que puede causar gradiente que se desvanece o explota. Falso; BPTT no usa gradientes. ¿Cuáles son las compuertas principales en una arquitectura LSTM?. Compuerta de entrada, salida, olvido, actualización y reset. Compuerta de entrada, olvido y salida. Compuerta de entrada, salida, olvido y actualización. Selecciona las 4 opciones correctas. ¿Qué componentes forman parte de la arquitectura básica de una LSTM?. Compuerta de olvido. Compuerta de salida. Compuerta de entrada. Compuerta de reinicio. Celda de memoria. ¿Qué problema de las RNN básicas resuelve la arquitectura LSTM?. El sobreajuste en secuencias cortas. El gradiente que se desvanece y la memoria limitada a largo plazo, mediante compuertas que controlan qué información retener o descartar. El procesamiento secuencial que impide la paralelización. Un equipo necesita procesar secuencias largas con recursos computacionales limitados. ¿LSTM o GRU?. RNN básica, por su simplicidad. CNN, por su eficiencia. GRU, porque logra resultados similares a LSTM con menos parámetros y entrenamiento más rápido. Un científico de datos está desarrollando un modelo Transformer para generar texto. ¿Qué componente del decodificador será más relevante para esta aplicación?. Atención enmascarada. Atención cruzada. Procesamiento feedforward. Un ingeniero de IA necesita desarrollar un modelo Transformer para asistente virtual de lenguaje natural. ¿Qué característica de la arquitectura será más relevante?. Atención multi-head. Conexiones de salto. Atención enmascarada. Atención cruzada. ¿Qué objetivo cumple la codificación posicional en la arquitectura Transformer?. Mantener la información sobre el orden de las palabras. Transformar los datos de entrada en valores numéricos. Generar embeddings a partir de la tokenización. ¿Cuál es la principal ventaja del Transformer sobre LSTM para textos largos?. Procesa toda la secuencia en paralelo y captura dependencias largas directamente mediante autoatención, sin degradación del gradiente. Funciona mejor con vocabularios pequeños. Es más fácil de interpretar. ¿Cuál arquitectura es MÁS adecuada para clasificar imágenes de rayos X?. CNN, por estar especializada en datos con estructura espacial. Transformer, por su procesamiento paralelo. LSTM, por su memoria a largo plazo. ¿Qué arquitectura es MÁS adecuada para un modelo de lenguaje que procesa documentos de miles de palabras?. RNN básica. LSTM. Transformer. Un equipo de marketing necesita mejorar la precisión de su modelo de predicción de clientes potenciales, que actualmente tiene un alto sesgo. ¿Qué estrategia es más efectiva?. Cambiar a un modelo lineal. Implementar un algoritmo de Boosting secuencial. Aumentar el tamaño del conjunto de datos. Un analista de datos observa alta variabilidad en las predicciones de su modelo de clasificación. ¿Qué técnica es más apropiada para reducir esta variabilidad sin perder capacidad predictiva?. Simplificar el modelo actual. Aplicar técnicas de Bagging con árboles de decisión. Eliminar los datos atípicos. ¿Cuál es el objetivo principal del Gradient Boosting?. Construir modelos secuenciales que corrigen errores de modelos previos mediante descenso del gradiente. Maximizar la velocidad de entrenamiento del modelo en el proceso de ajuste. Simplificar la estructura del modelo final para mejorar la interpretabilidad. ¿Cuál es la diferencia entre AdaBoost y Gradient Boosting?. AdaBoost ajusta pesos de ejemplos mal clasificados; Gradient Boosting ajusta residuos mediante descenso de gradiente. No hay diferencia, son el mismo algoritmo con distinto nombre. AdaBoost es para regresión; Gradient Boosting para clasificación. ¿Qué característica adicional incorpora Random Forest respecto al Bagging tradicional?. Ponderación de las predicciones finales. Muestreo aleatorio de características en cada división de los árboles. Eliminación de características redundantes. Al implementar un sistema de Boosting para un problema de clasificación de imágenes médicas, ¿qué características son propias de modelos débiles apropiados? (Selecciona 4). Árboles de decisión poco profundos. Clasificadores con reglas sencillas. Modelos lineales básicos. Redes neuronales profundas con múltiples capas. Perceptrones simples. Un equipo tiene 5 modelos distintos entrenados y quiere combinarlos de forma óptima. ¿Qué técnica usar?. Bagging, promediando predicciones. Boosting secuencial. Stacking con meta-modelo que aprende a combinar las predicciones de los 5 modelos. Un analista detecta que sus datos de ventas no son estacionarios. ¿Qué paso inicial debe tomar?. Utilizar solo valores promedio mensuales. Aplicar diferenciación para estabilizar la serie. Descartar los datos más antiguos del conjunto. En ARIMA(p, d, q), ¿qué representa el parámetro 'd'?. El orden de diferenciación para convertir la serie en estacionaria. El número de estaciones del patrón estacional. El orden del componente autoregresivo. Una empresa pronostica ventas de helados con patrón estacional claro y tendencia creciente. ¿Qué modelo es más apropiado?. Holt-Winters, que modela tendencia y estacionalidad simultáneamente. SES (Suavizado Exponencial Simple). ARIMA(1,0,0). ¿Cuándo se debe usar SARIMA en lugar de ARIMA?. Cuando se predicen múltiples series simultáneamente. Cuando la serie presenta patrones estacionales con período fijo y conocido. Cuando el dataset tiene menos de 100 observaciones. Un investigador está desarrollando un agente de juegos que aprende a jugar ajedrez a través de la interacción con el entorno. ¿Qué enfoque de aprendizaje por refuerzo será más apropiado?. Aprendizaje no supervisado. Aprendizaje supervisado. Aprendizaje por refuerzo libre de modelos. Aprendizaje por refuerzo basado en modelos. Un científico de datos está implementando un sistema de detección de fraude bancario basado en aprendizaje por refuerzo. ¿Qué característica de los Procesos de Decisión de Markov (MDP) sería más relevante?. Función de transición de estados. Función de recompensa. Factor de descuento. ¿Qué característica define a un entorno no asociativo en el contexto de Multi-armed Bandits?. Las acciones necesitan conocimiento previo. Las acciones dependen del historial completo. Las acciones son independientes del contexto o estado previo. ¿Cuál es la principal ventaja del algoritmo Q-Learning?. Solo funciona en entornos deterministas. Depende de supervisión humana constante. Requiere un modelo completo del entorno. No requiere un modelo del entorno para aprender. Un agente siempre elige la ruta con mayor Q conocido y nunca explora rutas nuevas. ¿Qué problema presenta?. Sobreajuste. Convergencia prematura a un óptimo local; puede haber rutas mejores no descubiertas. Gradiente que se desvanece. La propiedad de Markov en MDP establece que: El estado futuro depende únicamente del estado presente, no de la historia pasada. La recompensa debe ser siempre positiva. El agente debe explorar todos los estados. Un factor de descuento gamma = 0 significa que el agente considera recompensas inmediatas y futuras con igual importancia. Falsos. Verdadero. Una plataforma de streaming musical observa que sus recomendaciones son técnicamente precisas, pero poco diversas. ¿Qué estrategia debe adoptar?. Implementar un balance entre similitud y diversificación en las recomendaciones. Utilizar solo las canciones más populares. Ignorar los géneros musicales minoritarios. Un nuevo usuario se registra sin historial previo. ¿Qué problema se activa y cómo se aborda?. Ruido blanco; suavizado exponencial. Arranque en frío; pidiendo preferencias iniciales, usando demográficos o recomendando popular. Dispersión; reducción de dimensionalidad. ¿Por qué la correlación de Pearson es preferible a la similitud coseno para medir similitud entre usuarios en sistemas de recomendación?. Es más eficiente computacionalmente. Descuenta el sesgo de calificación de cada usuario, siendo más discriminativa. No requiere que ambos hayan calificado los mismos ítems. Los métodos de filtrado colaborativo basados en memoria construyen un modelo generalizado a partir de los datos de entrenamiento para hacer predicciones. Falso. Verdadero. Un equipo tiene 3 CNNs distintas entrenadas para clasificación de imágenes médicas. ¿Cómo combinarlas para mejorar el rendimiento?. Promediar directamente los pesos de las 3 redes. Aplicar Stacking: usar las predicciones de las 3 CNNs como entrada de un meta-modelo. Usar solo la CNN con mayor precisión individual. Un equipo quiere usar un Transformer para forecasting de series temporales. ¿Qué adaptación principal requiere respecto al uso en NLP?. Agregar codificación posicional temporal y adaptar la atención para capturar dependencias temporales en lugar de lingüísticas. Eliminar la atención multi-head porque no aplica a datos numéricos. Usar siempre ARIMA en lugar de Transformer para series temporales. |





