Camacho VIU
|
|
Título del Test:
![]() Camacho VIU Descripción: Test camacho |



| Comentarios |
|---|
NO HAY REGISTROS |
|
En inteligencia artificial, el aprendizaje por refuerzo pertenece al campo de: Ninguno de los otros. Metaheurísticas. Sistemas expertos. Aprendizaje automático. Respecto al desarrollo de algoritmos de aprendizaje por refuerzo en el entorno Atari: Pertenecen a la clasificación de model-free. Supone un entorno accesible y bien definido para comparar algoritmos. El agente consiste en una red neuronal convolucional. El entorno viene dado por la pantalla del videojuego. Dada la figura que se muestra a continuación, dentro del ecosistema agente-entorno visto en Atari, se trata de: Entorno. Ninguna de las otras. Estado. Observación. El objetivo de la estrategia del agente es: Que sea lo más aleatoria posible para ayudar a la exploración. Llegar a la estrategia óptima que ejecute una acción en el menor tiempo posible. Alcanzar una estrategia rápidamente, sin importar los valores que se alcanzan. Llegar a la estrategia óptima que maximice la recompensa. Cuál de los siguientes elementos se puede definir como “la estimación de la recompensa esperada a futuro dado un estado, y siguiendo una policy dada”. Discounted Rewards. Función Value. Función Advantadge. Función Q. En los métodos de policy gradients, la exploración viene dada por: El uso de una variable épsilon. Un muestreo de la salida lineal del modelo de la policy. Un muestreo de la distribución de probabilidad de las acciones. Incorporando ruido en la distribución de acciones con correlación temporal. En el algoritmo Actor-Crític, la acción seleccionada en el entrenamiento depende de: Ninguno de los otros. El Actor. El Crític. El Actor y el crític. En el contexto de soluciones de aprendizaje por refuerzo basadas en modelo, y en particular AlphaGo, las etapas secuenciales del algoritmo Montecarlo Tree Search (MCTS) son: Evaluación – Expansión – Backup – Selección. Evaluación – Backup – Expansión – Feedforward. Selección - Evaluación - Expansión – Feedforward. Selección - Expansión - Evaluación – Backup. La ecuación de Bellman: Es una relación recursiva que cumple cualquier función valor. Es una relación recursiva que solo cumple la función valor óptima. Es una relación recursiva que genera estrategias óptimas. Es una relación recursiva que maximiza la recompensa. ¿Cuál de las siguientes afirmaciones es cierta sobre las diferencias entre aprendizaje supervisado (SL) y aprendizaje por refuerzo (RL)?. No hay diferencias. SL itera varias veces sobre el conjunto de entrenamiento y RL, solo una vez. RL simula los datos y en SL vienen dados a priori. RL diseña métodos para datos desconocidos, mientras que en SL vienen dados a priori. ¿Cuál es el objetivo de los métodos en aprendizaje por refuerzo?. Minimizar la recompensa. Maximizar la función de pérdida. Minimizar la estrategia. Maximizar la recompensa. El aprendizaje por refuerzo también se conoce como. Análisis predictivo. Análisis transductivo. Análisis deductivo. Análisis prescriptivo. ¿En qué algoritmo se usa una tabla para guardar valores de la función acción-valor por cada par estado-acción?. Deep Q-Network. Q-learning. Proximal policy optimization. Policy gradient. ¿Cuál de las siguientes afirmaciones es correcta?. En aprendizaje por refuerzo se ajusta una función con ejemplos anotados de un dataset pre-existente. En aprendizaje por refuerzo se asigna un valor para determinar la bondad de un estado. Los entornos de aprendizaje por refuerzo siempre se programan en Gym. Los métodos de aprendizaje por refuerzo aprenden las relaciones inherentes entre muestras del conjunto de datos. El parámetro gamma del beneficio esperado con descuento: Hace que el agente sea ‘miope’ al tender a 1. Solo se utiliza durante la explotación. Ayuda a estabilizar el entrenamiento añadiendo una regularización. Genera un compromiso entre recompensas inmediatas y futuras. ¿A qué nos referimos como la función acción-valor en aprendizaje por refuerzo?. La recompensa esperada tras tomar una acción. La probabilidad de tomar una acción. La recompensa inmediata de una acción. La probabilidad de explorar una acción. ¿En qué consisten los métodos basados en estrategia (policy-based)?. En métodos que usan una estrategia para tomar decisiones. En métodos cuya estrategia está determinada a priori. En métodos que ajustan la estrategia directamente. En métodos que usan un conjunto de reglas para el entorno. ¿Qué ventaja genera considerar nuestro sistema como un proceso de decisión de Markov o MDP?. Que la estrategia sería un proceso estocástico. Que nos permite usar funciones de distribución paramétricas. Que la dinámica del sistema viene determinada por el estado y la acción anteriores. Que la estrategia puede ser una función determinista. En aprendizaje por refuerzo, ¿qué elementos representan el entorno?. Los datos que se usan para entrenar el agente. El conjunto de acciones disponibles. La simulación donde vive el agente. La arquitectura del modelo. ¿Cuál es la ventaja de tener una estrategia determinista en el algoritmo DDPG?. Estabiliza el entrenamiento. Reduce la complejidad del entrenamiento. Facilita la exploración. Mejora el beneficio esperado. ¿Cuál es el beneficio de añadir una función clip() en el método proximal policy optimization (PPO)?. Se evita calcular la divergencia KL. Se garantiza un conjunto de acciones continuas. Se evita usar experiencias generadas con otras estrategias. Se garantiza una secuencia de estrategias con un beneficio que crece monótonamente. ¿Qué ventaja ofrece DQN sobre calcular directamente la tabla de valores Q en Q-learning?. DQN es más rápido. DQN permite seguir una estrategia ϵ-greedy. DQN puede trabajar mejor con dimensiones de entrada mayores. DQN es más eficiente con los datos. ¿Cómo denominamos al proceso en que el agente toma la acción que maximiza la recompensa según la estrategia?. Exploración. Explotación. Generalization. Optimización de la estrategia. En el método de AlphaGo Zero: El modelo aprendido sirve para calcular la siguiente acción. La estrategia toma la acción que maximiza la probabilidad de ganar la partida. Se combina una función valor y la estrategia para hacer la planificación. Se maximiza el beneficio esperado. ¿Qué es la estrategia?. Una serie de reglas que el agente debe seguir. La función que entrena al agente. La función que determina el movimiento del agente. Un paradigma de aprendizaje basado en la planificación. ¿Cuál es una diferencia fundamental entre los algoritmos Vanilla Policy Gradient (VPG) y A3C?. VPG utiliza un único agente y no aprovecha el paralelismo, mientras que A3C emplea múltiples versiones del agente para entrenar de forma asincrónica. A3C se centra en políticas estocásticas, mientras que VPG se enfoca en políticas deterministas. A3C es un algoritmo de interacción multiagente de forma asíncrona. A3C utiliza arquitecturas de red neuronal más simples en comparación con VPG, lo que acelera el proceso de entrenamiento. El proceso conocido como Explotación: Se mantiene cierto grado de exploración para acumular más experiencia. El agente ha concluido el entrenamiento y está listo para ser usado en producción. La acción realizada será la que maximice la recompensa a futuro. El agente ha explorado el tiempo suficiente para acumular experiencia y entrenar el agente. Respecto a las metodologías de deep reinforcement learning, indique qué afirmación es verdadera: El agente basa su aprendizaje en la interacción agente-entorno, lo cual requiere desarrollar una implementación detallada del entorno. El algoritmo de entrenamiento y la gestión de la memoria son necesarios tras el entrenamiento para la fase de deployment. El agente basa su aprendizaje en un buen conocimiento a priori de las dinámicas del entorno. Gracias a la información proporcionada por el entorno, el entrenamiento de soluciones basadas en deep learning necesita un menor control (hiperparámetros) que métodos supervisados. Los algoritmos de Actor-Critic básico y A2C se diferencian en: A2C emplea redes neuronales. A2C lanza múltiples procesos que actualizan los pesos del actor y critic asíncronamente. A2C utiliza la función ventaja, que ayuda a estabilizar el entrenamiento. Todas son ciertas. Durante el entrenamiento de un agente basado en DQN, típicamente: Las pérdidas obtenidas disminuyen progresivamente hasta alcanzar un mínimo local. El error en la estimación de Q disminuye durante todo el entrenamiento. El valor de Q estimado aumenta hasta converger en un máximo local. La duración de las trayectorias se mantiene estable gracias a la exploración. La idea que subyace a los algoritmos de Policy Gradients es: Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un par estado-acción, podrá seleccionar la mejor acción. Aumentar la probabilidad de las acciones que proporcionan una mayor ganancia en la interacción agente-entorno. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un estado, podrá seleccionar la mejor acción. Seguir una estrategia on-policy proporciona una mejor estimación de la función Q, lo cual lleva a seleccionar mejores acciones siguiendo una política voraz. Dado un algoritmo de aprendizaje por refuerzo basado en PG y 4 acciones mutuamente excluyentes, la policy proporcionada, p(a|s), a la salida del modelo, puede presentar la siguiente distribución: [1]. [0.6, 0.2, 0.3, 0.0]. [0.2, 0.4, 0.2, 0.2]. [10, 20, 120, 10]. Respecto a los sistemas de clasificación de algoritmos de aprendizaje por refuerzo: Los algoritmos model-based se complementan con el uso de soluciones model-free. Todas las opciones son correctas. Los algoritmos model-free on-policy solo emplean la experiencia pasada de una estrategia específica. La gestión de la memoria permite diferenciar a los algoritmos según su estrategia seguida. Indiqué que algoritmos de PG tiene como objetivo paliar la ineficacia en el uso de la memoria: DDPG y PPO. PPO. DQN. A3C y A2C. Respecto al algoritmo PPO-CLIP: Introduce un clip sobre la divergencia KL para limitar cambios drásticos. Si una acción ha sido buena (value mayor que 0), entonces permite actualizaciones grandes si la probabilidad de dicha acción disminuye. Limita la actualización de policies cuya probabilidad aumenta considerablemente y la acción fue ventajosa. Si una acción ha sido mala (value menor que 0), entonces permite actualizaciones grandes de la policy. Indiqué qué función de activación es más característica de una DNN diseñada para entrenar un algoritmo de DQN es: Sigmoid. Linear. Softmax. Tanh. Cuando se habla de un algoritmo model-based, se asume la disponibilidad de: El uso de técnicas de metaheurística durante inferencia. Un modelo capaz de modelar transiciones y funciones de recompensa del entorno. Un modelo del entorno conocido a priori. Un modelo capaz de predecir transiciones estado-acción-estado. Uno de los principales retos en la actualidad del aprendizaje por refuerzo es: Encontrar casos de uso que superen métodos más simples asentados en la actualidad. El desarrollo de redes neuronales profundas capaces de extraer características ricas del entorno. Desarrollo de soluciones en entornos puramente digitales. Desarrollar metodologías capaces de combinar arquitecturas de aprendizaje profundo con aproximaciones clásicas de aprendizaje por refuerzo. A partir de la imagen que se muestra en pantalla, en una simulación tipo Atari trabajada en la asignatura, a qué componente del entrenamiento se asocia: Experiencia. Simulación. Observación. Entorno. Respecto al algoritmo DDPG: Emplea una experiencia obtenida mediante múltiples policies. Al ser híbrido, ajusta el critic con los discounted rewards. Todas son correctas. Solo permite modelar espacios de acciones continuos. Acerca de DQN, indiqué qué afirmación es incorrecta: Sigue una estrategia off-policy mediante experience replay. Tiene como objetivo aproximar la mejor estimación de la recompensa esperada a futuro dado un par estado-acción. Emplea una target network del value para estabilizar el entrenamiento. Se fundamenta en el uso de una política voraz y emplea la ecuación de Bellman como función de optimización. Respecto a las policies proporcionadas por los principales algoritmos de aprendizaje por refuerzo vistos en la asignatura, en el contexto de espacio de acciones discretas: Los algoritmos PG permiten obtener directamente policies deterministas a la salida del actor. La función de activación en PG crea policies estocásticas. El modelo en DQN base ofrece policies estocásticas al no usar función de activación. El uso de una política voraz permite obtener policies deterministas. Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basados en la optimización de la estrategia: Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Uno de los de subtipos de enfoques es Q-learning. Dicha clasificación se basa en la forma de gestionar la experiencia. Respecto al proceso de exploración: Se puede realizar tanto previamente, como durante el entrenamiento. Favorece la velocidad de convergencia del modelo del agente durante el entrenamiento. Tiene como objetivo mejorar el conocimiento del entorno siguiendo políticas voraces. Todas las opciones son correctas. Respecto a los discounted rewards de una trayectoria dada: Si gamma tiende a 0, es equivalente a la recompensa acumulada a futuro. Cumplen la propiedad de recursividad para cualquier iteración. El discounted reward es un hiperparámetro que se fija a cualquier valor real, mayor que cero. Emplea un valor gamma que se disminuye durante el entrenamiento de forma progresiva. El objetivo de emplear una función baseline en PG es: Estabilizar la convergencia del critic. Estabilizar la convergencia del actor. Mejorar la eficiencia en el uso de los discounted rewards. Mejorar la eficiencia del uso de datos en la trayectoria. ¿Qué ventaja ofrece DQN sobre calcular directamente la tabla de valores Q en Q-learning?. DQN es más rápido. DQN permite seguir una estrategia $\epsilon$-greedy. DQN puede trabajar mejor con dimensiones de entrada mayores. DQN es más eficiente con los datos. En los métodos de policy gradients, la exploración viene dada por: El uso de una variable épsilon. Un muestreo de la salida lineal del modelo de la policy. Incorporando ruido en la distribución de acciones con correlación temporal. Un muestreo de la distribución de probabilidad de las acciones. En los algoritmos A2C y A3C. Resuelven la ineficacia de las muestras recolectadas. Se utiliza una target network para estimar el value. Son algoritmos multi-agente y multi-proceso. Favorecen la exploración de trayectorias heterogéneas. La arquitectura de Deep Learning más utilizada hoy en día en algoritmos de aprendizaje por refuerzo es: Transformers. Arquitectura Convolucional. Arquitectura Feed-Forward. Arquitectura Recurrente. Cuando trabajamos en un enfoque model-based, el modelo se refiere a: El modelo que utliza el agente para preprocesar los datos de entrada. El modelo que utliza el agente para estimar qué acción seleccionar. Una arquitectura CNN que el agente usa durante las iteraciones. El modelo que define las dinámicas del entorno y que el agente utiliza durante el proceso de aprendizaje. En su definición base, una Transición está compuesta de: Estado, Acción, Recompensa. Acción, Recompensa. Estado, Acción. Estado, Acción, Recompensa, Siguientes Estado. |




