Aprendizaje por Refuerzo - VIU (Corregido por ChatGPT)
|
|
Título del Test:
![]() Aprendizaje por Refuerzo - VIU (Corregido por ChatGPT) Descripción: Preguntas tests - Usad bajo vuestra propia responsabilidad :) |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Acerca de DQN, indique qué afirmación es incorrecta. Emplea una target network del value para estabilizar el entrenamiento. Se fundamenta en el uso de una política voraz y emplea la ecuación de Bellman como función de optimización. Tiene como objetivo aproximar la mejor estimación de la recompensa esperada a futuro dado un par estado-acción. Sigue una estrategia off-policy mediante experience replay. Uno de los principales retos en la actualidad del aprendizaje por refuerzo es: Desarrollo de soluciones en entornos puramente digitales. El desarrollo de redes neuronales profundas capaces de extraer características ricas del entorno. Desarrollar metodologías capaces de combinar arquitecturas de aprendizaje profundo con aproximaciones clásicas de aprendizaje por refuerzo. Encontrar casos de uso que superen métodos más simples asentados en la actualidad. Cuando se habla de un algoritmo model-based, se asume la disponibilidad de: El uso de técnicas de metaheurística durante inferencia. Un modelo capaz de predecir transiciones estado-acción-estado. Un modelo capaz de modelar transiciones y funciones de recompensa del entorno. Un modelo del entorno conocido. Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basada en la estrategia: Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Dicha clasificación se basa en la forma de gestionar la experiencia. Uno de los subtipos de enfoques es Q-learning. ¿En qué consisten los métodos basados en estrategia (policy-based)?. En métodos cuya estrategia está determinada a priori. En métodos que usan una estrategia para tomar decisiones. En métodos que usan un conjunto de reglas para el entorno. En métodos que ajustan la estrategia directamente. ¿En qué algoritmo se usa una tabla para guardar valores de la función acción-valor por cada par estado-acción?. Q-learning. Policy gradient. Deep Q-Network. Proximal policy optimization. El parámetro gamma del beneficio esperado con descuento: Solo se utiliza durante la explotación. Ayuda a estabilizar el entrenamiento añadiendo una regularización. Hace que el agente sea “miope” al tender a 1. Genera un compromiso entre recompensas inmediatas y futuras. En aprendizaje por refuerzo, ¿qué elementos representan el entorno?. Los datos que se usan para entrenar el agente. La simulación donde vive el agente. La arquitectura del modelo. El conjunto de acciones disponibles. Respecto a los discounted rewards de una trayectoria dada: Cumple la propiedad de recursividad para cualquier iteración. El discounted reward es un hiperparámetro que se fija a cualquier valor real, mayor que cero. Emplea un valor gamma que se disminuye durante el entrenamiento de forma progresiva. Si gamma tiende a 0, es equivalente a la recompensa acumulada a futuro. La ecuación de Bellman: Es una relación recursiva que solo cumple la función valor óptima. Es una relación recursiva que cumple cualquier función valor. Es una relación recursiva que genera estrategias óptimas. Es una relación recursiva que maximiza la recompensa. En el método de AlphaGo Zero: La estrategia toma la acción que maximiza la probabilidad de ganar la partida. El modelo aprendido sirve para calcular la siguiente acción. Se maximiza el beneficio esperado. Se combina una función valor y la estrategia para hacer la planificación. El aprendizaje por refuerzo también se conoce como: Análisis transductivo. Análisis prescriptivo. Análisis predictivo. Análisis deductivo. En el algoritmo Actor-Critic, la acción seleccionada en el entrenamiento depende de: El actor y el crítico. El crítico. Ninguno de los dos. El actor. ¿Qué es la estrategia?. Una serie de reglas que el agente debe seguir. La función que entrena al agente. Un paradigma de aprendizaje basado en la planificación. La función que determina el movimiento del agente. A partir de la imagen que se muestra en pantalla, en una simulación tipo Atari trabajada en la asignatura, ¿a qué componente del entrenamiento se asocia?. Simulación. Experiencia. Observación. Entorno. Los algoritmos de Actor-Critic básico y A2C se diferencian en: A2C emplea redes neuronales. A2C lanza múltiples procesos que actualizan los pesos del actor y crítico asincrónicamente. Todas son ciertas. A2C utiliza la función ventaja, que ayuda a estabilizar el entrenamiento. ¿Qué ventaja genera considerar nuestro sistema como un proceso de decisión de Markov (MDP)?. Que la dinámica del sistema viene determinada por el estado y la acción anteriores. Que nos permite usar funciones de distribución paramétricas. Que la estrategia será un proceso estocástico. Que la estrategia puede ser una función determinista. Respecto al algoritmo PPO-CLIP: Si una acción ha sido mala (value menor que 0), entonces permite actualizaciones grandes de la policy. Introduce un clip sobre la divergencia KL para limitar cambios drásticos. Si una acción ha sido buena (value mayor que 0), entonces permite actualizaciones grandes si la probabilidad de dicha acción disminuye. Limita la actualización de políticas cuya probabilidad aumenta considerablemente y la acción fue ventajosa. Durante el entrenamiento de un agente basado en DQN, típicamente: El valor de Q estimado aumenta hasta converger en un máximo local. La duración de las trayectorias se mantiene estable gracias a la exploración. El error en la estimación de Q disminuye durante todo el entrenamiento. Las pérdidas obtenidas disminuyen progresivamente hasta alcanzar un mínimo local. ¿Cuál es la ventaja de tener una estrategia determinista en el algoritmo DDPG?. Estabiliza el entrenamiento. Mejora el beneficio esperado. Reduce la complejidad del entrenamiento. Facilita la exploración. ¿Cuál de las siguientes afirmaciones es correcta?. Los métodos de aprendizaje por refuerzo aprenden las relaciones inherentes entre muestras del conjunto de datos. En aprendizaje por refuerzo se ajusta una función con ejemplos anotados de un dataset pre-existente. En aprendizaje por refuerzo se asigna un valor para determinar la bondad de un estado. Los entornos de aprendizaje por refuerzo siempre se programan en Gym. Respecto a las metodologías de deep reinforcement learning, indique qué afirmación es verdadera: El agente basa su aprendizaje en la interacción agente-entorno, lo cual requiere desarrollar una implementación detallada del entorno. Gracias a la información proporcionada por el entorno, el entrenamiento de soluciones basadas en deep learning necesita un menor control (hiperparámetros) que los supervisados. El agente basa su aprendizaje en un buen conocimiento a priori de las dinámicas del entorno. El algoritmo de entrenamiento y la gestión de la memoria son necesarios tras el entrenamiento para la fase de deployment. ¿Cómo denominamos al proceso en que el agente toma la acción que maximiza la recompensa según la estrategia?. Optimización de la estrategia. Explotación. Generalización. Exploración. ¿Cuál de las siguientes afirmaciones es cierta sobre las diferencias entre aprendizaje supervisado (SL) y aprendizaje por refuerzo (RL)?. RL simula los datos y en SL vienen dados a priori. SL itera varias veces sobre el conjunto de entrenamiento y RL, solo una vez. RL diseña métodos para datos desconocidos, mientras que en SL vienen dados a priori. No hay diferencias. Respecto a las políticas proporcionadas por los principales algoritmos de aprendizaje por refuerzo vistos en la asignatura, en el contexto de espacio de acciones discretas: El uso de una política voraz permite obtener políticas deterministas. La función de activación en PG crea políticas estocásticas. El modelo en DQN base ofrece políticas estocásticas al no usar función de activación. Los algoritmos PG permiten obtener directamente políticas deterministas a la salida del actor. Respecto a los sistemas de clasificación de algoritmos de aprendizaje por refuerzo: Todas las opciones son correctas. La gestión de la memoria permite diferenciar a los algoritmos según su estrategia seguida. Los algoritmos model-based on-policy solo emplean la experiencia pasada de una estrategia específica. Los algoritmos model-based se complementan con el uso de soluciones model-free. ¿A qué nos referimos como la función acción-valor en aprendizaje por refuerzo?. La probabilidad de explorar una acción. La recompensa inmediata de una acción. La probabilidad de tomar una acción. La recompensa esperada tras tomar una acción. ¿Cuál es una diferencia fundamental entre los algoritmos Vanilla Policy Gradient (VPG) y A3C?. VPG utiliza un único agente y no aprovecha el paralelismo, mientras que A3C emplea múltiples versiones del agente para entrenar de forma asincrónica. A3C utiliza arquitecturas de red neuronal más simples en comparación con VPG, lo que acelera el proceso de entrenamiento. A3C se centra en políticas estocásticas, mientras que VPG se enfoca en políticas deterministas. A3C es un algoritmo de interacción multiagente de forma asincrona. Respecto al desarrollo de algoritmos de aprendizaje por refuerzo en el entorno Atari, indique qué frase es correcta: Supone un entorno accesible y bien definido para comparar algoritmos. El agente consiste en una red neuronal convolucional. Pertenece a la clasificación de model-free. El entorno viene dado por la pantalla del videojuego. Indique qué función de activación es más característica de una DNN diseñada para entrenar un algoritmo de DQN: Linear. Tanh. Softmax. Sigmoid. Respecto al proceso de exploración: Tiene como objetivo mejorar el conocimiento del entorno siguiendo políticas voraces. Se puede realizar tanto previamente, como durante el entrenamiento. Todas las opciones son correctas. Favorece la velocidad de convergencia del modelo del agente durante el entrenamiento. Respecto al algoritmo DDPG: Solo permite modelar espacios de acciones continuos. Todas son correctas. Emplea una experiencia obtenida mediante múltiples versiones de la policy. Al ser híbrido, ajusta el critic con los discounted rewards. El proceso conocido como Explotación: La acción realizada será la que minimice la varianza del error. Permite al agente descubrir nuevas características del entorno. El agente ha concluido el entrenamiento y está listo para ser utilizado en producción. Se debe mantener cierto grado de exploración para acumular más experiencia. El objetivo de emplear una función baseline en PG es: Estabilizar la convergencia del critic. Mejorar la eficiencia del uso de datos en la trayectoria. Estabilizar la convergencia del actor. Mejorar la eficiencia en el uso de los discounted rewards. La idea que subyace a los algoritmos de Policy Gradients es: Seguir una estrategia on-policy proporciona una mejor estimación de la función Q, lo cual lleva a seleccionar mejores acciones siguiendo una política voraz. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un estado, podrá seleccionar la mejor acción. Aumentar la probabilidad de las acciones que proporcionan una mayor ganancia en la interacción agente-entorno. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un par estado-acción, podrá seleccionar la mejor acción. Dado un algoritmo de aprendizaje por refuerzo basado en PG y 4 acciones mutuamente excluyentes, la policy proporcionada, p(a∣s), a la salida del modelo, puede presentar la siguiente distribución: [0.2, 0.4, 0.2, 0.2]. [0.6, 0.2, 0.3, 0.0]. [10, 20, 120, 10]. [1]. ¿Qué ventaja ofrece DQN sobre calcular directamente la tabla de valores Q en Q-learning?. DQN es más rápido. DQN es más eficiente con los datos. DQN permite seguir una estrategia e-greedy. DQN puede trabajar mejor con dimensiones de entrada mayores. Indique qué algoritmos de PG tiene como objetivo aliviar la ineficacia en el uso de la memoria: A3C y A2C. DDPG y PPO. PPO. DQN. ¿Cuál es el objetivo de los métodos en aprendizaje por refuerzo?. Minimizar la estrategia. Maximizar la recompensa. Maximizar la función de pérdida. Minimizar la recompensa. ¿Cuál es el beneficio de añadir una función clip() en el método Proximal Policy Optimization (PPO)?. Se evita usar experiencias generadas con otras estrategias. Se garantiza una secuencia de estrategias con un beneficio que crece monótonamente. Se garantiza un conjunto de acciones continuas. Se evita calcular la divergencia KL. |




