RL Test

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

RL Test

Descripción:
RL Test

Autor:

YOmismo

OTROS TESTS DEL AUTOR

Fecha de Creación: 2024/07/04

Categoría: Otros

Número Preguntas: 22

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Respecto a las policies proporcionadas por los principales algoritmos de aprendizaje por refuerzo vistos en la asignatura, en el contexto de espacio de acciones discretas: Los algoritmos PG permiten obtener directamente policies deterministas a la salida del actor. El modelo en DQN base ofrece policies estocásticas al no usar función de activación. El uso de una política voraz permite obtener policies deterministas. La función de activación en PG crea policies estocásticas.

Los algoritmos de Actor-Critic básico y A2C se diferencian en: A2C utiliza la función ventaja, que ayuda a estabilizar el entrenamiento. A2C emplea redes neuronales. A2C lanza múltiples procesos que actualizan los pesos del actor y critic asíncronamente. Todas son ciertas.

Indiqué que algoritmos de PG tiene como objetivo paliar la ineficacia en el uso de la memoria: A3C y A2C. DQN. DDPG y PPO. PPO.

Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basada en la estrategia: Dicha clasificación se basa en la forma de gestionar la experiencia. Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Uno de los subtipos de enfoques es Q-learning.

Respecto a los sistemas de clasificación de algoritmos de aprendizaje por refuerzo: Los algoritmos model-based se complementan con el uso de soluciones model-free. La gestión de la memoria permite diferenciar a los algoritmos según su estrategia seguida. Los algoritmos model-based on-policy solo emplean la experiencia pasada de una estrategia específica. Todas las opciones son correctas.

Respecto al algoritmo DDPG: Emplea una experiencia obtenida mediante múltiples policies. Al ser híbrido, ajusta el critic con los discounted rewards. Solo permite modelar espacios de acciones continuos. Todas son correctas.

Acerca de DQN, indiqué qué afirmación es incorrecta: Emplea una target network del value para estabilizar el entrenamiento. Sigue una estrategia off-policy mediante experience replay. Tiene como objetivo aproximar la mejor estimación de la recompensa esperada a futuro dado un par estado-acción. Se fundamenta en el uso de una política voraz y emplea la ecuación de Bellman como función de optimización.

Durante el entrenamiento de un agente basado en DQN, típicamente: El error en la estimación de Q disminuye durante todo el entrenamiento. El valor de Q estimado aumenta hasta converger en un máximo local. La duración de las trayectorias se mantiene estable gracias a la exploración. Las pérdidas obtenidas disminuyen progresivamente hasta alcanzar un mínimo local.

Dado el algoritmo que se presenta en la imagen: (i) indique el nombre del algoritmo y a la familia a la que pertenece; (ii) Describa brevemente qué modelos se entrenan en el algoritmo y qué funciones de coste emplea para ello; y (iii) Explique brevemente el proceso llevado en la primera línea del segundo bucle. Se trata de un algoritmo DDPG, se compone de 4 modelos: 1 Actor y 1 Critic que se inicializan en la primera linea dedicados a la estimacion de la probabilidad en el espacio de acciones y a la estimación del valor esperado a futuro para un estado-acción y dada una policy actual, respectivamente. Otro par Actor-Critic que se inicializa en la segunda lineas dedicada la target network. La otra.

Respecto a los discounted rewards de una trayectoria dada: Si gamma tiende a 0, es equivalente a la recompensa acumulada a futuro. Emplea un valor gamma que se disminuye durante el entrenamiento de forma progresiva. Cumplen la propiedad de recursividad para cualquier iteración. El discounted reward es un hiperparámetro que se fija a cualquier valor real, mayor que cero.

Dado un algoritmo de aprendizaje por refuero basado en PG y 4 acciones mutuamente excluyentes, la policy proporcionada, p(a|s), a la salida del modelo, puede presentar la siguiente distribución: [10, 20, 120, 10]. [0.2, 0.4, 0.2, 0.2]. [0.6, 0.2, 0.3, 0.0]. [1].

Respecto al proceso de exploración: Favorece la velocidad de convergencia del modelo del agente durante el entrenamiento. Tiene como objetivo mejorar el conocimiento del entorno siguiendo políticas voraces. Se puede realizar tanto previamente, como durante el entrenamiento. Todas las opciones son correctas.

El proceso conocido como Explotación: El agente ha explorado el tiempo suficiente para acumular experiencia y entrenar el agente. El agente ha concluido el entrenamiento y está listo para ser utilizado en producción. La acción realizada será la que maximice la recompensa esperada a futuro. Se mantiene cierto grado de exploración para acumular más experiencia.

El objetivo de emplear una función baseline en PG es: Mejorar la eficiencia del uso de datos en la trayectoria. Estabilizar la convergencia del critic. Estabilizar la convergencia del actor. Mejorar la eficiencia en el uso de los discounted rewards.

Indiqué que función de activación es más característica de una DNN diseñada para entrenar un algoritmo de DQN es: Linear. Softmax. Tanh. Sigmoid.

Respecto a las metodologías de deep reinforcement learning, indique qué afirmación es verdadera: Gracias a la información proporcionada por el entorno, el entrenamiento de soluciones basadas en deep learning necesita un menor control (hiperparámetros) que métodos supervisados. El algoritmo de entrenamiento y la gestión de la memoria son necesarios tras el entrenamiento para la fase de deployment. El agente basa su aprendizaje en un buen conocimiento a priori de las dinámicas del entorno. El agente basa su aprendizaje en la interacción agente-entorno, lo cual requiere desarrollar una implementación detallada del entorno.

Cuando se habla de un algoritmo model-based, se asume la disponibilidad de: Un modelo capaz de predecir transiciones estado-acción-estado. Un modelo del entorno conocido a priori. Un modelo capaz de modelar transiciones y funciones de recompensa del entorno. El uso de técnicas de metaheurística durante inferencia.

Dado el modelo que se muestra a continuación, indique: (i) qué función tiene dicho modelo y para qué tipo de espacio de acciones está ideado; (ii) qué algoritmo de aprendizaje por refuerzo puede emplear dicho modelo; (iii) cómo lo modificaría para trabajar en entornos tipo Atari. Este modelo tiene como intención estimar la recompensa esperada a futuro en un estado de acciones continuas actualizando el Critic, dado que la salida es tangencial hiperbólica. Un algoritmo que podría usar este modelo sería DDPG, ya que es un algoritmo basado en Policy Gradients que utiliza dos redes neuronales Actor y dos redes neuronales Critic, en un estado de acciones continuas. Para trabajar en entornos tipo Atari con espacios de acciones discretas, deberíamos cambiar la salida a una softmax o sigmoide. La otra.

Respecto al algoritmo PPO-CLIP: Introduce un clip sobre la divergencia KL para limitar cambios drásticos. Si una acción ha sido mala (value menor que 0), entonces permite actualizaciones grandes de la policy. Limita la actualización de policies cuya probabilidad aumenta considerablemente y la acción fue ventajosa. Si una acción ha sido buena (value mayor que 0), entonces permite actualizaciones grandes si la probabilidad de dicha acción disminuye.

La idea que subyace a los algoritmos de Policy Gradients es: Aumentar la probabilidad de las acciones que proporcionan una mayor ganancia en la interacción agente-entorno. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un estado, podrá seleccionar la mejor acción. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un par estado-acción, podrá seleccionar la mejor acción. Seguir una estrategia on-policy proporciona una mejor estimación de la función Q, lo cual lleva a seleccionar mejores acciones siguiendo una política voraz.

Uno de los principales retos en la actualidad del aprendizaje por refuerzo es: El desarrollo de redes neuronales profundas capaces de extraer características ricas del entorno. Desarrollo de soluciones en entornos puramente digitales. Encontrar casos de uso que superen métodos más simples asentados en la actualidad. Desarrollar metodologías capaces de combinar arquitecturas de aprendizaje profundo con aproximaciones clásicas de aprendizaje por refuerzo.

A partir de la imagen que se muestra en pantalla, en una simulación tipo Atari trabajado en la asignatura, a qué componente del entrenamiento se asocia: Entorno. Observación. Experiencia. Simulación.

Denunciar Test

▲