Aprendizaje por Refuerzo

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Aprendizaje por Refuerzo

Descripción:
Tsto sobre el examen de RL

Autor:

Victor

OTROS TESTS DEL AUTOR

Fecha de Creación: 2023/11/28

Categoría: Informática

Número Preguntas: 29

Valoración:

(2)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

En inteligencia artificial, el aprendizaje por refuerzo pertenece al campo de: Ninguno de los otros. Metaheurísticas. Sistemas Expertos. Aprendizaje Automático.

Se consideran retos de futuro del aprendizaje por refuerzo (puede haber varias respuestas correctas). Encontrar casos de uso fuera del mundo digital. Extraer conocimiento del entorno mediante redes neuronales. Disminuir los hiperparámetros y mejorar la reporducibilidad. Desarrollo entornos digitales para comparar estrategias.

Respecto a la vista general del paradigma de aprendizaje por refuerzo basado en Deep Learning vista en la asignatura, marque las opciones correctas: El algoritmo por refuerzo puede usarse de forma desacoplada tras el entrenamiento. Los algoritmos de refuerzo extraen el conocimiento del entorno a partir de redes neuronales. El agente selecciona la acción a través del conocimiento extraído por una DNN del estado del entorno. El entorno preprocesa la información del estado.

Cada vez que el agente ejecuta una acción, el entorno responde con (puede haber varias respuestas correctas): Un nuevo conjunto de acciones. Un nuevo estado. Una recompensa. Una nueva versión del agente.

Respecto al desarrollo de algoritmos de aprendizaje por refuerzo en el entorno Atari, indique qué frases son correctas: Pertenecen a la clasificación de model-free. Supone un entorno accesible y bien definido para comparar algoritmos. El agente consiste en una red neuronal convolucional. El entorno viene dado por la pantalla del videojuego.

Son elementos que pueden componer una transición en un instante de tiempo t0 (puede haber varias respuestas correctas): La acción previa. Discounted Reward. Estado. Value.

El objetivo de la estrategia del agente es: Llegar a la estrategia óptima que maximice la recompensa. Alcanzar una estrategia rápidamente, sin importar los valores que se alcanzan. Que sea lo más aleatoria posible para ayudar a la exploración. Llegar a la estrategia óptima que ejecute una acción en el menor tiempo posible.

El proceso conocido como Explotación (puede haber varias respuestas correctas): El agente ha explorado el tiempo suficiente para acumular experiencia y entrenar el agente. Se mantiene cierto grado de exploración para acumular más experiencia. La acción realizada será la que maximice la recompensa esperada a futuro. El agente ha concluido el entrenamiento y está listo para ser utilizado en producción.

Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basados en estrategia, indique qué afirmaciones son correctas. Dicha clasificación se basa en la gestión de la experiencia. Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Uno de los subtipos de enfoques es Q-learning.

Cuál de los siguientes elementos se puede definir como “la estimación de la recompensa esperada a futuro dado un estado, y siguiendo una policy dada”. Función Q. Función Advantadge. Discounted Rewards. Función Value.

Respecto al algoritmo Deep Q-Networks, indique las afirmaciones correctas: La policy aprendida cumple la propiedad de recursividad. Se trata de un algoritmo off-policy. La función Q se optimiza a partir del cálculo de discounted rewards. La exploración se lleva a cabo mediante una política e-greedy.

Respecto a la policy seguida en DQN (puede haber varias respuestas correctas): Sigue una política voraz (o e-greedy) respecto a la función Q estimada. Se favorece la exploración en entrenamiento mediante una épsilon creciente. La calidad de la policy depende de la precisión en la estimación de la función Q. La acción en cada estado se selecciona a partir del value estimado.

Respecto a la optimización mediante DQN (puede haber varias respuestas correctas): Se estabiliza el entrenamiento utilizando una target network. Existe un mínimo global estable en la optimización, siendo este la policy óptima. La función de coste se basa en diferencias temporales. Se utilizan series temporales de estados como entrada a la DNN.

Respecto al factor gamma visto en la asignatura, marque las afirmaciones correctas: Un valor bajo enfatiza recompensas tempranas. Un valor alto penaliza recompensas tardías. Se utiliza para ponderar la exploración en acciones futuras. Un valor alto favorece la exploración.

La familia de métodos de Policy Gradients (puede haber varias respuestas correctas): Ponderan los gradientes de la propia policy utilizando las recompensas obtenidas. La experiencia acumulada es altamente independiente. Buscan obtener la mejor policy dado una función Q estimada. Realizan memory replay.

En los métodos de policy gradients, la exploración viene dada por: El uso de una variable épsilon. Un muestreo de la salida lineal del modelo de la policy. Un muestreo de la distribución de probabilidad de las acciones. Incorporando ruido en la distribución de acciones con correlación temporal.

En el algoritmo Actor-Crític, la acción seleccionada en el entrenamiento depende de: El Actor y el crític. El Crític. El Actor. Ninguno de los otros.

El algoritmo Actor-Critic es una evolución de los algoritmos Policy Gradients que busca solucionar (puede haber varias respuestas correctas): La varianza de las recompensas. La heterogeneidad de la memoria acumulada. Actualización de políticas incoherentes. Problemas de estabilidad en el entrenamiento.

En el algoritmo A3C (puede haber varias respuestas correctas): Es un algoritmo on-policy. Ejecuta una actualización del modelo de manera asíncrona. Es un algoritmo multi-proceso. En la función de coste, usa como factor de relevancia la función de ventaja.

En los algoritmos A2C y A3C (puede haber varias respuestas correctas): Resuelven la ineficacia de las muestras recolectadas. Se utiliza una target network para estimar el value. Favorecen la exploración de trayectorias heterogéneas. Son algoritmos multi-agente y multi-proceso.

Indique cuáles de los siguientes métodos vistos en la asignatura permiten modelar espacios de acciones continuas: PPO. DQN. DDPG. AlphaGo.

Respecto al algoritmo DDPG, indique las afirmaciones que son ciertas: Es un algoritmo on policy. La actualización de la policy sigue la ecuación de Bellman. Emplea target networks. Es un algoritmo híbrido.

Respecto al algoritmo Clip-PPO detallado en la asignatura, indique las afirmaciones que son ciertas: La operación de Clip suaviza el comportamiento en acciones ventajosas que pasan a ser menos probables. La operación de Clip suaviza el comportamiento en acciones no ventajosas que pasan a ser menos probables. Pondera la policy usando el ratio entre la misma y su versión anterior. Solventa la actualización de policies incoherentes.

En el contexto de soluciones de aprendizaje por refuerzo basadas en modelo, y en particular AlphaGo, las etapas secuenciales del algoritmo Montecarlo Tree Search (MCTS) son: Selección - Expansión - Evaluación – Backup. Selección - Evaluación - Expansión – Feedforward. Evaluación – Backup – Expansión – Feedforward. Evaluación – Expansión – Backup – Selección.

En su definición base, una Transición está compuesta de: Estado, Acción. Estado, Acción, Recompensa. Acción, Recompensa. Estado, Acción, Recompensa, Siguientes Estado.

La arquitectura de Deep Learning más utilizada hoy en día en algoritmos de aprendizaje por refuerzo es: Arquitectura Convolucional. Arquitectura Feed-Forward. Transformers. Arquitectura Recurrente.

Cuando trabajamos en un enfoque model-based, el modelo se refiere a: Una arquitectura CNN que el agente usa durante las iteraciones. El modelo que utliza el agente para preprocesar los datos de entrada. El modelo que define las dinámicas del entorno y que el agente utiliza durante el proceso de aprendizaje. El modelo que utliza el agente para estimar qué acción seleccionar.

En el algoritmo de Actor-Critic (puede haber varias respuestas correctas): El Critic se encarga de estimar la probabilidad de la mejor acción del estado actual. El Critic estima el vale del estado actual. El Actor se encarga de estimar la distribución de probabilidades de las acciones. El Actor se encarga de estimar la recompensa esperada para cada acción.

En el algoritmo A2C (puede haber varias respuestas correctas): Es un algoritmo multi-proceso. En la función de coste, usa como factor de relevancia la función de ventaja. Ejecuta una actualización del modelo de manera asíncrona. Es un algoritmo on-policy.

Denunciar Test

▲