option
Cuestiones
ayuda
daypo
buscar.php
TEST BORRADO, QUIZÁS LE INTERESE: Aprendizaje por Refuerzo
COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Aprendizaje por Refuerzo

Descripción:
Tsto sobre el examen de RL

Autor:
AVATAR
Victor
OTROS TESTS DEL AUTOR

Fecha de Creación:
28/11/2023

Categoría: Informática

Número Preguntas: 29
COMPARTE EL TEST
COMENTARNuevo Comentario
No hay ningún comentario sobre este test.
Temario:
En inteligencia artificial, el aprendizaje por refuerzo pertenece al campo de: Ninguno de los otros Metaheurísticas Sistemas Expertos Aprendizaje Automático.
Se consideran retos de futuro del aprendizaje por refuerzo (puede haber varias respuestas correctas) Encontrar casos de uso fuera del mundo digital. Extraer conocimiento del entorno mediante redes neuronales. Disminuir los hiperparámetros y mejorar la reporducibilidad. Desarrollo entornos digitales para comparar estrategias.
Respecto a la vista general del paradigma de aprendizaje por refuerzo basado en Deep Learning vista en la asignatura, marque las opciones correctas: El algoritmo por refuerzo puede usarse de forma desacoplada tras el entrenamiento. Los algoritmos de refuerzo extraen el conocimiento del entorno a partir de redes neuronales. El agente selecciona la acción a través del conocimiento extraído por una DNN del estado del entorno. El entorno preprocesa la información del estado.
Cada vez que el agente ejecuta una acción, el entorno responde con (puede haber varias respuestas correctas): Un nuevo conjunto de acciones Un nuevo estado Una recompensa Una nueva versión del agente.
Respecto al desarrollo de algoritmos de aprendizaje por refuerzo en el entorno Atari, indique qué frases son correctas: Pertenecen a la clasificación de model-free. Supone un entorno accesible y bien definido para comparar algoritmos. El agente consiste en una red neuronal convolucional. El entorno viene dado por la pantalla del videojuego.
Son elementos que pueden componer una transición en un instante de tiempo t0 (puede haber varias respuestas correctas): La acción previa Discounted Reward Estado Value.
El objetivo de la estrategia del agente es: Llegar a la estrategia óptima que maximice la recompensa. Alcanzar una estrategia rápidamente, sin importar los valores que se alcanzan. Que sea lo más aleatoria posible para ayudar a la exploración. Llegar a la estrategia óptima que ejecute una acción en el menor tiempo posible.
El proceso conocido como Explotación (puede haber varias respuestas correctas): El agente ha explorado el tiempo suficiente para acumular experiencia y entrenar el agente. Se mantiene cierto grado de exploración para acumular más experiencia. La acción realizada será la que maximice la recompensa esperada a futuro. El agente ha concluido el entrenamiento y está listo para ser utilizado en producción.
Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basados en estrategia, indique qué afirmaciones son correctas Dicha clasificación se basa en la gestión de la experiencia. Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Uno de los subtipos de enfoques es Q-learning.
Cuál de los siguientes elementos se puede definir como “la estimación de la recompensa esperada a futuro dado un estado, y siguiendo una policy dada”. Función Q Función Advantadge Discounted Rewards Función Value.
Respecto al algoritmo Deep Q-Networks, indique las afirmaciones correctas: La policy aprendida cumple la propiedad de recursividad. Se trata de un algoritmo off-policy. La función Q se optimiza a partir del cálculo de discounted rewards. La exploración se lleva a cabo mediante una política e-greedy.
Respecto a la policy seguida en DQN (puede haber varias respuestas correctas): Sigue una política voraz (o e-greedy) respecto a la función Q estimada. Se favorece la exploración en entrenamiento mediante una épsilon creciente. La calidad de la policy depende de la precisión en la estimación de la función Q. La acción en cada estado se selecciona a partir del value estimado.
Respecto a la optimización mediante DQN (puede haber varias respuestas correctas): Se estabiliza el entrenamiento utilizando una target network. Existe un mínimo global estable en la optimización, siendo este la policy óptima. La función de coste se basa en diferencias temporales. Se utilizan series temporales de estados como entrada a la DNN.
Respecto al factor gamma visto en la asignatura, marque las afirmaciones correctas: Un valor bajo enfatiza recompensas tempranas. Un valor alto penaliza recompensas tardías. Se utiliza para ponderar la exploración en acciones futuras Un valor alto favorece la exploración.
La familia de métodos de Policy Gradients (puede haber varias respuestas correctas): Ponderan los gradientes de la propia policy utilizando las recompensas obtenidas. La experiencia acumulada es altamente independiente. Buscan obtener la mejor policy dado una función Q estimada. Realizan memory replay.
En los métodos de policy gradients, la exploración viene dada por: El uso de una variable épsilon. Un muestreo de la salida lineal del modelo de la policy. Un muestreo de la distribución de probabilidad de las acciones. Incorporando ruido en la distribución de acciones con correlación temporal.
En el algoritmo Actor-Crític, la acción seleccionada en el entrenamiento depende de: El Actor y el crític El Crític El Actor Ninguno de los otros.
El algoritmo Actor-Critic es una evolución de los algoritmos Policy Gradients que busca solucionar (puede haber varias respuestas correctas): La varianza de las recompensas. La heterogeneidad de la memoria acumulada. Actualización de políticas incoherentes. Problemas de estabilidad en el entrenamiento.
En el algoritmo A3C (puede haber varias respuestas correctas): Es un algoritmo on-policy. Ejecuta una actualización del modelo de manera asíncrona. Es un algoritmo multi-proceso. En la función de coste, usa como factor de relevancia la función de ventaja.
En los algoritmos A2C y A3C (puede haber varias respuestas correctas): Resuelven la ineficacia de las muestras recolectadas. Se utiliza una target network para estimar el value. Favorecen la exploración de trayectorias heterogéneas. Son algoritmos multi-agente y multi-proceso.
Indique cuáles de los siguientes métodos vistos en la asignatura permiten modelar espacios de acciones continuas: PPO DQN DDPG AlphaGo.
Respecto al algoritmo DDPG, indique las afirmaciones que son ciertas: Es un algoritmo on policy. La actualización de la policy sigue la ecuación de Bellman. Emplea target networks. Es un algoritmo híbrido.
Respecto al algoritmo Clip-PPO detallado en la asignatura, indique las afirmaciones que son ciertas: La operación de Clip suaviza el comportamiento en acciones ventajosas que pasan a ser menos probables. La operación de Clip suaviza el comportamiento en acciones no ventajosas que pasan a ser menos probables. Pondera la policy usando el ratio entre la misma y su versión anterior Solventa la actualización de policies incoherentes.
En el contexto de soluciones de aprendizaje por refuerzo basadas en modelo, y en particular AlphaGo, las etapas secuenciales del algoritmo Montecarlo Tree Search (MCTS) son: Selección - Expansión - Evaluación – Backup Selección - Evaluación - Expansión – Feedforward Evaluación – Backup – Expansión – Feedforward Evaluación – Expansión – Backup – Selección.
En su definición base, una Transición está compuesta de: Estado, Acción Estado, Acción, Recompensa Acción, Recompensa Estado, Acción, Recompensa, Siguientes Estado.
La arquitectura de Deep Learning más utilizada hoy en día en algoritmos de aprendizaje por refuerzo es: Arquitectura Convolucional Arquitectura Feed-Forward Transformers Arquitectura Recurrente.
Cuando trabajamos en un enfoque model-based, el modelo se refiere a: Una arquitectura CNN que el agente usa durante las iteraciones. El modelo que utliza el agente para preprocesar los datos de entrada. El modelo que define las dinámicas del entorno y que el agente utiliza durante el proceso de aprendizaje. El modelo que utliza el agente para estimar qué acción seleccionar.
En el algoritmo de Actor-Critic (puede haber varias respuestas correctas): El Critic se encarga de estimar la probabilidad de la mejor acción del estado actual. El Critic estima el vale del estado actual. El Actor se encarga de estimar la distribución de probabilidades de las acciones. El Actor se encarga de estimar la recompensa esperada para cada acción.
En el algoritmo A2C (puede haber varias respuestas correctas): Es un algoritmo multi-proceso. En la función de coste, usa como factor de relevancia la función de ventaja. Ejecuta una actualización del modelo de manera asíncrona. Es un algoritmo on-policy.
Denunciar Test