Aprendizaje por refuerzo VIU
![]() |
![]() |
![]() |
Título del Test:![]() Aprendizaje por refuerzo VIU Descripción: Posibles preguntas examen |




Comentarios |
---|
NO HAY REGISTROS |
Respecto a las políticas proporcionadas por los principales algoritmos de aprendizaje por refuerzo vistos en la asignatura, en el contexto de espacio de acciones discretas. Los algoritmos PG permiten obtener directamente políticas deterministas a la salida del actor. El modelo en DQN base ofrece políticas estocásticas al no usar función de activación. El uso de una política voraz permite obtener políticas deterministas. La función de activación en PG crea políticas estocásticas. Los algoritmos de Actor-Critic básico y A2C se diferencian en. A2C utiliza la función ventaja, que ayuda a estabilizar el entrenamiento. A2C emplea redes neuronales. A2C lanza múltiples procesos que actualizan los pesos del actor y crítico asincrónicamente. Todas son ciertas. Indique qué algoritmos de PG tiene como objetivo aliviar la ineficacia en el uso de la memoria. DQN. A3C y A2C. DDPG y PPO. PPO. Respecto a la clasificación de los algoritmos de aprendizaje por refuerzo basada en la estrategia. Dicha clasificación se basa en la forma de gestionar la experiencia. Existen dos tipos: model free y model based. E-greedy es un enfoque dentro de la clasificación basada en estrategia. Uno de los subtipos de enfoques es Q-learning. Respecto a los sistemas de clasificación de algoritmos de aprendizaje por refuerzo. Los algoritmos model-based se complementan con el uso de soluciones model-free. La gestión de la memoria permite diferenciar a los algoritmos según su estrategia seguida. Los algoritmos model-based on-policy solo emplean la experiencia pasada de una estrategia específica. Todas las opciones son correctas. Respecto al algoritmo DDPG. Emplea una experiencia obtenida mediante múltiples versiones de la policy. Al ser híbrido, ajusta el critic con los discounted rewards. Solo permite modelar espacios de acciones continuos. Todas son correctas. Acerca de DQN, indique qué afirmación es incorrecta. Emplea una target network del value para estabilizar el entrenamiento. Sigue una estrategia off-policy mediante experience replay. Tiene como objetivo aproximar la mejor estimación de la recompensa esperada a futuro dado un par estado-acción. Se fundamenta en el uso de una política voraz y emplea la ecuación de Bellman como función de optimización. Durante el entrenamiento de un agente basado en DQN, típicamente. El error en la estimación de Q disminuye durante todo el entrenamiento. El valor de Q estimado aumenta hasta converger en un máximo local. La duración de las trayectorias se mantiene estable gracias a la exploración. Las pérdidas obtenidas disminuyen progresivamente hasta alcanzar un mínimo local. Respecto a los discounted rewards de una trayectoria dada. Si gamma tiende a 0, es equivalente a la recompensa acumulada a futuro. Emplea un valor gamma que se disminuye durante el entrenamiento de forma progresiva. Cumple la propiedad de recurrividad para cualquier iteración. El discounted reward es un hiperparámetro que se fija a cualquier valor real, mayor que cero. Dado un algoritmo de aprendizaje por refuerzo basado en PG y 4 acciones mutuamente excluyentes, la policy proporcionada, p(a|s), a la salida del modelo, puede presentar la siguiente distribución. [10, 20, 120, 10]. [0.2, 0.4, 0.2, 0.2]. [0.6, 0.2, 0.3, 0.0]. [1]. Respecto al proceso de exploración. Favorece la velocidad de convergencia del modelo del agente durante el entrenamiento. Tiene como objetivo mejorar el conocimiento del entorno siguiendo políticas voraces. Se puede realizar tanto previamente, como durante el entrenamiento. Todas las opciones son correctas. El proceso conocido como Explotación. Permite al agente descubrir nuevas características del entorno. El agente ha concluido el entrenamiento y está listo para ser utilizado en producción. La acción realizada será la que minimice la varianza del error. Se debe mantener cierto grado de exploración para acumular más experiencia. El objetivo de emplear una función baseline en PG es. Mejorar la eficiencia del uso de datos en la trayectoria. Estabilizar la convergencia del critic. Estabilizar la convergencia del actor. Mejorar la eficiencia en el uso de los discounted rewards. Indique qué función de activación es más característica de una DNN diseñada para entrenar un algoritmo de DQN. Linear. Softmax. Tanh. Sigmoid. Respecto a las metodologías de deep reinforcement learning, indique qué afirmación es verdadera. Gracias a la información proporcionada por el entorno, el entrenamiento de soluciones basadas en deep learning necesita un menor control (hiperparámetros) que los supervisados. El algoritmo de entrenamiento y la gestión de la memoria son necesarios tras el entrenamiento para la fase de deployment. El agente basa su aprendizaje en un buen conocimiento a priori de las dinámicas del entorno. El agente basa su aprendizaje en la interacción agente-entorno, lo cual requiere desarrollar una implementación detallada del entorno. Cuando se habla de un algoritmo model-based, se asume la disponibilidad de. Un modelo capaz de predecir transiciones estado-acción-estado. Un modelo del entorno conocido. Un modelo capaz de modelar transiciones y funciones de recompensa del entorno. El uso de técnicas de metaheurística durante inferencia. Respecto al algoritmo PPO-CLIP. Introduce un clip sobre la divergencia KL para limitar cambios drásticos. Si una acción ha sido mala (value menor que 0), entonces permite actualizaciones grandes de la policy. Limita la actualización de políticas cuya probabilidad aumenta considerablemente y la acción fue ventajosa. Si una acción ha sido buena (value mayor que 0), entonces permite actualizaciones grandes si la probabilidad de dicha acción disminuye. A partir de la imagen que se muestra en pantalla, en una simulación tipo Atari trabajada en la asignatura, ¿a qué componente del entrenamiento se asocia?. Entorno. Observación. Experiencia. Simulación. La idea que subyace a los algoritmos de Policy Gradients es. Aumentar la probabilidad de las acciones que proporcionan una mayor ganancia en la interacción agente-entorno. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un estado, podrá seleccionar la mejor acción. Si el agente es capaz de realizar una buena estimación de la recompensa esperada a futuro dado un par estado-acción, podrá seleccionar la mejor acción. Seguir una estrategia on-policy proporciona una mejor estimación de la función Q, lo cual lleva a seleccionar mejores acciones siguiendo una política voraz. Uno de los principales retos en la actualidad del aprendizaje por refuerzo es. El desarrollo de redes neuronales profundas capaces de extraer características ricas del entorno. Desarrollo de soluciones en entornos puramente digitales. Encontrar casos de uso que superen métodos más simples asentados en la actualidad. Desarrollar metodologías capaces de combinar arquitecturas de aprendizaje profundo con aproximaciones clásicas de aprendizaje por refuerzo. ¿Cuál de las siguientes afirmaciones es cierta sobre las diferencias entre aprendizaje supervisado (SL) y aprendizaje por refuerzo (RL)?. No hay diferencias. SL itera varias veces sobre el conjunto de entrenamiento y RL, solo una vez. RL simula los datos y en SL vienen dados a priori. RL diseña métodos para datos desconocidos, mientras que en SL vienen dados a priori. En aprendizaje por refuerzo, ¿qué elementos representan el entorno?. Los datos que se usan para entrenar el agente. El conjunto de acciones disponibles. La simulación donde vive el agente. La arquitectura del modelo. En el algoritmo Actor-Critic, la acción seleccionada en el entrenamiento depende de. El actor. El crítico. El actor y el crítico. Ninguno de los dos. ¿Cuál es el beneficio de añadir una función clip() en el método proximal policy optimization (PPO)?. Se evita calcular la divergencia KL. Se garantiza un conjunto de acciones continuas. Se evita usar experiencias generadas con otras estrategias. Se garantiza una secuencia de estrategias con un beneficio que crece monotonamente. En el método de AlphaGo Zero. El modelo aprendido sirve para calcular la siguiente acción. La estrategia toma la acción que maximiza la probabilidad de ganar la partida. Se combina una función valor y la estrategia para hacer la planificación. Se maximiza el beneficio esperado. ¿En qué consisten los métodos basados en estrategia (policy-based)?. En métodos que usan una estrategia para tomar decisiones. En métodos cuya estrategia está determinada a priori. En métodos que ajustan la estrategia directamente. En métodos que usan un conjunto de reglas para el entorno. La ecuación de Bellman. Es una relación recursiva que cumple cualquier función valor. Es una relación recursiva que solo cumple la función valor óptima. Es una relación recursiva que genera estrategias óptimas. Es una relación recursiva que maximiza la recompensa. ¿Cuál es una diferencia fundamental entre los algoritmos Vanilla Policy Gradient (VPG) y A3C?. VPG utiliza un único agente y no aprovecha el paralelismo, mientras que A3C emplea múltiples versiones del agente para entrenar de forma asincrónica. A3C se centra en políticas estocásticas, mientras que VPG se enfoca en políticas deterministas. A3C es un algoritmo de interacción multiagente de forma asincrona. A3C utiliza arquitecturas de red neuronal más simples en comparación con VPG, lo que acelera el proceso de entrenamiento. ¿Qué ventaja ofrece DQN sobre calcular directamente la tabla de valores Q en Q-learning?. DQN es más rápido. DQN permite seguir una estrategia e-greedy. DQN puede trabajar mejor con dimensiones de entrada mayores. DQN es más eficiente con los datos. ¿Cómo denominamos al proceso en que el agente toma la acción que maximiza la recompensa según la estrategia?. Exploración. Explotación. Generalización. Optimización de la estrategia. ¿Qué es la estrategia?. Una serie de reglas que el agente debe seguir. La función que entrena al agente. La función que determina el movimiento del agente. Un paradigma de aprendizaje basado en la planificación. ¿En qué algoritmo se usa una tabla para guardar valores de la función acción-valor por cada par estado-acción?. Deep Q-Network. Q-learning. Proximal policy optimization. Policy gradient. El aprendizaje por refuerzo también se conoce como. Análisis predictivo. Análisis transductivo. Análisis deductivo. Análisis prescriptivo. ¿Cuál de las siguientes afirmaciones es correcta?. En aprendizaje por refuerzo se ajusta una función con ejemplos anotados de un dataset pre-existente. En aprendizaje por refuerzo se asigna un valor para determinar la bondad de un estado. Los entornos de aprendizaje por refuerzo siempre se programan en Gym. Los métodos de aprendizaje por refuerzo aprenden las relaciones inherentes entre muestras del conjunto de datos. Respecto al desarrollo de algoritmos de aprendizaje por refuerzo en el entorno Atari, indique qué frase es correcta. Pertenece a la clasificación de model-free. El entorno viene dado por la pantalla del videojuego. El agente consiste en una red neuronal convolucional. Supone un entorno accesible y bien definido para comparar algoritmos. ¿Cuál es la ventaja de tener una estrategia determinista en el algoritmo DDPG?. Estabiliza el entrenamiento. Reduce la complejidad del entrenamiento. Facilita la exploración. Mejora el beneficio esperado. ¿Qué ventaja genera considerar nuestro sistema como un proceso de decisión de Markov (MDP)?. Que la estrategia será un proceso estocástico. Que nos permite usar funciones de distribución paramétricas. Que la dinámica del sistema viene determinada por el estado y la acción anteriores. Que la estrategia puede ser una función determinista. El parámetro gamma del beneficio esperado con descuento. Hace que el agente sea "miope" al tender a 1. Solo se utiliza durante la explotación. Ayuda a estabilizar el entrenamiento añadiendo una regularización. Genera un compromiso entre recompensas inmediatas y futuras. ¿Cuál es el objetivo de los métodos en aprendizaje por refuerzo?. Minimizar la recompensa. Maximizar la función de pérdida. Minimizar la estrategia. Maximizar la recompensa. ¿A qué nos referimos como la función acción-valor en aprendizaje por refuerzo?. La recompensa esperada tras tomar una acción. La probabilidad de tomar una acción. La recompensa inmediata de una acción. La probabilidad de explorar una acción. |