option
Cuestiones
ayuda
daypo
buscar.php

AAnS Tema 10

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
AAnS Tema 10

Descripción:
AAnS Tema 10

Fecha de Creación: 2026/06/01

Categoría: Otros

Número Preguntas: 10

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

¿Cuál es el objetivo principal del aprendizaje por refuerzo?. Minimizar la pérdida de datos. Maximizar la precisión de la clasificación. Optimizar la recompensa acumulada a largo plazo. Reducir el tiempo de entrenamiento.

En el algoritmo Q-learning, ¿qué representa la variable γ (gamma)?. La tasa de aprendizaje. El factor de descuento. La recompensa inmediata. La acción a tomar.

¿Cuál es el propósito de la red objetivo en el algoritmo DQN?. Reducir el tamaño de la tabla Q. Estabilizar el proceso de aprendizaje. Aumentar la tasa de aprendizaje. Minimizar la recompensa acumulada.

En el contexto de REINFORCE, ¿qué es el gradiente de la política?. La diferencia entre las recompensas actuales y futuras. La actualización de los valores Q. El gradiente de la recompensa acumulada esperada con respecto a los parámetros de la política. La función de pérdida.

¿Qué ventaja tiene PPO sobre otros métodos de gradiente de políticas?. Es más fácil de implementar y tiene mejor complejidad de muestra. Requiere menos datos de entrenamiento. No utiliza redes neuronales. Minimiza la recompensa acumulada.

En Q-learning, ¿cómo se define un episodio?. Un conjunto de acciones sin recompensa. El proceso de aprendizaje de un solo paso. El final de una etapa donde el agente ha alcanzado el objetivo o ha fracasado. La actualización de la red neuronal.

¿Qué es la tabla Q en el contexto de Q-learning?. Una lista de recompensas acumuladas. Un registro de todas las acciones realizadas. Una matriz que mantiene los valores Q para todas las combinaciones de estados y acciones. Una función de política.

¿Cuál es el propósito de la función de pérdida en DQN?. Maximizar la recompensa inmediata. Minimizar la diferencia entre los valores Q predichos y los valores Q objetivo. Actualizar los valores de la tabla Q. Seleccionar la mejor acción posible.

¿Qué técnica utiliza REINFORCE para ajustar su estrategia?. Diferencias temporales. Gradiente de políticas. Factor de descuento. Red objetivo.

En PPO, ¿qué se entiende por «clip objetivo»?. Una técnica para asegurar que las actualizaciones de la política no sean demasiado grandes. Un método para inicializar la tabla Q. Un proceso para reducir el número de episodios. Una función para calcular la recompensa inmediata.

Denunciar Test