Geocronologia INGENIERIA EN SISTEMAS COMPUTACIONALES
Enviado por karlo • 13 de Diciembre de 2018 • 1.011 Palabras (5 Páginas) • 368 Visitas
...
La diferencia puede explicarse como SARSA aprende los valores de Q asociados con tomar la política que sigue a sí mismo, mientras que Q-learning de Watkin aprende los valores de Q asociados con tomar la política de explotación mientras sigue una política de exploración / explotación. Para más información sobre el comercio de exploración / explotación fuera, ver el aprendizaje por refuerzo.
Algunas optimizaciones del Q-learning de Watkin también pueden aplicarse a SARSA, por ejemplo en el artículo "Fast Online Q (λ)" (Wiering y Schmidhuber, 1998), se describen las pequeñas diferencias necesarias para las implementaciones de SARSA (λ).
VARIABLES EN EL ALGORITMO
Tasa de aprendizaje (alfa)
La tasa de aprendizaje determina en qué medida la información recién adquirida invalidará la información anterior. Un factor de 0 hará que el agente no aprenda nada, mientras que un factor de 1 haría que el agente considere sólo la información más reciente.
Factor de descuento (gamma)
El factor de descuento determina la importancia de las recompensas futuras. Un factor de 0 hará que el agente sea "oportunista" considerando sólo las recompensas actuales, mientras que un factor que se aproxima a 1 hará que se esfuerce por obtener una recompensa a largo plazo alta. Si el factor de descuento cumple o excede 1, el Q Los valores pueden divergir.
Las condiciones iniciales (Q (s 0, a 0))
Puesto que SARSA es un algoritmo iterativo, implica implícitamente una condición inicial antes de que se produzca la primera actualización. A (infinito) Valor inicial baja, también conocido como "condiciones iniciales optimistas", puede estimular la exploración: no importa qué acción se llevará a cabo, la regla de actualización hará que se tienen valores más altos que la otra alternativa, lo que aumenta su Probabilidad de elección. Recientemente, se sugirió que la primera recompensa r podría ser utilizado para restablecer las condiciones iniciales. De acuerdo con esta idea, la primera vez que se toma una acción la recompensa se utiliza para establecer el valor de Q. Esto permitirá el aprendizaje inmediato en caso de recompensas deterministas fijas. Sorprendentemente, este reajuste de las condiciones iniciales (RIC) enfoque parece ser coherente con el comportamiento humano en repetidos experimentos de elección binaria.
Ejemplo:
Trazas en Gridworld El uso de trazas de elegibilidad puede Aumentar sustancialmente la eficiencia de los algoritmos de control. La razón de esto Se ilustra en el ejemplo gridworld de la figura 7.12. El primer panel muestra el Camino tomado por un agente en un solo episodio, terminando en un lugar de alta recompensa, Marcado con el *. En este ejemplo los valores eran todos inicialmente 0, y todas las recompensas Eran cero a excepción de una recompensa positiva en el * lugar. Las flechas en el otro Dos paneles muestran qué valores de acción fueron fortalecidos como resultado de este camino Por un paso Sarsa y Sarsa (λ) métodos. El método de un solo paso fortalece Sólo la última acción de la secuencia de acciones que condujo a la alta recompensa, Mientras que el método de traza fortalece muchas acciones de la secuencia. Los Grado de refuerzo (indicado por el tamaño de las flechas) disminuye (según A γλ) con pasos de la recompensa. En este ejemplo, γ = 1 y λ = 0.9.
[pic 5]
Figura 7.12: Ejemplo de Gridworld de la aceleración del aprendizaje de políticas debido a la Uso de trazas de elegibilidad.
Bibliografía
Barto, R. S. (2012). Reinforcement Learning: An Introduction. Cambridge, Massachusetts & London, Inglaterra: The MIT Press.
...