Q-learning

Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones.

Para cualquier proceso de decisión de Markov finito (PDMF) (finite Markov decision process en inglés), Q-learning encuentra una política óptima en el sentido de que maximiza el valor esperado de la recompensa total sobre todos los pasos sucesivos, empezando desde el estado actual.^[1] Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria^[1] "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.^[2]

↑ ^a ^b Francisco S. Melo, "Convergencia de Q-aprendiendo: una prueba sencilla"
↑ Matiisen, Tambet (19 de diciembre de 2015). «Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab». neuro.cs.ut.ee (en inglés estadounidense). Consultado el 6 de abril de 2018.

[auto-1] Francisco S. Melo, "Convergencia de Q-aprendiendo: una prueba sencilla"

[:0-2] Matiisen, Tambet (19 de diciembre de 2015). «Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab». neuro.cs.ut.ee (en inglés estadounidense). Consultado el 6 de abril de 2018.

[1]

[2]