Q-learning

Q-learning es una técnica de aprendizaje por refuerzo utilizada en aprendizaje automático. El objetivo del Q-learning es aprender una serie de normas que le diga a un agente qué acción tomar bajo qué circunstancias. No requiere un modelo del entorno y puede manejar problemas con transiciones estocásticas y recompensas sin requerir adaptaciones.

Para cualquier proceso de decisión de Markov finito (PDMF) (finite Markov decision process en inglés), Q-learning encuentra una política óptima en el sentido de que maximiza el valor esperado de la recompensa total sobre todos los pasos sucesivos, empezando desde el estado actual.[1]​ Q-learning puede identificar una norma de acción-selección óptima para cualquier PDMF, dado un tiempo de exploración infinito y una norma parcialmente aleatoria[1]​ "Q" nombra la función que devuelve la recompensa que proporciona el refuerzo y representa la "calidad" de una acción tomada en un estado dado.[2]

  1. a b Francisco S. Melo, "Convergencia de Q-aprendiendo: una prueba sencilla"
  2. Matiisen, Tambet (19 de diciembre de 2015). «Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab». neuro.cs.ut.ee (en inglés estadounidense). Consultado el 6 de abril de 2018. 

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search