Q-learning

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

L'article doit être débarrassé d'une partie de son jargon (janvier 2023).

Sa qualité peut être largement améliorée en utilisant un vocabulaire plus directement compréhensible. Discutez des points à améliorer en page de discussion.

Dans le *Q-learning*, l'agent exécute une action a en fonction de l'état s et d'une fonction Q. Il perçoit alors le nouvel état s' et une récompense r de l'environnement. Il met alors à jour la fonction Q. Le nouvel état s' devient alors l'état s, et l'apprentissage continue.

En intelligence artificielle, plus précisément en apprentissage automatique, le Q-learning est un algorithme d'apprentissage par renforcement. Il ne nécessite aucun modèle initial de l'environnement. La lettre 'Q' désigne la fonction qui mesure la qualité d'une action exécutée dans un état donné du système^[1].

↑ Tambet Matiisen, « Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab », sur neuro.cs.ut.ee, 19 décembre 2015 (consulté le 6 avril 2018)

[:0-1] Tambet Matiisen, « Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab », sur neuro.cs.ut.ee, 19 décembre 2015 (consulté le 6 avril 2018)

[1]