Q-Lernen ist eine Form des temporalen Differenzlernens. Als solche ist es eine modellfreie Methode des bestärkenden Lernens. Da sie zur optimalen Wertefunktion konvergiert, ist sie eine der verbreitetsten Algorithmen.
© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search