Alexis Brenon - alexis.brenon@imag.fr
Maximiser la récompense totale sur le long terme / la fonction de retour.
À chaque étape :
La fonction de valeur permet une prise en compte des gains futurs possible.
Privilégier une action à faible récompense maintenant pour atteindre des états à fortes récompenses plus tard.
Déterminer la stratégie à suivre
\(\Leftrightarrow\)
Determiner la fonction de valeur optimale
L'équation de Bellman : $$\upsilon^\star (\mathbf{s}_t) = \rho(\mathbf{s}_t) + \gamma \upsilon^\star (\mathbf{s}_{t+1})$$
Collection d'algorithmes permettant le calcul d'une stratégie optimale :
Nécessite la connaissance complète d'un modèle de l'environnement
Très couteux en calculs
Sert de bases aux autres algorithmes
Peuvent être appliquée à partir d'un corpus simulé et/ou réel
Applicables dans le cas de tâches épisodiques : renforcement épisodique et non à la volée
Similaire aux méthodes de Monte Carlo, mais applicable à la volée
Méthodes les plus utilisées aujourd'hui, en particulier le \(Q\)-Learning
Simples à mettre en place, incrémentales, à faible coût de calcul, sans modèle
Adaptive Control of Home Environment
Projet de l'université du Colorado initié dans les années 90
Habitat intelligent avec contrôle :
Deux objectifs :
Brique architecturalle : le prédicateur
Infère l'état future à partir des données de l'état présent
Utilise un réseau de neuronnes
Pas de RL ici...
Deux approches :
Prog. Dynamique :
Contrôle du chauffage
Basé sur un modèle thermique RC
\(Q\)-Learning
Contrôle des lumières
Une action de l'utilisateur implique une récompense moindre