Apprentissage par renforcement
Tour d'horizon

Alexis Brenon - alexis.brenon@imag.fr

Plan

  1. Le principe général
  2. Les méthodes
  3. L'application dans les habitats intelligents

Le principe général

Éléments principaux

  • Un agent & son environnement
  • Une stratégie (policy)
    \(\pi : S \to A\)
  • Une fonction de récompense (reward function)
    \(\rho : S \times A \to \mathbb R\)
  • Une fonction de valeur (value function)
    \(\upsilon_\pi : S \to \mathbb R\)

Objectif de l'agent

Maximiser la récompense totale sur le long terme / la fonction de retour.

À chaque étape :

  • L'agent prend connaissance de son environnement/état
  • L'agent suit la stratégie en fonction de l'état dans lequel il se trouve
  • L'agent reçoit une récompense (postive, négative ou nulle) suite à son action

La fonction de valeur permet une prise en compte des gains futurs possible.

Privilégier une action à faible récompense maintenant pour atteindre des états à fortes récompenses plus tard.

Problématique

Déterminer la stratégie à suivre
\(\Leftrightarrow\)
Determiner la fonction de valeur optimale

L'équation de Bellman : $$\upsilon^\star (\mathbf{s}_t) = \rho(\mathbf{s}_t) + \gamma \upsilon^\star (\mathbf{s}_{t+1})$$

Les méthodes

Programmation dynamique

Collection d'algorithmes permettant le calcul d'une stratégie optimale :

  • policy iteration ;
  • value iteration ;
  • etc.

Nécessite la connaissance complète d'un modèle de l'environnement

Très couteux en calculs

Sert de bases aux autres algorithmes

Méthodes de Monte Carlo

Peuvent être appliquée à partir d'un corpus simulé et/ou réel

Applicables dans le cas de tâches épisodiques : renforcement épisodique et non à la volée

Apprentissage à différence temporelle
Temporal-Difference Learning (TD)

Similaire aux méthodes de Monte Carlo, mais applicable à la volée

Méthodes les plus utilisées aujourd'hui, en particulier le \(Q\)-Learning 

Simples à mettre en place, incrémentales, à faible coût de calcul, sans modèle

Application dans les habitats intelligents
Étude de cas : ACHE 

Le projet ACHE

Adaptive Control of Home Environment

Projet de l'université du Colorado initié dans les années 90

Habitat intelligent avec contrôle :

  • des lumières (22) ;
  • de la ventilation (6) ;
  • du chauffe-eau ;
  • de la chaudière ;
  • des radiateurs électriques (2) ;
  • des haut-parleurs (12).

Deux objectifs :

  • anticiper les besoins de l'utilisateur ;
  • limiter la consommation d'énergie.

Anticipation = Prédiction

Brique architecturalle : le prédicateur

Infère l'état future à partir des données de l'état présent

Utilise un réseau de neuronnes

Pas de RL ici...

Prise de décision

Deux approches :

Prog. Dynamique :

Contrôle du chauffage

Basé sur un modèle thermique RC

\(Q\)-Learning

Contrôle des lumières

Une action de l'utilisateur implique une récompense moindre

Bibliography