Prise de décision adaptative
dans un habitat intelligent
RJCIA 2016

Alexis BRENON, François PORTET, Michel VACHER

Plan

Ma thèse et son contexte

Prise de décision dans les habitats intelligents

Méthode et corpus

Expérimentation

Conclusion

... J'aimerais commencer par rappeler ce qu'on appelle un habitat intelligent et pourquoi ils sont ces dernière années au cœur de nombreux sujets de recherche. Nous en profiterons pour passer en revue quelques projets qui ont déjà tentés de résoudre le problème de prise de décision dans de tels habitats tout en présentant de nouveaux défis. Alors seulement, je présenterai la méthode que nous avons utilisé dans notre cas ainsi que le contexte dans lequel se déroule l'expérimentation avant d'approfondir son déroulement et ses résultats. Finalement, j'espère amener quelques questions et ouvrir le débat en résumant les avantages et inconvénients de notre approche, et en donnant des pistes d'approfondissement. Mais commençons par le début en présentant ce que nous appelons un habitat intelligent.

Ma thèse et son contexte

Projet Investissement d'Avenir
- Partenariat avec des industriels
- Développement d'un système intéractif vocal dans un habitat intelligent

1 an et demi de thèse
- Reconnaissance d'activité
- Interactions contextualisées

Adaptation à l'utilisateur lors d'interactions vocales
dans un habitat intelligent

Prise de décision dans les habitats intelligents

Home. Augmented

Perception de l'environnement et actions
Informatique ubiquitaire et intelligence ambiante
- [Weiser, 1991]
Perception = contextualisation
- Détection d'évènements
- Adaptation des interactions

On entend par là un habitat augmenté, c'est-à-dire avec davantage de fonctionnalités. Les smart-homes, sont agrémentées de capteurs et actionneurs qui permettent de percevoir l'environnement et d'agir sur celui-ci. On distingue principalement deux types d'actions, les actions réactives, qui suivent un évènement explicite, et les action proactives qui surviennent sans demande explicite. Dans les deux cas, la perception de l'environnement est primordiale, que ce soit pour détecter un évènement et y réagir, ou simplement pour adapter l'action à réaliser aux conditions actuelles. On appelle cela la contextualisation de l'interaction et c'est cette problématique particulière qui nous intéresse. Toutefois, dans notre cas, nous nous plaçons dans un contexte bien particulier car...

Jarvis, ouvre les volets !

Intérêt particulier pour les maisons intelligentes contrôlées par la voix
- Communication naturelle
- Adapté aux :
  - personnes à mobilité réduite
  - situations d'urgences
Problème d'ambiguïté des commandes
- Utilisation du contexte

État de l'art des systèmes de prise de décisions dans les habitats intelligents

Systèmes à base de règles :
- Logiques floue ou de description
- Modélisation simple
- [Kofler et al., 2012]

Systèmes statistiques
- Réseaux bayésiens
- Prise en compte de l'incertitude
- [Lee et al., 2012]

Systèmes figés dans le temps
Peu de travaux sur l'adaptation aux changements d'habitudes
ou de comportements

Un précurseur

Le projet Adaptive House/Ache [Mozer, 1998] :
- Apprentissage à partir d'observations
- Mise à jour continue grâce aux mécanismes de l'apprentissage par renforcement
- Projet inactif à notre connaissance

... Michael Mozer et son équipe avait monté le projet Adaptive House, dans lequel ils avaient mis en place un contrôleur intelligent, ACHE. Leur système utilisait un réseau de neurones et les mécanismes de l'apprentissage par renforcement pour s'adapter aux habitudes et préférences de l'utilisateur. Ainsi, à chaque instant, le système recevait l'état de l'habitat, la consommation énergétique et les actions de l'utilisateur. À partir de ces informations, le système pouvait contrôler certains équipements de la maison. La consommation et les actions utilisateurs étaient utilisées dans une fonction de coût qui permettait de juger les choix du système. Toutefois ce projet n'avait pas de notion claire de ce qu'est un contexte et n'était pas capable de fournir cette information à l'utilisateur ou à une autre application. De plus, le projet semble être arrêté puisque nous n'avons pas trouvé de publications plus récentes à ce sujet. Mais comme l'idée semblait peu utilisée mais intéressante, nous avons souhaiter poursuivre dans cette voie...

Méthode et corpus

Apprentissage par renforcement

Technique d'apprentissage automatique [Sutton et al., 2015]
- Interactions entre un agent et son environnement
- L'agent est récompensé à chaque étape
- L'agent doit maximiser sa récompense
Extension des approches classiques : le \(Q\)-Learning
- [Watkins, 1989]
- Réduction du coût de calcul
- Représentation matricielle de la fontion de \(Q\)-Valeur

\( Q^{t+1}_{s_{t},a_{t}} = Q^{t}_{s_{t},a_{t}} + \alpha \left( r(s_t, a_t) + \gamma \max_{a_{t+1}} Q^{t}_{s_{t+1}, a_{t+1}} \right) \)

L'apprentissage par renforcement est une technique d'apprentissage automatique qui permet à un système d'apprendre de son expérience. À chaque itération le système intéragit avec son environnement qui lui retourne son nouvel état et une récompense, positive, négative ou nulle. L'objectif de l'agent est alors d'apprendre une stratégie qui lui permet de maximiser la récompense qu'il obtient. Pour résoudre ce problème, les première approches utilisaient les équation de la programmation dynamique qui ont un coût de calcul théorique considérable. En 89, Watkins a mis au point le Q-Learning, une extension des techniques classiques qui permet de réduire drastiquement le coût de calcul. En effet, dans le cas d'action et d'états discrets, le modèle de Q-valeur peut être représenté dans un tableau à 2 dimensions. La mise à jour de ce modèle est alors relativement aisé puisqu'il s'agit d'une simple recherche de la valeur maximale dans une ligne du tableau. C'est ce que décrit plus précisément l'équation que nous vous présentons ici. Pour pouvoir réaliser cette expérience il nous fallait également des données.

Exemple d'application

	\( a_0 \) Ouv. Volets Chambre	\(a_1\) Ouv. Volets Armure	\(a_2\) No-Op
\(s_0\) Chute libre	0	0 1	-100
\(s_1\) Tony est sain et sauf	0	0	0
\(s_2\) Tony est décédé	-100	-100	-100

\( Q^{t+1}_{s_0,a_1} = Q^{t}_{s_0,a_1} + \alpha \left( r(s_0, a_1) + \gamma \max_{a_{t+1}} Q^{t}_{s_1, a_{t+1}} \right) \)
\( = 0 + 1 \times \left( 1 + 0.25 \times 0 \right) = 1 \)

Exemple d'application (cont.)

	\( a_0 \) Ouv. Volets Chambre	\(a_1\) Ouv. Volets Armure	\(a_2\) No-Op
\(s_0\) Chute libre	0 -26	0	-100
\(s_1\) Tony est sain et sauf	0	0	0
\(s_2\) Tony est décédé	-100	-100	-100

\( Q^{t+1}_{s_0,a_0} = Q^{t}_{s_0,a_0} + \alpha \left( r(s_0, a_0) + \gamma \max_{a_{t+1}} Q^{t}_{s_2, a_{t+1}} \right) \)
\( = 0 + 1 \times \left( -1 + 0.25 \times -100 \right) = -26 \)

Domus

Habitat intelligent conçu par le Laboratoire d'Informatique de Grenoble
30 m² comprenant une cuisine, une chambre, une salle de bain et un bureau
Plus de 150 capteurs et actionneurs pour gérer l'éclairage, les volets, les médias, etc.

Le corpus d'interactions Sweet-Home

Récolté dans Domus
Disponible en ligne
[Chahuara et al., 2013]
11 heures d'enregistrement
16 participants (7 , 9 )
Scénario prédéfini à réaliser via des commandes vocales
- Demander la température
- Ouvrir les stores
- etc.

Expérimentation

Mise en forme des données

Corpus Sweet-Home :
- 407 instances (\(\approx\) 25 par sujets)
- Non exhaustif (11% des états possibles)

Corpus simulé :
- 380 instances
- Exhaustif mais non déterministe


blind - open  kitchen none  ->  blind - open  kitchen
light - on    kitchen cook  ->  light - on    kitchen - sink

Méthode d'apprentissage

324 états, 32 actions, poids initialisés uniformément
Un état est fourni au système
Le système sélectionne l'action la plus pertinente
- Action ayant le plus fort poids étant donné l'état
L'action exécutée est comparée à l'action attendue
Le système est récompensé
- Différentes fonctions de récompenses peuvent être utilisées
Un nouvel état est fourni au système s'il a fait le bon choix

... 324 états possible de notre environnement et le système peut réaliser 32 actions différentes. Initialement, pour le système, toutes les actions sont aussi intéressantes quelque soit l'état. Notre algorithme fourni alors un état au système. Celui-ci nous retourne l'action qu'il juge la plus pertinente en faisant une recherche de valeur maximale dans sa table de Q-valeur. De manière aléatoire, dépendante d'un coefficient d'exploration, le système va renvoyer une action aléatoire. On compare ensuite l'action exécutée à l'action attendue et on récompense le système en conséquence. Dans notre cas, nous avons utilisé une fonction de récompense simple, appellée 'temps minimal à l'objectif' qui pénalise de -1 toute action erronnée et de +1 les actions justifiées, mais il est très facile de modifier cette fonction pour correspondre davantage à notre cas d'utilisation. La valeur de récompense pourra être utilisée par le système pour mettre à jour sa table de Q-valeurs. On fourni ensuite un nouvel état au système, et on recommence. Nous avons donc exécuté cette boucle un grand...

Résultat de l'apprentissage

Création d'un modèle de base
- 100 000 interactions issues du corpus simulé

Leave-One-Subject-Out Cross-Validation (LOSOCV)
- Adaptation du modèle
- Évaluation

Chaque phase est décomposée en 10 étapes d'apprentissage (training epoch)

Fonction de Q-valeur sous forme matricielle

nombre de fois pour sur le corpus généré pour apprendre un premier modèle pour notre système. Ce modèle, que vous pouvez voir sur la droite est donc la matrice de Q-valeur du système. Nous pouvons laisser de côté le fait que l'on identifie une diagonale, qui n'est qu'une coïncidence ; ce qu'il faut noter c'est que le système identifie généralement très fortement une action pour chaque état. Comme dit plus tôt le corpus n'est pas déterministe ce qui explique le bruit que l'on voit, mais avec un corpus parfaitement déterministe, le bruit disparaît totalement, ne laissant apparaître que la diagonale. A partir de ce modèle, on appplique une méthode de validation croisée nommée LOSOCV, on va donc adaptée ce modèle avec les données issues de 15 de nos sujets et évaluer sur le dernier et répeter cette démarche 16 fois. Lors de l'évaluation, nous mesurons ...

Évaluation

Mesure de la récompense moyenne obtenu lors de la suite d'interactions

Différence expliquée par deux principaux facteurs
- Phase d'apprentissage très exploratoire
- Différence de taille de corpus

Lors de l'adaptation, le reward moyen oscille entre 0.3 et -0.1 alors que le reward moyen lors de l'apprentissage est de -1.

Évaluation (cont.)

Problème apparenté à de la classification de contexte

Bon niveau de classification
- Précision \(\approx 70\,\%\)
- Rappel \(\approx 35\,\%\)
- Score F1 \(\approx 45\,\%\)
Confusion entre actions similaires

Matrice de confusion de la classification de contextes

Conclusion

Intérêts et limitations

Lien entre les approches logiques et statistiques
Adapté à des données discrètes ou événementielles

Temps de convergence long
Absense de prise en compte de l'incertitude

Dans un premier temps, on constate qu'une solution de reconnaissance de contexte via du renforcement semble être possible puisqu'avec un système aussi simple que celui que nous avons mis en place nous obtenons des résultats qui semblent prometteur. Cette approche à l'avantage de créer un lien entre les deux précédemment citées en se basant sur un modèle relativement simple, mais ne nécessitant pas d'experts. Elle est également particulièrement adaptée dans le cas de données discrètes, ce qui est notre cas. En revanche, le temps de convergence long d'une telle approche est un frein, mais nous avons vu qu'il est possible de réduire ce temps en faisant un pré-entrainement sur des données simulées. Enfin, cette approche se base sur la théorie des processus de décision markovien qui impliquent que l'état de l'environnement soit entièrement connu. Ce n'est pas le cas ici, et il n'y a aucune gestion de l'incertitude liée au monde réelle. Afin de corriger ce défaut, ...

Et après ?

Utilisation des processus de Markov partiellement observable (POMDP)
- Gestion de l'incertitude
- [Zaidenberg et al., 2011]

Utilisation de réseaux de neurones
- Forte dynamique de recherche
- [Mnih et al., 2015]

Merci de votre attention

Avez-vous des questions ?

Bibliographie

[Chahuara et al., 2013] Chahuara, P., Portet, F., and Vacher, M. (2013). Making Context Aware Decision from Uncertain Information in a Smart Home: A Markov Logic Network Approach. In Ambient Intelligence.
[Kofler et al., 2012] Kofler, M. J., Reinisch, C., and Kastner, W. (2012). A semantic representation of energy-related information in future smart homes. Energy and Buildings, 47:169–179.
[Lee et al., 2012] Lee, S. H. and Cho, S. B. (2012). Fusion of Modular Bayesian Networks for Context-Aware Decision Making. In Corchado, Emilio, Snášel, Václav, Abraham, Ajith, Wozniak, Michal, Graña, Manuel, and Cho, Sung-Bae, editor, Hybrid Artificial Intelligent Systems, pages 375–384. Springer Berlin / Heidelberg.

Bibliographie (cont.)

[Mnih et al., 2015] Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., and Ostrovski, G. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540):529–533.
[Mozer, 1998] Mozer, M. C. (1998). The Neural Network House: An Environment hat Adapts to its Inhabitants. In Proc. AAAI Spring Symp. Intelligent Environments.
[Sutton et al., 2015] Sutton, R. S. and Barto, A. G. (2015). Reinforcement Learning: An Introduction.

Bibliographie (cont.)

[Watkins, 1989] Watkins, C. J. C. H. (1989). Learning from Delayed Rewards. PhD thesis, King's College.
[Weiser, 1991] Weiser, M. (1991). The computer for the 21st century. Scientific American, 265(3):66–75.
[Zaidenberg et al., 2011] Zaidenberg, S. and Reignier, P. (2011). Reinforcement Learning of User Preferences for a Ubiquitous Personal Assistant. In Mellouk, Abdelhamid, editor, Advances in Reinforcement Learning, pages 59-80. Intech.

Prise de décision adaptativedans un habitat intelligent RJCIA 2016

Plan

Ma thèse et son contexte Prise de décision dans les habitats intelligents Méthode et corpus Expérimentation Conclusion

Ma thèse et son contexte

Prise de décision dans les habitats intelligents

Home. Augmented

Jarvis, ouvre les volets !

État de l'art des systèmes de prise de décisions dans les habitats intelligents

Un précurseur

Méthode et corpus

Apprentissage par renforcement

Exemple d'application

Exemple d'application (cont.)

Domus

Le corpus d'interactions Sweet-Home

Expérimentation

Mise en forme des données

Méthode d'apprentissage

Résultat de l'apprentissage

Évaluation

Évaluation (cont.)

Conclusion

Intérêts et limitations

Et après ?

Merci de votre attention

Avez-vous des questions ?

Bibliographie

Bibliographie (cont.)

Bibliographie (cont.)

Prise de décision adaptative
dans un habitat intelligent
RJCIA 2016

Ma thèse et son contexte

Prise de décision dans les habitats intelligents

Méthode et corpus

Expérimentation

Conclusion