Alexis BRENON, François PORTET, Michel VACHER
Jarvis, ouvre les volets !
naturelle
Systèmes figés dans le temps
Peu de travaux sur l'adaptation aux changements d'habitudes
ou de comportements
\( Q^{t+1}_{s_{t},a_{t}} = Q^{t}_{s_{t},a_{t}} + \alpha \left( r(s_t, a_t) + \gamma \max_{a_{t+1}} Q^{t}_{s_{t+1}, a_{t+1}} \right) \)
\( a_0 \) Ouv. Volets Chambre |
\(a_1\) Ouv. Volets Armure |
\(a_2\) No-Op |
|
\(s_0\) Chute libre |
0 |
0
1
|
-100 |
\(s_1\) Tony est sain et sauf |
0 | 0 | 0 |
\(s_2\) Tony est décédé |
-100 | -100 | -100 |
\( a_0 \) Ouv. Volets Chambre |
\(a_1\) Ouv. Volets Armure |
\(a_2\) No-Op |
|
\(s_0\) Chute libre |
0
-26
|
0 | -100 |
\(s_1\) Tony est sain et sauf |
0 | 0 | 0 |
\(s_2\) Tony est décédé |
-100 | -100 | -100 |
blind - open kitchen none -> blind - open kitchen
light - on kitchen cook -> light - on kitchen - sink
Mesure de la récompense moyenne obtenu lors de la suite d'interactions
Problème apparenté à de la classification de contexte