内部英治　先生 | Correspondence and Fusion of Artificial Intelligence and Brain Science

Title：深層順・逆強化学習

深層強化学習は人間と同程度にビデオゲームをプレイし、囲碁のエキスパートに勝利するなど非常に高度な制御則を自律的に学習できることを示した。しかし従来の深層強化学習は学習過程を安定化させるために様々な保守的な技術を導入しており、そのため学習に要するデータ数、更新回数が膨大になり、そのことが実際の問題に適用する際のネックとなっていた。そこで本講義の前半では深層強化学習を高速化するための様々な方法について紹介する。後半では提示された状態系列から報酬を推定する逆強化学習と深層学習を統合する方法について述べる。特に密度比推定を用いた深層逆強化学習はロジスティック回帰による二値分類問題に帰着できるため、深層学習の技術により効率的に解くことができる。本講義では具体的な例を用いながら、順・逆強化学習がどのように利用されるかを紹介する。

参考文献：
1, 牧野、澁谷、白川（編）。これからの強化学習。森北出版、2016
2, R. S. Sutton, and A. G. Barto. Reinforcement Learning: An Introduction. (Second edition, in progress), 2016. http://incompleteideas.net/sutton/book/the-book-2nd.html
3, S. Elfwing, E. Uchibe, and K. Doya. From free energy to expected energy: Improving energy-based value function approximation in reinforcement learning. Neural Networks, 84, 17-27, 2016.
4, S. Elfwing, E. Uchibe, and K. Doya. Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning. ArXiv, preprint, 2017
5, 内部英治、線形可解マルコフ決定過程を用いた順・逆強化学習。日本神経回路学会誌、23(1), 2-13, 2016.