A02モデルフリーモデルベースの協同による深層並列強化学習

　行動学習モデルの一つである強化学習は環境のモデルを必要としないモデルフリー法、環境のモデルを推定して活用するモデルベース法に大別できます。人の意思決定の直感的・習慣的な要素がモデルフリー強化学習、予測的・計画的な要素がモデルベース強化学習に対応し、ヒトや動物は状況に応じてモデルフリーとモデルベースを共同させて行動学習していることが知られています。我々はこれまでに複数のモデルフリー強化学習を並列に学習させる方式CRAILを開発しました。本研究はCRAILを拡張し、モデルベース強化学習を考慮した性質の異なる複数の強化学習モジュールを動的に切り替えて学習効率を改善する並列深層強化学習法を開発します。