多次元の状態・行動空間における意思決定と大脳基底核の情報表現

A01多次元の状態・行動空間における意思決定と大脳基底核の情報表現

 強化学習において状態空間や行動空間をどのように学習するかは、人工知能の根幹問題ともいえます。外界の状態から行動を決める意思決定には、大脳基底核が関与することが示唆されています。大脳皮質から大脳基底核への入力である線条体の神経細胞活動はこれまで、意欲、行動、習慣行動のトリガー、行動価値、刺激価値、文脈を含んだ価値、柔軟な価値や固定化された価値など、様々な情報表現が報告されてきました。情報表現に様々な議論があり、いまだにその情報処理過程は謎のままです。
 本研究では、これらの様々な情報表現を統一する見方を提供する新しい仮説「線条体は、強化学習で必要となる価値関数や方策関数の中間層表現であり、価値や方策の基底関数をTD 誤差とsalience 情報から学習する」を提案します。その上で、
I) どのようなネットワークモデルのどのようなアルゴリズムで学習可能なのか、
II)そのアルゴリズムで学習されたとすると、どのような情報表現が獲得されるのか、
を推定・予測します。さらに、
III)ニホンザルに多次元の状態空間から意思決定を行う課題を訓練し、大脳基底核と大脳皮質の神経活動記録を行います。それらの情報表現が価値情報や方策などの基底関数になり得るのかどうかを検証します。

研究者リスト

  • 鮫島 和行

    Project Leader

    鮫島 和行

    玉川大学 脳科学研究所

    教授

    WEBSITE

ページトップへ