強化学習に関する研究一覧


 
概要


一般に,強化学習は,次の2種類の行動が混在されているので, 環境との相互作用の回数が必要以上に多くなる.
イ)環境同定のための行動
ロ)価値関数更新のための行動

イ)は止むを得ない
ロ)に何故,貴重な行動コストをかける?

→環境同定型強化学習手法(k-確実探査法[宮崎95],l-確実探査法[宮崎96])の提案
→さらに報酬獲得と環境同定のトレードオフの考慮(MarcoPolo[宮崎97])

今後の課題:MDPsを超えるクラスを効率よく同定できる手法の提案


 
公表論文


  1. 宮崎和光,山村雅幸,小林重信,
    k-確実探査法:強化学習における環境同定のための行動選択戦略,
    人工知能学会誌,Vol.10, No.3, pp.454-463 (1995).

  2. 宮崎和光,山村雅幸,小林重信,
    l-確実探査法: エージェントによる環境同定のための行動選択戦略
    〜k-確実探査法の不確実性下への拡張〜,
    人工知能学会誌, ショートノート, Vol.11, No.5, pp.804-808 (1996).

  3. Miyazaki, K., Yamamura, M. and Kobayashi, S.,
    k-Certainty Exploration Method : An Action Selector to identify the environment in reinforcement learning,
    Artificial Intelligence, Vol.91, No.1, pp.155-171 (1997).

  4. 宮崎和光,山村雅幸,小林重信,
    MarcoPolo: 報酬獲得と環境同定のトレードオフを考慮した強化学習システム,
    人工知能学会誌,Vol.12, No.1, pp.78-89 (1997).

宮崎和光のホームページへ