強化学習に関する研究一覧
一般に,強化学習は,次の2種類の行動が混在されているので,
環境との相互作用の回数が必要以上に多くなる.
イ)環境同定のための行動
ロ)価値関数更新のための行動
イ)は止むを得ない
ロ)に何故,貴重な行動コストをかける?
→環境同定型強化学習手法(k-確実探査法[宮崎95],l-確実探査法[宮崎96])の提案
→さらに報酬獲得と環境同定のトレードオフの考慮(MarcoPolo[宮崎97])
今後の課題:MDPsを超えるクラスを効率よく同定できる手法の提案
- 宮崎和光,山村雅幸,小林重信,
k-確実探査法:強化学習における環境同定のための行動選択戦略,
人工知能学会誌,Vol.10, No.3, pp.454-463 (1995).
- 宮崎和光,山村雅幸,小林重信,
l-確実探査法:
エージェントによる環境同定のための行動選択戦略
〜k-確実探査法の不確実性下への拡張〜,
人工知能学会誌, ショートノート, Vol.11, No.5, pp.804-808 (1996).
- Miyazaki, K., Yamamura, M. and Kobayashi, S.,
k-Certainty Exploration Method :
An Action Selector to identify the environment
in reinforcement learning,
Artificial Intelligence, Vol.91, No.1, pp.155-171 (1997).
- 宮崎和光,山村雅幸,小林重信,
MarcoPolo:
報酬獲得と環境同定のトレードオフを考慮した強化学習システム,
人工知能学会誌,Vol.12, No.1, pp.78-89 (1997).