PSの合理性定理

PSとは報酬を得たときに,それまでに得たルール系列を一括的に強化する手法である.

報酬を分配する関数を強化関数と呼ぶ.
本研究では,強化関数について解析的に考察し, タイプ2の混同が存在しない環境下において,
以下のふたつの合理性を満たすための必要十分条件を求めた.

  1. 局所的合理性:無効ルール<有効ルール
  2. 大域的合理性:報酬を継続的に獲得

得られた条件は以下の式である.

ここでLは同一感覚入力下に存在する 有効ルールの最大個数である.この値は一般には未知であるが,「行動の種類−1」とすれば十分である.

条件を満たす関数には,上の図の右側のグラフに示すように様々なものが存在するが, 最も簡単なものは公比1/(L+1)の等比減少関数である.

例を示したスライドはこちら

数値例を示したスライドはこちら

ひとつ前のページに戻る