PSとは報酬を得たときに,それまでに得たルール系列を一括的に強化する手法である.
報酬を分配する関数を強化関数と呼ぶ. 本研究では,強化関数について解析的に考察し, タイプ2の混同が存在しない環境下において, 以下のふたつの合理性を満たすための必要十分条件を求めた.
得られた条件は以下の式である.
条件を満たす関数には,上の図の右側のグラフに示すように様々なものが存在するが, 最も簡単なものは公比1/(L+1)の等比減少関数である.
例を示したスライドはこちら
数値例を示したスライドはこちら