マルチエージェント環境下での合理性について

PSをマルチエージェント環境下に適用することを考える．
直接報酬を獲得したエージェント以外にも報酬を分配することを考える（すべてのエージェントの機能は均質）。
これにより，解の質や学習速度の向上が期待できる半面，システム全体の挙動へ悪影響を及ぼす恐れがある．
そこで，最低限，システム全体として，合理性「単位行動当たりの期待獲得報酬がゼロでない」を保証することが重要である．

本研究では，以下の条件で報酬を与えることを考える．

上の条件で報酬を与えたときに，合理性を保証するための μに関する必要十分条件は以下の式で与えられる．

ここでＬは同一感覚入力下に存在する有効ルールの最大個数である．この値は一般には未知であるが，「行動の種類（Ｍ）－１」とすれば十分である．
Ｗは未知であるが，任意の値にＷを設定し，Ｗよりも長いエピソードの場合，「μ＝０」とすれば十分である．
また「Ｌ＝Ｍ－１」「Ｗ0＝Ｗ」の場合は，以下のように簡略化できる．

数値例を示したスライドはこちら

マルチエージェント環境下での合理性について

ひとつ前のページに戻る