マルチエージェント環境下での合理性について

PSをマルチエージェント環境下に適用することを考える.
直接報酬を獲得したエージェント以外にも報酬を分配することを考える(すべてのエージェントの機能は均質)。
これにより,解の質や学習速度の向上が期待できる半面, システム全体の挙動へ悪影響を及ぼす恐れがある.
そこで,最低限,システム全体として,合理性「単位行動当たりの期待獲得報酬がゼロでない」を 保証することが重要である.

本研究では,以下の条件で報酬を与えることを考える.

上の条件で報酬を与えたときに,合理性を保証するための μに関する必要十分条件は以下の式で与えられる.

ここでLは同一感覚入力下に存在する 有効ルールの最大個数である.この値は一般には未知であるが,「行動の種類(M)−1」とすれば十分である.
Wは未知であるが,任意の値にWを設定し,Wよりも長いエピソードの場合, 「μ=0」とすれば十分である.
また「L=M−1」「W0=W」の場合は,以下のように簡略化できる.

数値例を示したスライドはこちら

ひとつ前のページに戻る