PSをマルチエージェント環境下に適用することを考える.
直接報酬を獲得したエージェント以外にも報酬を分配することを考える(すべてのエージェントの機能は均質)。
これにより,解の質や学習速度の向上が期待できる半面,
システム全体の挙動へ悪影響を及ぼす恐れがある.
そこで,最低限,システム全体として,合理性「単位行動当たりの期待獲得報酬がゼロでない」を
保証することが重要である.
本研究では,以下の条件で報酬を与えることを考える.
上の条件で報酬を与えたときに,合理性を保証するための μに関する必要十分条件は以下の式で与えられる.