発表番号 | 2D-5 |
発表タイトル | コーチングによる報酬関数の動的生成に基づくエージェントの行動学習 |
筆者氏名・所属 |
廣川暢一 (筑波大学) 鈴木健嗣 (筑波大学) |
アブストラクト | 本稿は,学習エージェントに対し人間が主観的な評価を対話的に与えるコーチング法について述べる.提案手法は,エージェントの学習状況を見ながら動的に報酬関数を変更することで,強化学習を誘導・促進させる新しい対話的学習法である.人間がエージェントの動作を観察し,「良い・悪い」など直観的に判断可能かつ抽象的な教示を行うことで作成される報酬関数により,エージェントの行動学習が可能であることを実験により示す. |
論文 | PDFファイル |