発表番号2B-3
発表タイトル 対話的強化学習のための多様な準最適政策の探索 - 巡回最適性に基づくLC-Learning -
筆者氏名・所属 佐藤 和宏 (奈良工業高等専門学校 専攻科)
山口 智浩 (奈良工業高等専門学校 情報工学科)
アブストラクト 本研究の目的は,HAIにおいて教示側を支援する知的な学習エージェントの実現である.従来の強化学習手法は固定の学習目標に対する最適政策獲得を目的としてきた.したがって一般ユーザが対話的に目標を追加する対話的強化学習は想定されていない.ユーザ教示の修正や曖昧な教示の明確化を対話的に解決するには,流動的な学習目標に対し,多様な学習結果の提示が有効である.そこで本研究では,新しい学習基準として巡回最適性を定義し,多様な巡回最適政策を求める手法を提案する.
論文PDFファイル