ソフトコンピューティング・シミュレータ

Q学習で迷路探索

Q学習は機械学習手法の方策オフ型TD学習の一つである。
Q学習を用いて迷路探索問題を解く。環境は格子状にセルで分割されており、エージェントは隣接するセル間を状態遷移することで移動する。環境にはエージェントが移動可能な通路と壁が存在し、スタート地点から出発しゴール地点に到達することが目的である。
  • 画面には格子状の環境が表示され、スタート地点(青セル)、ゴール地点(赤セル)、エージェント(円)が表示されている。
  • 状態は各セルの座標で表し、行動は隣接セルへの上下左右4方向の移動である。
  • 移動不可能な壁へ移動処理した場合は、衝突判定となり1ステップ前のセルに留まる。
  • 各セルには三角形の色の濃さで各行動の相対的なQ値が表されている。(Q値が高いと濃い)
  • 報酬はゴール到達時に+10、壁に衝突時に-1.0、移動毎に-0.1与えられる。
  • ゴールに到達するまでを1エピソードとし、slipボタンで1エピソードをスキップできる。

HOME > ソフトコンピューティング・シミュレータ > Q学習で迷路探索