ランダム迷路、強化学習

自分の回りのマスしか見えないルールで水を見つけるゲームを強化学習用に作りました。

水の場所と壁の位置は毎回変わりますので、どんな配置でも再学習なしに水を見つけることがミッションです。20ステップ以内に水までたどり着けないと力尽きてしまいます。

動画は基本のアルゴリズムであるQ学習に、学習させた行動です。なんとかやってくれています。

しかし、時々行ったり来たりを繰り返し、力尽きてしまうこともあります。

Q学習は、過去の記憶を持っていないので、繰り返しになんの意味もないことを学習できないのです。ここをRNNなどを使って記憶のある強化学習に発展させたいなと思っています。