普通の強化学習の実装だと、ゴールの位置が変わったらまた学習しなおしになるけど、ゴールがどこにあっても学習をし直せずゴールできるモデルを作りました。

画面全体を状態とする普通のDQNの実装ですが(CNN 2層 + 全結合層 2段)、そう思うとDQNすごいですね。