既存の強化学習の実装を流用したが、うまくいかない。
使われているライブラリが古いためだ。ハードとソフトのバージョン問題もなかなかやっかいだ。
実装方法を考えなおす必要がある。
調査→実装→トライ&エラーだったのが、検討フェーズに戻った。。。
わかってはいたが、簡単じゃないね。。。
で、今考えているのが、教師あり学習の仕組みを、強化学習の仕組みに変更することだ。
教師なし学習も結局は自分の動きを学習しているので、教師あり学習になっているのではないか
だから、同じ仕組みが使えるはず。というのが私の考え。
やはりこれも様々な調査が必要だが、理屈ではできるはずなんだよなぁ。。。