将棋AIの開発13
学んだこと
少し学習したので、本日理解したことを整理する。
DQNを採用。Alphazeroとは手法がことなる。
DQNでは、後手の特徴量は不要。
学習の入力データには、S(盤面などの特徴量)、A(選択した手)、R(報酬)が必要で、それぞれを1Dベクトルにして保存。
学習時はそれぞれを区別して学習させる。
モデルの出力は、Q値(各手の点数)
S(盤面などの特徴量)、A(選択した手)、R(報酬)は、Qネットワークに、定義する。
対局時の行動選択の方法は、「epsilon-greedy法」。
Replay Bufferは、要調査。
今後決めるべきこと
状態と行動の具体的な表現。
報酬設計(勝敗以外の中間報酬をどうするか)。
Qネットワークの詳細設計(入力次元、隠れ層、出力次元)。
epsilon-greedy法のパラメータ(初期値と減少率)。
Replay Bufferの設定(サイズとサンプリング方法)。