将棋AIの開発13

Update 2024.11.23

将棋AIの開発13

学んだこと

少し学習したので、本日理解したことを整理する。

DQNを採用。Alphazeroとは手法がことなる。

DQNでは、後手の特徴量は不要。

学習の入力データには、S(盤面などの特徴量)、A(選択した手)、R(報酬)が必要で、それぞれを1Dベクトルにして保存。

学習時はそれぞれを区別して学習させる。

モデルの出力は、Q値(各手の点数)

S(盤面などの特徴量)、A(選択した手)、R(報酬)は、Qネットワークに、定義する。

対局時の行動選択の方法は、「epsilon-greedy法」。

Replay Bufferは、要調査。

今後決めるべきこと

状態と行動の具体的な表現。

報酬設計(勝敗以外の中間報酬をどうするか)。

Qネットワークの詳細設計(入力次元、隠れ層、出力次元)。

epsilon-greedy法のパラメータ(初期値と減少率)。

Replay Bufferの設定(サイズとサンプリング方法)。

広告

アフィリエイト広告のスペース