将棋AIの開発15

Update 2024.11.25

将棋AIの開発15

DQNモデルの基本理解

学習時

  • 入力
    • 盤面: 現在の状態を表すテンソル(例: 〇×ゲームなら3×3の盤面)。
    • 選択した手: プレイヤーが行った行動(インデックスで表現)。
    • 勝敗: 報酬として反映(+1, 0, -1など)。
  • 出力
    • 学習後のモデル。次の状態や行動に基づいて改善されたQ値を予測。

対局時

  • 入力
    • 盤面: 現在の状態を表すテンソル。
  • 出力
    • 各合法手のQ値: 行動空間に対応するスコア。どの手が有効かを数値で出力。

設計の呼称

  • 入力設計

    状態空間(State Space)設計とも呼びます。盤面情報をどのようにテンソルで表現するかを決める部分です。

  • 出力設計

    行動空間(Action Space)設計とも呼びます。各行動(合法手)をどのように表現し、モデルがどのようにスコアリングするかを決める部分です。

  • モデルの基本設計

    入力と出力を決め、学習中や推論時にテンソルがどう流れるかを決める部分です。

広告

アフィリエイト広告のスペース