ホーム→
開発関連→
深層学習→
コンピュータ将棋→
PyTorch系エンジンの説明→V1.0.5
【バージョン】
V1.0.5
【入力特徴】
駒の配置、持ち駒(歩は6枚まで、その他は全部)、手番、自玉の8近傍にある金銀の配置、龍・飛の利き、馬・角の利き、香の利き、同じ筋の歩が切れている飛香の駒の配置、後退できない金の駒の配置、前進できない銀の駒の配置、後退できない銀の駒の配置、歩越しの銀の駒の配置、前進できない桂馬の駒の配置、当たりがかかっている龍・飛の駒の配置、当たりがかかっている馬・角の駒の配置、玉の移動可能位置、自玉の近傍8マスにあるPIN駒の配置、金銀を3枚以上持っているか、桂を2枚以上持っているか、香を2枚以上持っているか、歩切れか、自分だけ龍を作っているか、自分だけ馬を作っているか、自玉に王手がかかっているか、盤上と駒台の金銀の合計が6枚以上か、龍が敵陣にあるか、自玉の8近傍に自分の馬・角が長い利きをつけているか、敵玉の8近傍に自分の馬・角が長い利きをつけているか、敵玉の腹に銀があるか、敵玉の2段上3マスに金銀がいるか、敵玉の2段上3マスに歩がいるか、敵玉の2段上または3段上に桂がいるか、駒台の歩の枚数で勝っているか、2枚龍を作っているか、2枚馬を作っているか、持ち駒の種類(0~7種類)(合計161個)
【学習に使用したデータ】
技巧2で生成した対局データ363,169局分。思考時間は1手1秒。
【テストデータの一致率】
51.13%
【学習の概要】
オプティマイザはSGDを使用, lr = 0.003, momentum = 0.9, weight decay = 0.0001, nesterov = True, ResNet8層, 処理の前にデータをシャッフルする。
【備考】
Policy Networkのみ学習。lrはプラトーになったら手動で半減する。これまでより最初にlrを減らすまでのiteration数を増やした。一致率が1.67%向上した。上述のテストデータ一致率は前バージョンと同一のデータを用いた場合(50局分)。5,220局分の専用テストデータで試験した場合の一致率は51.01%であった。AlphaGoの論文と比較すると、iteration数がまったく足りていないので、プラトーになったように思われる場所でもう少しlrを維持すると良いかもしれない。
Copyright © 2011-2024 I&T Soft All rights reserved.