現代数学の系譜11 ガロア理論を読む31 [無断転載禁止]©2ch.net

■ このスレッドは過去ログ倉庫に格納されています

243現代数学の系譜11 ガロア理論を読む

2017/05/09(火) 21:15:43.93ID:Bzdtws/g

>>240 追加
http://www2.computer-shogi.org/wcsc27/appeal/elmo/elmo_wcsc27_appeal_r2_0.txt
elmo アピール文書
(抜粋)
・評価関数
浮かむ瀬の評価関数を更新しています。元の評価関数より強いようです。

> 評価値が自己対局の勝率に近づくように更新しています。
勝率が二項分布に従う場合、評価値はロジスティック分布に従う(※1)だろう、
ということでロジスティック回帰を適用しています(※2)。

単純に最尤推定のロジスティック回帰を適用するのではではなく、
正則化項として深い探索結果を浅い探索結果にフィードバックする手法(※3)を採用しています。

後者の手法を単体で利用する思考エンジンが多いですが、正則化項としても適しており、
手元の実験結果では下記何れよりも強い評価関数を作成可能でした。
　・正則化項無のロジスティック回帰のみ
　・正則化項(深い探索結果を浅い探索結果にフィードバックする手法)のみ

正則化項には、第4回電王戦トーナメントの†白美神†さんが利用していた同様交差エントロピー(※4)を利用しています。
これは単にロジスティック回帰の損失項が交差エントロピーを使うのが普通なので
両項のオーダーを合わせる意味で利用しています。計算簡単で直感的に値が分かりやすい点も良いです。

探索深さ6、50億局面弱で1回だけ最適化しています。

(※1) GPS将棋: https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&;active_action=repository_view_main_item_detail&item_id=9786&item_no=1&page_id=13&block_id=8
下記エンジンでも同様の性質を仮定して利用しています。
ponanza: https://twitter.com/issei_y/status/589644174275674112
技巧 : https://github.com/gikou-official/Gikou/blob/master/src/learning.cc

ただ、Apery(浮かむ瀬)の評価関数はこの点を直接評価していないためか適切に設定されていないと想定されます(以下参照)。
https://twitter.com/Qhapaq_49/status/795257976185442304

elmoの手法はこれをうまく補正していると捉えて良いかもしれません。

(※2) WCSC26の激指の手法を参考にしています。
激指: http://www.computer-shogi.org/wcsc26/appeal/Gekisashi/appeal.txt
ponanza: https://cakes.mu/posts/15686

■ このスレッドは過去ログ倉庫に格納されています