>>481
>取り敢ず何かの形で解を求めないといけない
話題の将棋からみ
http://yaneuraou.yaneu.com/2017/05/23/elmo%E3%81%8C%E3%82%82%E3%81%9F%E3%82%89%E3%81%97%E3%81%9F%E3%82%AA%E3%83%BC%E3%83%91%E3%83%BC%E3%83%84%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/
elmoがもたらしたオーパーツについて やねうら王公式サイト 20170523
(抜粋)
WCSC27で優勝したelmoがもたらしたのは、たった一行の革命だった。
交差エントロピーで勾配を求めるとき、普通は次式のようになる。
dsig = eval_winrate ? teacher_winrate;
eval_winrateは、浅い探索(qsearch)の評価値を勝率に変換する関数(シグモイド関数を用いている)で変換したもの。
teacher_winrateは、深い探索(search)の評価値を勝率に変換する関数で変換したもの。
交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 http://denou.jp/tournament2016/img/PR/Hakubishin.pdf
elmo式の雑巾絞りはこの式を次のように改良した。
dsig = (eval_winrate -t) + 0.5 * (eval_winrate ? teacher_winrate);
tはこの局面の手番側が最終的に勝っているなら1(勝率100%)、負けているなら0(勝率0%)とする。
もともと、ゲームの勝敗を用いて強化学習を行うというのは、他の分野ではdeep learning + 強化学習という形でdeep learningの入門記事にもあるような内容だし、将棋ソフトにおいてもなかったアイデアではない。
どちらかと言えば、いまの雑巾絞りのようにRootStrapにするほうが特殊なアイデアである。しかし、RootStrapとして勝敗を用いるというのはなかったのではないかと思う。(Seleneが似たようなことをしていた気はするが) そして、elmoはそれがとてもうまくいくと実証したことも大きい。
興味深いことにelmo式で作成した評価関数は、以前の評価関数とは性質が異なるようで、短い時間(1スレッド1手1秒)では以前の評価関数に負け越すこともある。しかし長い時間になればなるほど以前の評価関数に勝ち越すようになる。(差が開くようになる)
elmo式雑巾絞りが新たな扉を開いたことは間違いなさそうだ。
(引用終り)
現代数学の系譜 古典ガロア理論を読む35 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2017/07/06(木) 17:32:14.46ID:qgJA+Zd6
■ このスレッドは過去ログ倉庫に格納されています
ニュース
- 大谷翔平 第2子誕生を正式発表「無事に生まれてきてくれてありがとう」 [ひかり★]
- 【節約】物価高でも「食費月1万円」は可能? 月7000円台、レバーと100円キャベツで回す強者も [ひぃぃ★]
- 【香川】外国人材の受け入れ・活躍の促進へ 日本語研修などの経費を補助 [煮卵★]
- 【W杯】「希望は日本」 どうしたアジア勢!6戦無敗→まさかの6連敗…得失点は−13 「仕方ないで済ませてたらレベルアップはない」 [王子★]
- ランドセルにくぎ刺される「国に帰れ」など言われ、転校を余儀なくされた海外からの転校生 仙台市教育委員会が「いじめ重大事態」認定★4 [煮卵★]
- 【万引き】「いいの?前科ついちゃうよ」万引きした女子大学生を脅す 元コンビニ店長の男(54)逮捕 ★3 [煮卵★]
- 【画像】高市早苗、またやらかす [834922174]
- 🏡👭💥🚗💨ぶんぶんぶーんw
- 顎のしこりうざい
- 【画像】サナ「4人家族の住居、95平米必要って国の指針出してたけど、40平米で十分」とわざわざ閣議決定 [881878332]
- 【悲報】「女のパンツにはすべからくウン筋がある」👈これwwwwwwwwwwwwww [398059782]
- 杉並区長「今までの自民党議員の因習全部潰す!ベンチ設置しまくる!」自民党の門ひろこ「ベンチ作るのやめろォ!!!!」 [485187932]