>>481
>取り敢ず何かの形で解を求めないといけない

話題の将棋からみ
http://yaneuraou.yaneu.com/2017/05/23/elmo%E3%81%8C%E3%82%82%E3%81%9F%E3%82%89%E3%81%97%E3%81%9F%E3%82%AA%E3%83%BC%E3%83%91%E3%83%BC%E3%83%84%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6/
elmoがもたらしたオーパーツについて やねうら王公式サイト 20170523
(抜粋)
WCSC27で優勝したelmoがもたらしたのは、たった一行の革命だった。
交差エントロピーで勾配を求めるとき、普通は次式のようになる。

dsig = eval_winrate ? teacher_winrate;

eval_winrateは、浅い探索(qsearch)の評価値を勝率に変換する関数(シグモイド関数を用いている)で変換したもの。
teacher_winrateは、深い探索(search)の評価値を勝率に変換する関数で変換したもの。

交差エントロピーで勾配を求める場合、上式のように差をとるだけだ。この式の導出については、第4回電王トーナメントのときの白美神のPR文書にある。 http://denou.jp/tournament2016/img/PR/Hakubishin.pdf
elmo式の雑巾絞りはこの式を次のように改良した。

dsig = (eval_winrate -t) + 0.5 * (eval_winrate ? teacher_winrate);

tはこの局面の手番側が最終的に勝っているなら1(勝率100%)、負けているなら0(勝率0%)とする。

もともと、ゲームの勝敗を用いて強化学習を行うというのは、他の分野ではdeep learning + 強化学習という形でdeep learningの入門記事にもあるような内容だし、将棋ソフトにおいてもなかったアイデアではない。
どちらかと言えば、いまの雑巾絞りのようにRootStrapにするほうが特殊なアイデアである。しかし、RootStrapとして勝敗を用いるというのはなかったのではないかと思う。(Seleneが似たようなことをしていた気はするが) そして、elmoはそれがとてもうまくいくと実証したことも大きい。

興味深いことにelmo式で作成した評価関数は、以前の評価関数とは性質が異なるようで、短い時間(1スレッド1手1秒)では以前の評価関数に負け越すこともある。しかし長い時間になればなるほど以前の評価関数に勝ち越すようになる。(差が開くようになる)
elmo式雑巾絞りが新たな扉を開いたことは間違いなさそうだ。
(引用終り)