>234 :オーバーテクナナシー:2017/10/22(日) 16:29:39.32 ID:OxyFh9rK
:
> ざっと計算すると TPU v2 500台以上のようです.

>982 :オーバーテクナナシー:2017/10/21(土) 16:07:30.11 ID:a/eTVL+d
:
> AlphaGo Zero ry ビックデータ不要と省力化 ry 。DeepMindのSilver教授は「 ry パワー」や「データ」より、
> 『アルゴリズム』 ry アルゴリズムの改善で囲碁のルールをAI自らが習得 ry 示唆
>http://mobile.twitter.com/gijigae/status/921563340794511360

>222 :オーバーテクナナシー:2017/10/22(日) 15:37:23.62 ID:FY2y9u5K
:
> AlphaGo Zeroの論文の要約 : ブログ
> http://blog.livedoor.jp/yuno_miyako/archives/1068350228.html

>ークとバリューネットワークを一つ ry まとめてしまっ ry モンテカルロロールアウトをやらずにもっと単純な木探索
:
>モンテカルロ木探索が強力なポリシーネットワークを強化 ry 。強化学習はモンテカルロ木探索でポリシーを強化

>221 :名無しさん@そうだ選挙に行こう! Go to vote!:2017/10/22(日) 15:28:38.27 ID:OxyFh9rK
:
> > Re: AlphaGo Zero 投稿者:山下 投稿日:2017年10月19日(木)07時44分48秒
:
> 3. Policy、Value、などと分割せずに、1つのネットワーク。
:
>> > 出力はValueとPolicy。一つのネットワーク。
:
>> MasterはZeroと同じ手法で作られているが、人が作ったRolloutは使っていた。
>> 学習段階ではMCTSを使ってる。 学習の中に先読みを取り入れた、新しい強化学習

>248
→ エスパー化進捗 推論時省パワー