国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AlphaZero一舉登上《科學(xué)》雜志封面

jmiy_worldofai ? 來源:lq ? 2018-12-10 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

年前,Alphabet 旗下人工智能部門 DeepMind 發(fā)布 AlphaZero,稱它可以自學(xué)國際象棋、日本將棋和中國圍棋,并且項(xiàng)項(xiàng)都能擊敗世界冠軍。而今天,經(jīng)過同行評(píng)議,AlphaZero 一舉登上《科學(xué)》雜志封面。

據(jù)此前 DeepMind 在 AlphaZero 的論文中介紹,AlphaZero 使用了完全無需人工特征、無需任何人類棋譜、甚至無需任何特定優(yōu)化的通用強(qiáng)化學(xué)習(xí)算法。也就是說,AlphaZero 實(shí)質(zhì)上就是 AlphaGo Zero 的通用化進(jìn)化版本,它繼續(xù)保持了 AlphaGo Zero 中不需要人工特征、利用深度神經(jīng)網(wǎng)絡(luò)從零開始進(jìn)行強(qiáng)化學(xué)習(xí)、結(jié)合蒙特卡洛樹搜索的特點(diǎn),并在此基礎(chǔ)上,更新網(wǎng)絡(luò)參數(shù),減小網(wǎng)絡(luò)估計(jì)的比賽結(jié)果和實(shí)際結(jié)果之間的誤差,同時(shí)最大化策略網(wǎng)絡(luò)輸出動(dòng)作和蒙特卡洛樹搜索可能性之間的相似度。

然而,在 DeepMind 發(fā)布 AlphaZero 之際,AlphaZero 也遭到了某種程度的質(zhì)疑,例如,一位 AI 研究人員就指出,DeepMind 沒有公開它的 AI 系統(tǒng)源代碼,因此難以檢驗(yàn)和重復(fù)它公布的結(jié)果。而如今這項(xiàng)研究成果經(jīng)過同行評(píng)議登上《科學(xué)》雜志的首頁,算是得到了證明。有趣的是,AlphaZero 的直接對(duì)手——棋手們也紛紛表達(dá)了他們的贊許:

例如日本將棋 9 段職業(yè)選手、棋史上唯一一位獲得「永世七冠」頭銜的棋士 Yoshiharu Habu 就評(píng)價(jià)道:

它的一些移動(dòng)方法,比如將 King 移到棋盤的中心,就違背了日本將棋棋法。從人類的角度來看,AlphaZero 的這種做法似乎已將其置于危險(xiǎn)的境地,但令人難以置信的是,它仍然掌控住了棋局。它獨(dú)特的下棋風(fēng)格,讓我們看到了棋法新的可能性。

而前國際象棋世界冠軍 Garry Kasparov 也止不住地稱贊道:

我無法掩飾我的贊許,因?yàn)樗南缕屣L(fēng)格靈活多變,這跟我自己的風(fēng)格很像!

一個(gè)多世紀(jì)以來,象棋一直被用作人類和機(jī)器認(rèn)知的羅塞塔石碑。AlphaZero 以一種獨(dú)特的方式,對(duì)古代棋盤游戲與前沿科學(xué)之間的顯著聯(lián)系帶來了新的東西。

其影響遠(yuǎn)遠(yuǎn)超出了我心愛的棋盤。這些自學(xué)成才的專家機(jī)器不僅表現(xiàn)得無比出色,而且實(shí)際上,我們?nèi)祟愡€可以從它們產(chǎn)出的新知識(shí)中學(xué)習(xí)。

正如我們?cè)谇懊嫣岬降模珹lphaZero 是 AlphaGo Zero 的通用化進(jìn)化版本,而 AlphaGo Zero 又源自于 AlphaGo,接下來我們不妨簡單回顧一下這幾個(gè)版本:

最初的 AlphaGo 的工作原理是:

在蒙特卡羅樹搜索(MCTS)的框架下引入兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)以改進(jìn)純隨機(jī)的蒙特卡羅(Monte Carlo)模擬,并借助監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練這兩個(gè)網(wǎng)絡(luò),然后主要靠策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分別預(yù)測(cè)下一步落子的點(diǎn)以及評(píng)估當(dāng)前的局勢(shì)。

而從 AlphaGo 到 AlphaGo Zero,系統(tǒng)的思路和模型結(jié)構(gòu)都得到了大幅度簡化,帶來的是更快的訓(xùn)練和運(yùn)行速度,以及更高的棋力。

在更早版本的 AlphaGo 中,策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)是兩個(gè)不同的深度神經(jīng)網(wǎng)絡(luò),Zero 版本中是同一個(gè) ResNet 的兩組輸出;

AlphaGo Zero 之前幾個(gè)版本中都需要先把局面轉(zhuǎn)換為高一層的人工特征再作為網(wǎng)絡(luò)的輸入、需要先學(xué)習(xí)人類棋譜再轉(zhuǎn)變到自我對(duì)弈的強(qiáng)化學(xué)習(xí)、有一個(gè)單獨(dú)的快速走子網(wǎng)絡(luò)進(jìn)行隨機(jī)模擬,而 AlphaGo Zero 則把局面落子情況直接作為網(wǎng)絡(luò)的輸入、由隨機(jī)的網(wǎng)絡(luò)權(quán)值直接開始強(qiáng)化學(xué)習(xí)、舍棄快速走子網(wǎng)絡(luò)直接用主要的神經(jīng)網(wǎng)絡(luò)模擬走子。

接著從 AlphaGo Zero 到 AlphaZero,發(fā)生的變化主要體現(xiàn)在如下幾個(gè)方面:

第一,AlphaGo Zero 會(huì)預(yù)計(jì)勝率,然后優(yōu)化勝率,其中只考慮勝、負(fù)兩種結(jié)果;AlphaZero 則會(huì)估計(jì)比賽結(jié)果,然后優(yōu)化達(dá)到預(yù)計(jì)的結(jié)果的概率,其中包含了平局甚至別的一些可能的結(jié)果。

第二,由于圍棋規(guī)則是具有旋轉(zhuǎn)和鏡像不變性的,所以專為圍棋設(shè)計(jì)的 AlphaGo Zero 和通用的 AlphaZero 就有不同的實(shí)現(xiàn)方法。AlphaGo Zero 訓(xùn)練中會(huì)為每個(gè)棋局做 8 個(gè)對(duì)稱的增強(qiáng)數(shù)據(jù);并且在蒙特卡洛樹搜索中,棋局會(huì)先經(jīng)過隨機(jī)的旋轉(zhuǎn)或者鏡像變換之后再交給神經(jīng)網(wǎng)絡(luò)評(píng)估,這樣蒙特卡洛評(píng)估就可以在不同的偏向之間得到平均。國際象棋和日本象棋都是不對(duì)稱的,以上基于對(duì)稱性的方法就不能用了。所以 AlphaZero 并不增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹搜索中變換棋局。

第三,在 AlphaGo Zero 中,自我對(duì)局的棋局是由所有之前的迭代過程中出現(xiàn)的表現(xiàn)最好的一個(gè)版本生成的。在每一次訓(xùn)練迭代之后,新版本棋手的表現(xiàn)都要跟原先的表現(xiàn)最好的版本做對(duì)比;如果新的版本能以超過 55% 的勝率贏過原先版本,那么這個(gè)新的版本就會(huì)成為新的「表現(xiàn)最好的版本」,然后用它生成新的棋局供后續(xù)的迭代優(yōu)化使用。相比之下,AlphaZero 始終都只有一個(gè)持續(xù)優(yōu)化的神經(jīng)網(wǎng)絡(luò),自我對(duì)局的棋局也就是由具有最新參數(shù)的網(wǎng)絡(luò)生成的,不再像原來那樣等待出現(xiàn)一個(gè)「表現(xiàn)最好的版本」之后再評(píng)估和迭代。這實(shí)際上增大了訓(xùn)練出一個(gè)不好的結(jié)果的風(fēng)險(xiǎn)。

第四,AlphaGo Zero 中搜索部分的超參數(shù)是通過貝葉斯優(yōu)化得到的。AlphaZero 中直接對(duì)所有的棋類使用了同一套超參數(shù),不再對(duì)每種不同的棋做單獨(dú)的調(diào)節(jié)。唯一的例外在于訓(xùn)練中加在先前版本策略上的噪聲的大小,這是為了保證網(wǎng)絡(luò)有足夠的探索能力;噪聲的大小根據(jù)每種棋類的典型可行動(dòng)作數(shù)目做了成比例的縮放。

將 AlphaGo 發(fā)展到 Alpha Zero,DeepMind 無疑是帶給了我們驚喜的。使用人工特征的 AlphaGo Fan 在出山之戰(zhàn)中便全勝打敗樊麾,還發(fā)出第一篇論文;運(yùn)行在 50 塊 TPU 上的 AlphaGo Lee 以 4:1 的戰(zhàn)績擊敗李世石,還創(chuàng)作了紀(jì)錄片并上映;接著只用 4 塊 TPU 的 AlphaGo Master 又在烏鎮(zhèn)圍棋峰會(huì)上以 3:0 擊敗柯潔,打碎了人類所有擊敗 AlphaGo 幻想;再又有拋棄人工特征和所有人類高手棋局的 AlphaGo Zero 靠自學(xué)成功超越了「前輩」AlphaGo Master。而現(xiàn)在,DeepMind 帶來的這個(gè)更通用的、能下各種棋類的、而且在圍棋中的表現(xiàn)更上一層樓的通用強(qiáng)化學(xué)習(xí)模型——「AlphaZero」,則給我們帶來了更上一層的驚喜。

正如此前對(duì)AlphaZero 的報(bào)道中所總結(jié)的那樣:在 AlphaGo 的一路進(jìn)化中,我們見證了 DeepMind 的工程師們對(duì)深度強(qiáng)化學(xué)習(xí)本質(zhì)的思考和嘗試,也看到了不斷的優(yōu)化中帶來的無需先驗(yàn)知識(shí)、降低資源消耗、提高訓(xùn)練速度等等可喜的技術(shù)進(jìn)步。而本次 AlphaZero 登上《科學(xué)》雜志封面,也算是對(duì)他們所作出的嘗試和帶來的技術(shù)進(jìn)步的一種回應(yīng)。接下來DeepMind 還將讓Alpha Zero 進(jìn)化到什么哪個(gè)版本呢?讓我們期待一下吧~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107780
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265395
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    12290

原文標(biāo)題:AlphaZero 榮登《科學(xué)》雜志封面

文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    海信一舉斬獲CES 2026四項(xiàng)創(chuàng)新獎(jiǎng)項(xiàng)

    在備受矚目的CES2026國際消費(fèi)電子展上,海信憑借系列突破性前沿技術(shù)創(chuàng)新,一舉斬獲四項(xiàng)CES創(chuàng)新獎(jiǎng)項(xiàng)。從再次實(shí)現(xiàn)代際引領(lǐng)的全新代RGB-Mini LED顯示技術(shù)到全球首款四基色Micro
    的頭像 發(fā)表于 01-08 15:57 ?275次閱讀

    偉創(chuàng)力一舉斬獲四項(xiàng)重量級(jí)大獎(jiǎng)

    偉創(chuàng)力福永(福海)/福田和偉創(chuàng)力固戍團(tuán)隊(duì)在 2025 年全國(深圳)優(yōu)秀外商投資企業(yè)表彰中一舉斬獲四項(xiàng)重量級(jí)大獎(jiǎng),彰顯強(qiáng)勁的發(fā)展實(shí)力與優(yōu)秀的運(yùn)營表現(xiàn)。
    的頭像 發(fā)表于 01-08 15:22 ?394次閱讀

    富瀚微電子一舉斬獲兩項(xiàng)重磅榮譽(yù)

    2025年12月18日,由全球安防行業(yè)權(quán)威媒體《a&s安全自動(dòng)化》主辦的2025全球安全產(chǎn)業(yè)數(shù)字化創(chuàng)新榜評(píng)選結(jié)果正式揭曉。上海富瀚微電子股份有限公司憑借在智能視覺芯片領(lǐng)域的持續(xù)創(chuàng)新與卓越貢獻(xiàn),一舉斬獲兩項(xiàng)重磅榮譽(yù)。
    的頭像 發(fā)表于 12-29 16:48 ?340次閱讀
    富瀚微電子<b class='flag-5'>一舉</b>斬獲兩項(xiàng)重磅榮譽(yù)

    榮耀加冕 · 實(shí)力見證 | 千視一舉斬獲二項(xiàng)DAV年度大獎(jiǎng)

    近日,在備受矚目的"2025年度DAV數(shù)字音視工程網(wǎng)第十七屆年度品牌評(píng)選"中,千視電子憑借扎實(shí)的技術(shù)積累和系統(tǒng)性的解決方案能力,一舉斬獲"優(yōu)秀行業(yè)解決方案獎(jiǎng)"
    的頭像 發(fā)表于 12-29 15:58 ?816次閱讀
    榮耀加冕 · 實(shí)力見證 | 千視<b class='flag-5'>一舉</b>斬獲二項(xiàng)DAV年度大獎(jiǎng)

    博世中國一舉斬獲兩大重要獎(jiǎng)項(xiàng)

    12月11日,中國歐盟商會(huì) 2025 年可持續(xù)商業(yè)獎(jiǎng)?lì)C獎(jiǎng)典禮在上海舉行。博世中國憑借在綠色制造及社區(qū)共創(chuàng)兩大領(lǐng)域的持續(xù)深耕,一舉斬獲兩大重要獎(jiǎng)項(xiàng)。
    的頭像 發(fā)表于 12-22 15:06 ?558次閱讀

    博聯(lián)智能一舉斬獲兩項(xiàng)行業(yè)權(quán)威大獎(jiǎng)

    )憑借其在智能家居領(lǐng)域持續(xù)的技術(shù)突破、成熟的產(chǎn)品生態(tài)與廣泛的市場(chǎng)影響力,一舉斬獲慧聰網(wǎng)“智能家居領(lǐng)軍品牌”及千家智客“十大全屋智能品牌獎(jiǎng)”兩項(xiàng)行業(yè)權(quán)威大獎(jiǎng)。
    的頭像 發(fā)表于 12-19 17:28 ?957次閱讀

    宏微科技一舉斬獲兩項(xiàng)重磅行業(yè)大獎(jiǎng)

    聚力創(chuàng)新動(dòng)能,破局產(chǎn)業(yè)難題,領(lǐng)航技術(shù)前沿!近期深圳半導(dǎo)體與電源技術(shù)領(lǐng)域盛會(huì)密集,宏微科技攜旗下子公司上海宏微愛賽半導(dǎo)體有限公司(以下簡稱“宏微愛賽”)強(qiáng)勢(shì)亮相。憑借突出的技術(shù)實(shí)力與產(chǎn)品性能,宏微科技一舉斬獲兩項(xiàng)重磅行業(yè)大獎(jiǎng),成為會(huì)場(chǎng)焦點(diǎn)!
    的頭像 發(fā)表于 12-19 17:22 ?875次閱讀
    宏微科技<b class='flag-5'>一舉</b>斬獲兩項(xiàng)重磅行業(yè)大獎(jiǎng)

    廣汽集團(tuán)一舉斬獲2025中國汽車質(zhì)量獎(jiǎng)六項(xiàng)大獎(jiǎng)

    11月20日,由中國汽車質(zhì)量委員會(huì)主辦的“‘質(zhì)’敬未來 2025中國汽車質(zhì)量盛典”在廣州舉行。廣汽集團(tuán)憑借卓越的質(zhì)量管理表現(xiàn),一舉斬獲2025中國汽車質(zhì)量獎(jiǎng)六項(xiàng)大獎(jiǎng):傳祺GS3影速獲“小型SUV
    的頭像 發(fā)表于 11-26 17:28 ?1367次閱讀

    喜報(bào) | 第十四屆納博會(huì)創(chuàng)新創(chuàng)業(yè)大賽首場(chǎng)路演,云鎵半導(dǎo)體一舉奪魁,直通決賽!

    云鎵半導(dǎo)體喜報(bào)|第十四屆納博會(huì)創(chuàng)新創(chuàng)業(yè)大賽首場(chǎng)路演,云鎵半導(dǎo)體一舉奪魁,直通決賽!創(chuàng)新引領(lǐng)未來,創(chuàng)業(yè)鑄就輝煌3月21日下午第十四屆中國國際納米技術(shù)產(chǎn)業(yè)博覽會(huì)創(chuàng)新創(chuàng)業(yè)大賽啟動(dòng)儀式暨首場(chǎng)行業(yè)賽在蘇州納米
    的頭像 發(fā)表于 11-11 11:47 ?577次閱讀
    喜報(bào) | 第十四屆納博會(huì)創(chuàng)新創(chuàng)業(yè)大賽首場(chǎng)路演,云鎵半導(dǎo)體<b class='flag-5'>一舉</b>奪魁,直通決賽!

    隆基BC組件一舉包攬多項(xiàng)重磅榮譽(yù)

    9月24日,由德國萊茵TüV集團(tuán)(以下簡稱“TüV萊茵”)主辦的2025“質(zhì)勝中國”光儲(chǔ)盛典頒獎(jiǎng)典禮在江蘇常州落下帷幕。此次盛典上,隆基BC組件一舉包攬多項(xiàng)重磅榮譽(yù):面向集中式場(chǎng)景的Hi-MO 9
    的頭像 發(fā)表于 09-29 14:35 ?826次閱讀

    自動(dòng)封面機(jī)遠(yuǎn)程監(jiān)控運(yùn)維管理系統(tǒng)方案

    行業(yè)背景 在包裝印刷領(lǐng)域,自動(dòng)封面機(jī)作為實(shí)現(xiàn)封面與書芯自動(dòng)貼合的重要設(shè)備,應(yīng)用極為廣泛,涵蓋各類書殼、文件夾、臺(tái)歷等生產(chǎn)場(chǎng)景。它能夠?qū)崿F(xiàn)封面材料的裁切、折疊、貼合、壓痕等工藝的自動(dòng)化工作,極大地提升
    的頭像 發(fā)表于 07-08 10:36 ?655次閱讀
    自動(dòng)<b class='flag-5'>封面</b>機(jī)遠(yuǎn)程監(jiān)控運(yùn)維管理系統(tǒng)方案

    華芯星斬獲2024年度汽車電子科學(xué)技術(shù)獎(jiǎng)兩項(xiàng)殊榮

    行業(yè)精英,共同探討汽車電子產(chǎn)業(yè)的前沿趨勢(shì)與發(fā)展新路徑。深圳華芯星半導(dǎo)體有限公司憑借硬核實(shí)力脫穎而出,一舉攬獲“新銳企業(yè)獎(jiǎng)”與“最具投資價(jià)值獎(jiǎng)”雙項(xiàng)大獎(jiǎng)!
    的頭像 發(fā)表于 07-04 09:49 ?994次閱讀

    瀚思通斬獲2024年度汽車電子科學(xué)技術(shù)獎(jiǎng)兩項(xiàng)殊榮

    近日,由深圳市汽車電子行業(yè)協(xié)會(huì)主辦的2024年度汽車電子科學(xué)技術(shù)獎(jiǎng)?lì)C獎(jiǎng)典禮在深圳隆重舉行。瀚思通憑借自主研發(fā)的車規(guī)級(jí)LCoS PGU核心技術(shù),在眾多參評(píng)項(xiàng)目中脫穎而出,一舉斬獲“2024年度汽車電子科學(xué)技術(shù)獎(jiǎng)”「突出創(chuàng)新產(chǎn)品獎(jiǎng)」
    的頭像 發(fā)表于 07-03 18:09 ?1293次閱讀

    自動(dòng)封面機(jī)PLC數(shù)據(jù)采集遠(yuǎn)程監(jiān)控系統(tǒng)方案

    自動(dòng)封面機(jī)是種用于實(shí)現(xiàn)封面與書芯自動(dòng)貼合的設(shè)備,廣泛應(yīng)用于各類書殼、文件夾、臺(tái)歷等包裝印刷領(lǐng)域。它能夠高效、精準(zhǔn)地完成封面材料的裁切、折疊、貼合、壓痕等工藝流程,替代傳統(tǒng)的手工操作,
    的頭像 發(fā)表于 06-10 17:19 ?706次閱讀
    自動(dòng)<b class='flag-5'>封面</b>機(jī)PLC數(shù)據(jù)采集遠(yuǎn)程監(jiān)控系統(tǒng)方案

    賽思×三峽集團(tuán) | 雙北斗時(shí)鐘同步改造方案,筑牢三峽工程北斗授時(shí)安全防線

    GPS與北斗混合授時(shí)安全隱患重重?賽思雙北斗時(shí)鐘同步改造方案一舉搞定!
    的頭像 發(fā)表于 04-18 10:58 ?174次閱讀
    賽思×三峽集團(tuán) | 雙北斗時(shí)鐘同步改造方案,筑牢三峽工程北斗授時(shí)安全防線