国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向

人工智能和機器人研究院 ? 2017-12-27 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

地處加拿大埃德蒙頓的阿爾伯塔大學(UAlberta)可謂是強化學習重鎮,這項技術的締造者之一薩頓(Rich Sutton)在這里任教。

△薩頓

薩頓常被稱為“強化學習之父”,他對強化學習的重要貢獻包括時序差分學習和策略梯度方法。

如果你研究過強化學習,可能對他和巴爾托(Andrew Barto)合著的一本書很熟悉:《強化學習導論》(Reinforcement Learning, an introduction)。這本書被引用了2.5萬多次,如今,第二版即將出版,全書草稿也已經在網上公開。

薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向

△Reinforcement Learning, an introduction草稿http://incompleteideas.net/book/bookdraft2017nov5.pdf

巴爾托是薩頓的博士論文導師,薩頓的博士論文《強化學習的時間學分分配》(Temporal Credit Assignment in Reinforcement Learning)中,引入了一種評價器結構和“時間信用分配”。他們把“顯而易見”的強化學習理念,變成了一個以數學為基礎的可行理論。

薩頓獲得了斯坦福大學心理學學士學位(1978年)和碩士學位(1980),以及馬薩諸塞大學安姆斯特分校計算機博士學位(1984)。

從1985年到1994年,Sutton擔任GTE實驗室的首席技術員。之后,他在麻省大學安姆斯特分校做了3年的高級研究員,然后又到AT&T香農實驗室做了5年的首席技術員。2003年以來,他一直在阿爾伯塔大學計算機系擔任教授兼iCORE主席,領強化學習和人工智能實驗室。

2003年以來,薩頓在阿爾伯塔大學計算機系任教授、iCORE主席,領導著強化學習和人工智能實驗室。今年6月,DeepMind在埃德蒙頓和阿爾伯塔大學聯合設立首個海外研究院,薩頓也是這個研究院的領導者之一。

最近,機器學習和數據科學社區KDnuggets董事長,數據科學會議KDD和ACM SIGKDD的聯合發起者Gregory Piatetsky專訪了薩頓。

薩頓在專訪中(再次)科普了強化學習、深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習。

量子位將專訪內容搬運如下:

△典型的強化學習過程

我在上世紀80年代遇到了Rich Sutton,我和他當時都剛開始在波士頓地區的GTE實驗室讀博士。我研究智能數據庫,他在強化學習部門,但是我們在GTE實驗室的項目還遠沒有實際應用。我們經常下象棋,我們倆在這方面勢均力敵,但在機器學習方面,Rich遠遠領先于我。

Q:強化學習的主要思想是什么?它與監督學習有何不同?

薩頓:在與世界的正常互動過程中,強化學習會通過試錯法利用獎勵來學習。因此,它跟自然學習過程非常相似,而與監督學習不同。

在監督學習中,學習只發生在一個特殊的訓練階段,這個階段中會出現一個正常情況下不會出現的監督或教學信號。

例如,語音識別目前通過監督學習來完成,需要使用大量的語音數據集和正確的文本內容。這些文本內容就是一種監督信號,等系統開始工作、輸入了新的語音時,就沒有這個監督信號了。

AI打游戲,通常就是通過強化學習來實現的,需要利用游戲的結果作為獎勵。即使你玩了一個新游戲,也會看到自己是贏是輸,并且可以用強化學習算法來提高你的游戲技術。

監督式游戲學習方法則需要借助一些“正確”的動作來實現,這些動作可以來自人類專家。這很方便,但在正常的游戲中是不可用的,而且會導致學習系統的技能局限在人類專家的技能范疇內。在強化學習中,你可以用較少的訓練信息,這樣做的優勢是信息更充足,而且不受監督者的技能限制。

Q:你跟Andrew Barto合著的經典著作《強化學習導論》的第二版很快就要出版,具體什么時候?第二版的主要修訂了哪些內容?你能跟我們講講新章節里關于強化學習與心理學之間有趣聯系嗎(第14章)?還有跟神經科學之間的有趣聯系(第15章)?

薩頓:第二版的完整草稿目前已經可以在richsutton.com上看到。Andy Barto和我正在定稿:驗證所有的參考文獻,諸如此類。印刷版將于明年初發行。

從第一版發行以來的20年里,強化學習領域發生了很多事情。其中最重要的或許是強化學習思想對神經科學的巨大影響,現在,大腦獎勵系統的標準理論是,它們是一種時間差異學習的實例(這是強化學習的基本學習方法之一)。

特別地,現在的理論認為,神經遞質多巴胺的主要作用是攜帶時間差異誤差,也稱為獎勵預測誤差。這是一個巨大的發展,有許多來源、影響和測試,我們只能在書中進行概括。15和14章中介紹的這項發展和其他的發展概括了它們在心理學中的重要前提。

總的來說,第二版比第一版多了三分之二內容。函數逼近的內容從一章擴充到五章。還有關于心理學和神經科學的兩個新章節。在強化學習的前沿也有一個新章節,有一節專門介紹它的社會影響。所有的東西都在這本書中不斷更新和擴展。例如,新的應用程序章節涵蓋了Atari游戲和AlphaGo Zero。

Q:什么是深度強化學習?它與強化學習有何不同?

薩頓:深度強化學習是深度學習和強化學習的結合。這兩種學習方式在很大程度上是正交問題,二者結合得很好。

簡而言之,強化學習需要通過數據逼近函數的方法來部署其所有的組件——值函數、策略、世界模型、狀態更新——而深度學習是最近開發的函數逼近器中最新、最成功一個。

我們的教科書主要介紹線性函數逼近器,并給出一般情況下的方程。我們在應用一章和一節中介紹了神經網絡,但要充分了解深度強化學習,就必須用Goodfellow、Bengio、和Courville的《深度學習》來補充我們的書。

Q:強化學習在游戲中取得了巨大的成功,例如AlphaGo Zero。你預計強化學習還將在哪些方面有優異表現?

薩頓:當然,我相信,從某種意義上講,強化學習是人工智能的未來。有人認為,智能系統必須能夠在不接受持續監督的情況下自主學習,而強化學習正是其中的最佳代表。一個AI必須能夠自己判斷對錯,只有這樣才能擴展到大量的知識和一般技能。

Q:Yann LeCun評論說,AlphaGo Zero的成功很難推廣到其他領域,因為它每天都玩數百萬局游戲,但是你不能在現實世界里跑得更快。強化學習在哪些方面目前還沒有成功(例如,當反饋稀疏時)?如何能夠解決?

薩頓:Yann應該會認同這個觀點:關鍵是要從普通的無監督數據中學習。我和Yann也都會認同這樣一個觀點:在短期內,這將通過專注于“預測學習”來實現。

預測學習可能很快就會成為一個流行詞。它的意思是預測將要發生的事情,然后根據實際情況進行學習。因為你從發生的事情中學習,沒有一個監督員告訴你應該預測什么。但因為你通過等待發現了結果,你就有了一個監督信號。預測學習是無監督的監督式學習。預測學習可能會在應用中取得重大進展。

唯一的問題是,你希望把預測學習看成是監督學習還是強化學習的產物?強化學習的學生知道強化學習有一個主要的子問題,稱為“預測問題”,如何有效地解決這個問題正是大部分算法工作的重點。事實上,第一篇討論時間差異學習的論文題目是《學會用時間差異的方法來預測》。

Q:20世紀80年代,當研究強化學習時,你認為它會取得這樣的成功嗎?

薩頓:20世紀80年代,強化學習根本沒有流行。它本質上并不是一個科學或工程的概念。但卻是一個顯而易見的想法。對心理學家來說很明顯,對普通人來說也很明顯。所以我認為,這顯然是一件值得研究的事情,最終會得到認可。

Q:強化學習的下一個研究方向是什么?你現在在做什么?

薩頓:除了預測學習之外,我想說的是,當我們有用訓練過的世界模型來做規劃的系統時,下一個重大進步就會到來。

我們目前擁有優秀的規劃算法,但只有當有模型提供給它們時才行,就像所有游戲系統中所看到的那樣,模型是由游戲規則(和自我對局)提供的。但我們在現實世界中并沒有跟游戲規則類似的東西。我們需要物理定律,沒錯,但我們也需要知道很多其他的事情,從如何走路和觀察到別人如何回應我們所做的事情。

我們在第八章的Dyna系統中描述了一個完整的規劃和學習系統,但卻局限為幾種方式。第17章闡述了可能克服這種局限的方法。我將從那里入手。

Q:強化學習可能是通用人工智能(AGI)發展的核心。你的觀點是什么——在可預見的未來,研究人員會開發AGI嗎?如過會,這將會對人類產生巨大的好處,還是像埃隆·馬斯克(Elon Musk)警告的那樣,會對人類構成威脅?

薩頓:我認為人工智能是試圖通過制造與人類思想類似的東西來理解人類的思想。正如費曼所說,“我無法創造的東西,我就不理解它”。在我看來,會發生的重大事件是我們即將第一次真正理解意識。這種認識本身將產生巨大的影響。

這將是我們這個時代最偉大的科學成就,其實任何時候都是如此。它也將是有史以來人文學科最偉大的成就——深刻地理解我們自己。如果這樣來看待,那就不會把它看成是一件壞事。雖然是挑戰,但并不是壞事。我們將揭示哪些東西是真實的。那些不想讓它成為現實的人會把我們的工作看成是壞事,就像科學拋棄了靈魂的概念一樣,那些珍視這些想法的人認為是壞的。

毫無疑問,當我們更深入地了解大腦如何運作時,我們今天所珍視的一些觀點也會面臨同樣的挑戰。

Q:當你遠離電腦智能手機的時候,你喜歡做什么?你最近讀過什么書?你喜歡什么書?

薩頓:我是自然的愛好者,也喜歡哲學、經濟學和科學的思辨思想。我最近讀了尼爾·斯蒂芬森的《Seveneves》、尤瓦爾·赫拉利的《人類簡史》,以及G.愛德華·格里芬的《美聯儲傳》。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 強化學習
    +關注

    關注

    4

    文章

    270

    瀏覽量

    11950
  • 深度強化學習

    關注

    0

    文章

    14

    瀏覽量

    2479

原文標題:“強化學習之父”薩頓:預測學習馬上要火,AI將幫我們理解人類意識

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機器人研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的離線強化學習是什么?

    [首發于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規則,從而給自動駕駛的落地創造更多可能。
    的頭像 發表于 02-07 09:21 ?103次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是
    的頭像 發表于 01-31 09:34 ?571次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發表于 01-21 16:21 ?161次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發表于 01-12 16:23 ?287次閱讀

    如何訓練好自動駕駛端到端模型?

    [首發于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓練的?是模仿學習強化學習和離線強化學習這三類嗎?其實端到端(end-to-end)算法在自動駕駛、智能體決策系統里
    的頭像 發表于 12-08 16:31 ?1381次閱讀
    如何訓練好自動駕駛端到端模型?

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習
    發表于 11-05 09:44 ?1056次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發表于 10-23 09:00 ?599次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視技術為機器視覺(乃至生產自動化)帶來的
    的頭像 發表于 09-10 17:38 ?863次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    科普|通信射頻接頭學習

    科普|通信射頻接頭學習
    的頭像 發表于 08-19 17:09 ?888次閱讀
    <b class='flag-5'>科普</b>|通信射頻接頭<b class='flag-5'>學習</b>

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?2288次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    )和解碼(Decoding)分離的策略 ,以及冗余專家策略,在提高推理速度的同時確保系統的穩定性和可靠性。 DeepSeek 架構圖 DeepSeek-R1技術突破 01. 純強化學習訓練
    發表于 06-09 14:38

    天合儲能推動電化學儲能行業高質量發展

    近日,國家能源局綜合司等部門聯合發布《關于加強電化學儲能安全管理有關工作的通知》,從提升電池系統本質安全水平、健全標準體系、強化全生命周期安全管理責任等六個方面,為儲能行業劃出安全“底線”,也為行業高質量發展提供清晰
    的頭像 發表于 06-05 11:52 ?833次閱讀

    芯片制造“鍍”金術:化學技術的前沿突破與未來藍圖

    以及面臨的挑戰,對近年來該技術的研究進展進行了全面梳理,同時展望其未來的發展方向,旨在為芯片制造領域中化學
    的頭像 發表于 05-29 11:40 ?1714次閱讀
    芯片制造“鍍”金術:<b class='flag-5'>化學</b>鍍<b class='flag-5'>技術</b>的前沿突破與未來藍圖

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?1546次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論<b class='flag-5'>技術</b>與代碼實現

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?1234次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式