玖玖干,久久香蕉青草精品视频,天天爽天天射国产

地處加拿大埃德蒙頓的阿爾伯塔大學（UAlberta）可謂是強化學習重鎮，這項技術的締造者之一薩頓（Rich Sutton）在這里任教。

△薩頓

薩頓常被稱為“強化學習之父”，他對強化學習的重要貢獻包括時序差分學習和策略梯度方法。

如果你研究過強化學習，可能對他和巴爾托（Andrew Barto）合著的一本書很熟悉：《強化學習導論》（Reinforcement Learning, an introduction）。這本書被引用了2.5萬多次，如今，第二版即將出版，全書草稿也已經在網上公開。

薩頓科普了強化學習、深度強化學習，并談到了這項技術的潛力和發展方向

△Reinforcement Learning, an introduction草稿http://incompleteideas.net/book/bookdraft2017nov5.pdf

巴爾托是薩頓的博士論文導師，薩頓的博士論文《強化學習的時間學分分配》（Temporal Credit Assignment in Reinforcement Learning）中，引入了一種評價器結構和“時間信用分配”。他們把“顯而易見”的強化學習理念，變成了一個以數學為基礎的可行理論。

薩頓獲得了斯坦福大學心理學學士學位(1978年)和碩士學位(1980)，以及馬薩諸塞大學安姆斯特分校計算機博士學位(1984)。

從1985年到1994年，Sutton擔任GTE實驗室的首席技術員。之后，他在麻省大學安姆斯特分校做了3年的高級研究員，然后又到AT&T香農實驗室做了5年的首席技術員。2003年以來，他一直在阿爾伯塔大學計算機系擔任教授兼iCORE主席，領強化學習和人工智能實驗室。

2003年以來，薩頓在阿爾伯塔大學計算機系任教授、iCORE主席，領導著強化學習和人工智能實驗室。今年6月，DeepMind在埃德蒙頓和阿爾伯塔大學聯合設立首個海外研究院，薩頓也是這個研究院的領導者之一。

最近，機器學習和數據科學社區KDnuggets董事長，數據科學會議KDD和ACM SIGKDD的聯合發起者Gregory Piatetsky專訪了薩頓。

薩頓在專訪中（再次）科普了強化學習、深度強化學習，并談到了這項技術的潛力，以及接下來的發展方向：預測學習。

量子位將專訪內容搬運如下：

△典型的強化學習過程

我在上世紀80年代遇到了Rich Sutton，我和他當時都剛開始在波士頓地區的GTE實驗室讀博士。我研究智能數據庫，他在強化學習部門，但是我們在GTE實驗室的項目還遠沒有實際應用。我們經常下象棋，我們倆在這方面勢均力敵，但在機器學習方面，Rich遠遠領先于我。

Q：強化學習的主要思想是什么？它與監督學習有何不同？

薩頓：在與世界的正常互動過程中，強化學習會通過試錯法利用獎勵來學習。因此，它跟自然學習過程非常相似，而與監督學習不同。

在監督學習中，學習只發生在一個特殊的訓練階段，這個階段中會出現一個正常情況下不會出現的監督或教學信號。

例如，語音識別目前通過監督學習來完成，需要使用大量的語音數據集和正確的文本內容。這些文本內容就是一種監督信號，等系統開始工作、輸入了新的語音時，就沒有這個監督信號了。

而AI打游戲，通常就是通過強化學習來實現的，需要利用游戲的結果作為獎勵。即使你玩了一個新游戲，也會看到自己是贏是輸，并且可以用強化學習算法來提高你的游戲技術。

監督式游戲學習方法則需要借助一些“正確”的動作來實現，這些動作可以來自人類專家。這很方便，但在正常的游戲中是不可用的，而且會導致學習系統的技能局限在人類專家的技能范疇內。在強化學習中，你可以用較少的訓練信息，這樣做的優勢是信息更充足，而且不受監督者的技能限制。

Q：你跟Andrew Barto合著的經典著作《強化學習導論》的第二版很快就要出版，具體什么時候？第二版的主要修訂了哪些內容？你能跟我們講講新章節里關于強化學習與心理學之間有趣聯系嗎（第14章）？還有跟神經科學之間的有趣聯系（第15章）？

薩頓：第二版的完整草稿目前已經可以在richsutton.com上看到。Andy Barto和我正在定稿：驗證所有的參考文獻，諸如此類。印刷版將于明年初發行。

從第一版發行以來的20年里，強化學習領域發生了很多事情。其中最重要的或許是強化學習思想對神經科學的巨大影響，現在，大腦獎勵系統的標準理論是，它們是一種時間差異學習的實例（這是強化學習的基本學習方法之一）。

特別地，現在的理論認為，神經遞質多巴胺的主要作用是攜帶時間差異誤差，也稱為獎勵預測誤差。這是一個巨大的發展，有許多來源、影響和測試，我們只能在書中進行概括。15和14章中介紹的這項發展和其他的發展概括了它們在心理學中的重要前提。

總的來說，第二版比第一版多了三分之二內容。函數逼近的內容從一章擴充到五章。還有關于心理學和神經科學的兩個新章節。在強化學習的前沿也有一個新章節，有一節專門介紹它的社會影響。所有的東西都在這本書中不斷更新和擴展。例如，新的應用程序章節涵蓋了Atari游戲和AlphaGo Zero。

Q：什么是深度強化學習？它與強化學習有何不同?

薩頓：深度強化學習是深度學習和強化學習的結合。這兩種學習方式在很大程度上是正交問題，二者結合得很好。

簡而言之，強化學習需要通過數據逼近函數的方法來部署其所有的組件——值函數、策略、世界模型、狀態更新——而深度學習是最近開發的函數逼近器中最新、最成功一個。

我們的教科書主要介紹線性函數逼近器，并給出一般情況下的方程。我們在應用一章和一節中介紹了神經網絡，但要充分了解深度強化學習，就必須用Goodfellow、Bengio、和Courville的《深度學習》來補充我們的書。

Q：強化學習在游戲中取得了巨大的成功，例如AlphaGo Zero。你預計強化學習還將在哪些方面有優異表現？

薩頓：當然，我相信，從某種意義上講，強化學習是人工智能的未來。有人認為，智能系統必須能夠在不接受持續監督的情況下自主學習，而強化學習正是其中的最佳代表。一個AI必須能夠自己判斷對錯，只有這樣才能擴展到大量的知識和一般技能。

Q：Yann LeCun評論說，AlphaGo Zero的成功很難推廣到其他領域，因為它每天都玩數百萬局游戲，但是你不能在現實世界里跑得更快。強化學習在哪些方面目前還沒有成功(例如，當反饋稀疏時)？如何能夠解決？

薩頓：Yann應該會認同這個觀點：關鍵是要從普通的無監督數據中學習。我和Yann也都會認同這樣一個觀點：在短期內，這將通過專注于“預測學習”來實現。

預測學習可能很快就會成為一個流行詞。它的意思是預測將要發生的事情，然后根據實際情況進行學習。因為你從發生的事情中學習，沒有一個監督員告訴你應該預測什么。但因為你通過等待發現了結果，你就有了一個監督信號。預測學習是無監督的監督式學習。預測學習可能會在應用中取得重大進展。

唯一的問題是，你希望把預測學習看成是監督學習還是強化學習的產物？強化學習的學生知道強化學習有一個主要的子問題，稱為“預測問題”，如何有效地解決這個問題正是大部分算法工作的重點。事實上，第一篇討論時間差異學習的論文題目是《學會用時間差異的方法來預測》。

Q：20世紀80年代，當研究強化學習時，你認為它會取得這樣的成功嗎?

薩頓：20世紀80年代，強化學習根本沒有流行。它本質上并不是一個科學或工程的概念。但卻是一個顯而易見的想法。對心理學家來說很明顯，對普通人來說也很明顯。所以我認為，這顯然是一件值得研究的事情，最終會得到認可。

Q：強化學習的下一個研究方向是什么？你現在在做什么?

薩頓：除了預測學習之外，我想說的是，當我們有用訓練過的世界模型來做規劃的系統時，下一個重大進步就會到來。

我們目前擁有優秀的規劃算法，但只有當有模型提供給它們時才行，就像所有游戲系統中所看到的那樣，模型是由游戲規則（和自我對局）提供的。但我們在現實世界中并沒有跟游戲規則類似的東西。我們需要物理定律，沒錯，但我們也需要知道很多其他的事情，從如何走路和觀察到別人如何回應我們所做的事情。

我們在第八章的Dyna系統中描述了一個完整的規劃和學習系統，但卻局限為幾種方式。第17章闡述了可能克服這種局限的方法。我將從那里入手。

Q：強化學習可能是通用人工智能(AGI)發展的核心。你的觀點是什么——在可預見的未來，研究人員會開發AGI嗎？如過會，這將會對人類產生巨大的好處，還是像埃隆·馬斯克(Elon Musk)警告的那樣，會對人類構成威脅？

薩頓：我認為人工智能是試圖通過制造與人類思想類似的東西來理解人類的思想。正如費曼所說，“我無法創造的東西，我就不理解它”。在我看來，會發生的重大事件是我們即將第一次真正理解意識。這種認識本身將產生巨大的影響。

這將是我們這個時代最偉大的科學成就，其實任何時候都是如此。它也將是有史以來人文學科最偉大的成就——深刻地理解我們自己。如果這樣來看待，那就不會把它看成是一件壞事。雖然是挑戰，但并不是壞事。我們將揭示哪些東西是真實的。那些不想讓它成為現實的人會把我們的工作看成是壞事，就像科學拋棄了靈魂的概念一樣，那些珍視這些想法的人認為是壞的。

毫無疑問，當我們更深入地了解大腦如何運作時，我們今天所珍視的一些觀點也會面臨同樣的挑戰。

Q：當你遠離電腦和智能手機的時候，你喜歡做什么？你最近讀過什么書？你喜歡什么書？

薩頓：我是自然的愛好者，也喜歡哲學、經濟學和科學的思辨思想。我最近讀了尼爾·斯蒂芬森的《Seveneves》、尤瓦爾·赫拉利的《人類簡史》，以及G.愛德華·格里芬的《美聯儲傳》。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴