国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

簡單介紹了強化學習的基本概念

mK5P_AItists ? 來源:未知 ? 作者:李倩 ? 2018-06-26 09:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

由于Alpha Go的成功,強化學習始終是人們談論的焦點。現在Thomas Simonini在國外blog網站上發布了系列強化學習教程,以下是本系列的第一篇,簡單介紹了強化學習的基本概念。

An introduction to Reinforcement Learning

我們基于TensorFlow制作了一門深度強化學習的視頻課程【1】,主要介紹了如何使用TensorFlow實現強化學習問題求解。

強化學習是機器學習的一種重要分支,通過“agent ”學習的方式,得出在當前環境下所應該采取的動作,并觀察得到的結果。

最近幾年,我們見證了了許多研究領域的巨大進展,例如包括2014年的“DeepMind and the Deep Q learning architecture”【2】,2016年的“beating the champion of the game of Go with AlphaGo”【3】,2017年的“OpenAI and the PPO”【4】

在這個系列文章中,我們將關注于深度學習問題中各類不同的求解方法。包括Q-learning,DeepQ-learning,策略梯度,ActorCritic,以及PPO。

在第一篇文章中,你將會學到:

強化學習是什么,為什么說“獎勵”是最重要的思想。

強化學習的三個方法。

深度強化學習中的“深度”是什么意思?

在進入深度學習實現的主題之前,一定要把這些元素弄清楚。

強化學習背后的思想是,代理(agent)將通過與環境(environment)的動作(action)交互,進而獲得獎勵(reward)。

從與環境的交互中進行學習,這一思想來自于我們的自然經驗,想象一下當你是個孩子的時候,看到一團火,并嘗試接觸它。

火很溫暖,你感覺很開心(獎勵+1)。你就會覺得火是個好東西。

可一旦你嘗試去觸摸它。哎呦!火把你的手燒傷了(懲罰-1).你才明白只有與火保持一定距離,才會產生溫暖,才是個好東西,但如果太過靠近的話,就會燒傷自己。

這一過程是人類通過交互進行學習的方式。強化學習是一種可以根據行為進行計算的學習方法。

強化學習的過程

舉個例子,思考如何訓練agent 學會玩超級瑪麗游戲。這一強化學習過程可以被建模為如下的一組循環過程。

agent從環境中接收到狀態S0。(此案例中,這句話意思是從超級瑪麗游戲中得到的第一幀信息)

基于狀態S0,agent執行A0操作。(右移)

環境轉移至新狀態S1。(新一幀)

環境給予R1獎勵。(沒死:+1)

強化學習循環輸出狀態、行為、獎勵的序列。整體的目標是最大化全局reward的期望。

獎勵假設是核心思想

在強化學習中,為了得到最好的行為序列,我們需要最大化累積reward期望。

每個時間步的累積reward可以寫作:

等價于:

然而,在現實世界中,我們不能僅僅加入獎勵。這種獎勵來的太快,且發生的概率非常大,因此比起長期獎勵來說,更容易預測。

另一個例子中,agent 是老鼠,對手是貓,目標是在被貓吃掉之前,先吃掉最多的奶酪。

從圖中可以看到,吃掉身邊的奶酪要比吃掉貓旁邊的奶酪,要容易許多。

由于一旦被貓抓住,游戲即將結束,因此,貓身邊的奶酪獎勵會有衰減。

我們對折扣的處理如下所示(定義gamma為衰減比例,在0-1之間):

Gamma越大,衰減越小。這意味著agent 的學習過程更關注于長期的回報。

另一方面,更小的gamma,會帶來更大的衰減。這意味著我們的agent 關心于短期的回報。

衰減后的累計獎勵期望為:

每個時間步間的獎勵將與gamma參數相乘,獲得衰減后的獎勵值。隨著時間步驟的增加,貓距離我們更近,因此為未來的獎勵概率將變得越來越小。

事件型或者持續型任務

任務是強化學習問題中的基礎單元,我們可以有兩類任務:事件型與持續型。

事件型任務

在這一情況中,我們有一個起始點和終止點(終止狀態)。這會創建一個事件:一組狀態、行為、獎勵以及新獎勵。

對于超級瑪麗的情況來說,一個事件從游戲開始進行記錄,直到角色被殺結束。

持續型任務

持續型任務意味著任務不存在終止狀態。在這一案例中,agent 將學習如何選擇最好的動作,并與環境同步交互。

例如,通過agent 進行自動股票交易。在這個任務中,并不存在起始點和終止狀態,直到我們主動終止之前,agent 將一直運行下去。

蒙特卡洛與時間差分學習方法

接下來將學習兩種方法:

蒙特卡洛方法:在事件結束后收集獎勵,進而計算未來獎勵的最大期望。

時間差分學習:在每一個時間步進行估計計算。

蒙特卡洛方法

當時間結束時(agent 達到“終止狀態”),agent 將看到全部累積獎勵,進而計算它將如何去做。在蒙特卡洛方法中,獎勵只會在游戲結束時進行收集。

從一個新游戲開始,agent 將會隨著迭代的進行,完成更好的決策。

舉例如下:

如果我們在如上環境中:

總是從相同位置開始

當被貓抓到或者移動超過20步時,事件終止。

在事件的結尾,我們得到一組狀態、行為、獎勵以及新狀態。

agent 將對整體獎勵Gt求和。

基于上面的公式對V(st)求和

根據更新的認知開始新的游戲

隨著執行的事件越來越多,agent 學習的結果將越來越好。

時間查分學習:每步更新

對于時序差分學習,不需要等到每個事件終止便可以根據未來獎勵的最大期望估計進行更新。

這種方法叫做TD(0)或者單步TD方法(在每個步驟間隔進行值函數更新)。

TD方法在每一步進行值函數評估更新。在t+1時,立刻觀察到獎勵Rt+1,并得到當前的評估值V(st+1)。

TD的目標是得到評估值,并根據單步的估計值完成前一個估計值V(st)更新。

探索/開發間的平衡

在繼續了解其他細節之前,我們必須介紹一個非常重要的主題:探索與開發之間的平衡。

探索是為了發現環境的更多信息

開發是為了根據已知信息去最大化獎勵值。

記住,我們agent 的目標是為了最大化累積獎勵的期望,然而,我們可能陷入到一個常見的陷阱中。

在游戲中,老鼠可以獲得無限的小奶酪(1次獲得1個),但在迷宮的上部,有一個超大的奶酪包裹(1次可獲得1000個)。

然而,如果我們只關注于獎勵,agent 將永遠無法達到奶酪包裹處。并且,它將會僅去探索最近的獎勵來源,即使這個獎勵特別小(開發,exploitation)。

但如果agent 進行一點小小的探索工作,就有可能獲得更大的獎勵。

這就是探索與開發的平衡問題。我們必須定義出一個規則,幫助agent 去解決這個平衡。我們將在未來文章中通過不同策略去解決這一問題。

強化學習的三種方法

現在我們定義了強化學習的主要元素,接下來將介紹三種解決強化學習問題的方法,包括基于值的方法、基于策略的方法與基于模型的方法。

基于值的方法

在基于值的強化學習方法中,目標是優化值函數V(s)。

值函數的作用是,告訴我們在每個狀態下,未來最大化的獎勵期望。

值是每個狀態條件下,從當前開始,在未來所能取得的最大總回報的值。

agent 將使用值函數去在每一步選擇采用哪個狀態。

在迷宮問題中,在每一步將選擇最大值:-7,-6,-5等等。

基于策略的方法

在基于策略的強化學習方法中,我們希望能直接優化策略函數π(s)。

策略的定義是,在給定時間的agent 行為。

通過學習到策略函數,可以讓我們對每個狀態映射出最好的相關動作。

兩種策略:

確定策略:在給定狀態下總是返回相同動作。

隨機策略:輸出一個動作的概率分布。

如同我們看到的,策略直接指出了每一步的最優行為。

基于模型的方法

在基于模型的強化學習中,我們對環境建模,這意味著我們創造了環境的模型。

問題是,每種行為都需要不同的模型表示,這就是為什么在接下來的文章中并沒有提及此類方法的原因。

深度強化學習的介紹

深度強化學習采用深度神經網絡以解決強化學習問題。

在例子中,在下一篇文章我們將采用Q-learning與深度Q-learning。

你將會看到顯著地不同,在第一種方法中,我們將使用一個傳統算法那去創建Q值表,以幫助我們找到每種狀態下應采用的行為。第二種方法中,我們將使用神經網絡(得到某狀態下的近似獎勵:Q值)。

這篇文章里有很多信息,在繼續進行之前,一定要真正掌握住基礎知識。

重點:這篇文章是這一免費的強化學習博文專欄的第一部分。關于更多的資源,見此鏈接【5】.

下一次我們將基于Q-learning訓練agent 去玩FrozenLake游戲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5598

    瀏覽量

    124396
  • 強化學習
    +關注

    關注

    4

    文章

    270

    瀏覽量

    11967
  • tensorflow
    +關注

    關注

    13

    文章

    334

    瀏覽量

    62176

原文標題:【干貨】強化學習介紹

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的離線強化學習是什么?

    [首發于智駕最前沿微信公眾號]在之前談及自動駕駛模型學習時,詳細聊過強化學習的作用,由于強化學習能讓大模型通過交互學到策略,不需要固定的規則,從而給自動駕駛的落地創造更多可能。
    的頭像 發表于 02-07 09:21 ?203次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學習</b>是什么?

    強化學習會讓自動駕駛模型學習更快嗎?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛大模型訓練時,有的技術方案會采用模仿學習,而有些會采用強化學習。同樣作為大模型的訓練方式,強化學習有何不同?又有什么特點呢? 什么是強化學習
    的頭像 發表于 01-31 09:34 ?641次閱讀
    <b class='flag-5'>強化學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    多智能體強化學習(MARL)核心概念與算法概覽

    訓練單個RL智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。這就是多智能體強化學習
    的頭像 發表于 01-21 16:21 ?193次閱讀
    多智能體<b class='flag-5'>強化學習</b>(MARL)核心<b class='flag-5'>概念</b>與算法概覽

    上汽別克至境E7首發搭載Momenta R6強化學習大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發。新車將搭載Momenta R6強化學習大模型,帶來全場景的智能出行體驗。
    的頭像 發表于 01-12 16:23 ?325次閱讀

    TVS二極管的基本概念和主要作用

    芝識課堂的全新內容又和大家見面啦!從本期開始,我們將用四節課為大家系統介紹一位在電路設計中默默奉獻的“無名英雄”——TVS二極管。我們會從它的基本概念、工作原理,聊到如何為電路挑選合適的型號、布局
    的頭像 發表于 11-28 09:27 ?1.7w次閱讀
    TVS二極管的<b class='flag-5'>基本概念</b>和主要作用

    今日看點:智元推出真機強化學習;美國軟件公司SAS退出中國市場

    智元推出真機強化學習,機器人訓練周期從“數周”減至“數十分鐘” ? 近日,智元機器人宣布其研發的真機強化學習技術,已在與龍旗科技合作的驗證產線中成功落地。據介紹,此次落地的真機強化學習
    發表于 11-05 09:44 ?1090次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學習(Reinforcement Learning,簡稱RL)”,強化學習是一類讓機器通過試錯來學會做決策的技術。簡單理解
    的頭像 發表于 10-23 09:00 ?662次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學習</b>”是個啥?

    學習物聯網怎么入門?

    聯網的基本概念和技術是學習物聯網的重要第一步。物聯網是指互聯網上的物品相互連接,通過網絡實現信息交流和共享的一種技術。學習物聯網需要了解物聯網的基本概念,如物聯網的架構、物聯網的協議、
    發表于 10-14 10:34

    ARM入門學習方法分享

    的關鍵。一旦你掌握ARM的基本概念和匯編語言,你可以開始進行一些簡單的ARM項目。你可以嘗試編寫一些簡單的程序,如LED閃爍、按鍵輸入等,以加強你的實踐能力。 五、
    發表于 07-23 10:21

    電壓波動與閃變的基本概念

    如果您是電力系統工程師、電氣設備維護人員或者相關專業的學生,應該注意到了有關電能質量的國家標準GB/T 12326-2008是有關電壓波動和閃變的,那這兩個參數的考核意義是什么?國家標準規定這兩個參數如何計算、測量和考核?這篇文章帶您全面了解電壓波動和閃變的基本概念、重要性以及國家標準的規定。
    的頭像 發表于 07-22 14:10 ?2991次閱讀
    電壓波動與閃變的<b class='flag-5'>基本概念</b>

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?2345次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    群延遲的基本概念和仿真實例分析

    在高速數字通信和射頻系統中,信號從發送端到接收端的傳輸過程中會遇到各種失真和畸變。群延遲(Group Delay)作為描述系統相位線性度的重要參數,直接影響著信號保真度和系統性能。本文將深入淺出地介紹群延遲的基本概念、應用場景,并通過仿真示例展示其在實際工程中的重要性。
    的頭像 發表于 07-08 15:14 ?2305次閱讀
    群延遲的<b class='flag-5'>基本概念</b>和仿真實例分析

    第十三章 通訊的基本概念

    本章介紹通訊基本概念,包括串行/并行、全雙工/半雙工/單工、同步/異步通訊,還提及通訊速率中比特率與波特率的概念
    的頭像 發表于 05-22 17:29 ?2062次閱讀
    第十三章 通訊的<b class='flag-5'>基本概念</b>

    EMC電路基礎知識

    本課程分三個章節,分別從概念,基本理論和系統方面簡單介紹 EMC 的基 本概念、標準、測試內容,產品認證和電磁兼容的基本理論,最后
    發表于 05-19 16:13

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?1610次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現