人類每天都在進行高層次的規劃來指導自己的各種活動,但對于機器人來說這并不容易。幸運的是,越來越多的工作表明,層級抽象(即視覺運動子程序)可以提高強化學習中的樣本效率,這是一種人工智能訓練技術,它利用獎勵來推動智能體實現目標。
傳統上,這些層次結構必須通過端到端訓練進行手動編程或者獲取,這需要大量的時間、持續的注意力和足夠的耐心。但是在 Arxiv.org 上新發布的論文「通過觀看視頻學習導航子程序」中,FacebookAI Research、加州大學伯克利分校和伊利諾伊大學厄巴納 - 香檳分校的科學家描述了一個通過使用逆機器學習模型攝取視頻“偽標記”來學習層次結構。
這讓人想起去年 Facebook 開源的一對模型Talk the Walk。該模型可以使用 360 度圖像、自然語言以及具有標志性地標(如銀行、餐廳等)的地圖來指導紐約市的街道,能夠在不知道用戶位置的情況下提供步行路線。
早上來杯咖啡成為很多都市白領每天必不可少的“自我喚醒”環節。坐在辦公室的人類如果想去茶水間倒杯咖啡,你會從門廳走到底,拐向左邊的走廊,然后再進入右邊的房間。當人類在做這一系列思考與動作的時候,我們不是決定具體需要調動哪塊肌肉,而是通過組合這些可重復使用的低級視覺運動子程序來達到目標,從而達成更高抽象水平的規劃。
研究人員表示,這些視覺運動子程序,使規劃能夠減輕傳統規劃中的高計算成本和強化學習中的高樣本復雜性等已知問題。
Facebook的系統包含兩個階段。第一階段,研究人員通過運行訓練模型,使用隨機勘探數據的自我監督來生成偽標簽。模型學習了分布在四個不同環境中的1500個位置點,然后隨機執行30個步驟的動作,產生45,000個交互樣本。
在第二階段,大約217,000個偽標記視頻被切成220萬個互相獨立的剪輯片段然后被輸入一個模型,這個模型預測參考視頻中采取的相應動作的模型,而一個單獨的網絡檢查參考視頻中的動作序列并將行為編碼為矢量(例如數學表示)。另一個模型通過預測來自第一幀的軌跡的推斷編碼,針對任何給定視頻幀選擇調用哪些學習子例程。
在一個實驗中,機器人被部署在真實的辦公環境中。研究表明,學習視頻(比如如何最有效的方式前往目標位置)能夠讓機器人的表現比用純交互方法學習達到更好的效果,至少能夠顧及到以前看不見的環境。
也許最令人印象深刻的是,這個訓練有素的模型學會了有利于前進導航并避免障礙物,導航任務比曾經的最佳基準快4倍,這使得它能夠完全自主地進行長距離行進。
-
AI
+關注
關注
91文章
39793瀏覽量
301443 -
Facebook
+關注
關注
3文章
1432瀏覽量
58933
原文標題:如何在辦公室不動聲色地繞過老板視線?Facebook的AI通過看視頻自學成才
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
瑞芯微SOC智能視覺AI處理器
【飛凌OK-MX9596-C開發板試用】②體驗WIFI、藍牙、音頻、視頻,為AI應用打下基礎
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用
RK3576助力智慧安防:8路高清采集與AI識別
FLIR聲學成像儀在工業檢測領域的應用
AI視頻分析系統
【BPI-CanMV-K230D-Zero開發板體驗】視頻會議場景下的 AI 應用(電子云臺 EPTZ、人像居中 / 追蹤、畫中畫)
電子工程師自學成才手冊.提高篇
4K、多模態、長視頻:AI視頻生成的下一個戰場,誰在領跑?
看視頻答題抽好禮 | 功率放大器應用知多少?線上有獎問答等你來戰!
Facebook的AI通過看視頻自學成才
評論