国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟亞洲研究院的研究員們提出了一種模型壓縮的新思路

深度學習自然語言處理 ? 來源:微軟研究院AI頭條 ? 作者:微軟研究院AI頭條 ? 2020-11-24 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:深度學習的發展推動了很多大型神經網絡模型的誕生,這些模型在多個領域中都取得了當前最優的性能,基于Transformer的預訓練模型也在自然語言理解(NLU)和自然語言生成(NLG)領域中成為主流。然而,這些模型所包含的參數量巨大,計算成本高昂,極大地阻礙了此類模型在生產環境中的應用。為了解決該問題,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種模型壓縮的新思路。

隨著深度學習的流行,很多大型神經網絡模型誕生,并在多個領域中取得當前最優的性能。尤其是在自然語言處理(NLP)領域中,預訓練和調參已經成為其中大多數任務的新范式。基于 Transformer 的預訓練模型在自然語言理解(NLU)和自然語言生成(NLG)領域中成為主流。盡管這些模型從“過參數化”的特性中獲益,但它們往往包含數百萬甚至數十億個參數,這就使得此類模型的計算成本高昂,且從內存消耗和高延遲的角度來看計算低效。這一缺陷極大地阻礙了此類模型在生產環境中的應用。

為了解決該問題,研究人員提出了很多神經網絡壓縮技術。一般而言,這些技術可以分為三類:量化、權重剪枝和知識蒸餾(Knowledge Distillation)。其中,由于知識蒸餾能夠壓縮預訓練語言模型,所以得到了極大關注。知識蒸餾利用大型教師模型“教”緊湊的學生模型模仿教師的行為,從而將教師模型中嵌入的知識遷移到較小的模型中。但是,學生模型的性能狀況取決于設計良好的蒸餾損失函數,正是這個函數使得學生模型可以模仿教師的行為。近期關于知識蒸餾的研究甚至利用更復雜的模型特定蒸餾損失函數,以實現更好的性能。

近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數來最小化教師模型與學生模型距離的知識蒸餾不同的模型壓縮新方法。受到著名哲學思想實驗“忒修斯之船”的啟發(即如果船上的木頭逐漸被替換,直到所有的木頭都不是原來的木頭,那這艘船還是原來的那艘船嗎?),研究員們在 EMNLP 2020 上發表了 Theseus Compression for BERT (BERT-of-Theseus),該方法逐步將 BERT 的原始模塊替換成參數更少的替代模塊(點擊文末閱讀原文,了解論文詳情)。研究員們將原始模型叫做“前輩”(predecessor),將壓縮后的模型叫做“接替者”(successor),分別對應知識蒸餾中的教師和學生。

該方法的工作流程如下圖所示。首先為每個前輩模塊指定一個接替者模塊,然后在訓練階段中以一定的概率(如拋硬幣)決定是否用替代模塊隨機替換對應的前輩模塊,并按照新舊模塊組合的方式繼續訓練。在模型收斂后,將所有接替者模塊組合成接替者模型,進而執行推斷。這樣就可以將大型前輩模型壓縮成緊湊的接替者模型了。

舉例來說,假設現在有兩支籃球隊每支各五人,一支是經驗老道的全明星球隊,另一支則是年輕球員組成的青訓隊。為了提高青訓隊的水平,所以隨機選派青訓隊員去替換掉全明星隊中的球員,然后讓這個混合的球隊不斷地練習、比賽。通過向前輩學習經驗,新加入成員的實力會有所提升,也能學會和其他隊員的配合,逐漸的這個混合球隊就擁有了接近全明星球隊的實力。之后重復這個過程,直到青訓隊員都被充分訓練,最終青訓隊員也能自己組成一支實力突出的球隊。相比之下,如果沒有“老司機”來帶一帶,青訓隊無論如何訓練,水平也不會達到全明星隊的實力。

事實上,Theseus 壓縮與知識蒸餾的思路有些類似,都是鼓勵壓縮模型模仿原始模型的行為,但 Theseus 壓縮有很多獨特的優勢。

首先,Theseus 壓縮在壓縮過程中僅使用任務特定的損失函數。而基于知識蒸餾的方法除了使用任務特定的損失函數外,還需加入繁瑣的蒸餾損失函數作為優化目標。

其次,與近期研究 TinyBERT 等不同,Theseus 壓縮不使用Transformer 特定特征進行壓縮,這就為壓縮廣泛模型提供了可能性。與知識蒸餾僅使用原始模型執行推斷不同,該方法允許前輩模型與壓縮后的接替者模型共同訓練,從而實現更深層次的梯度級交互,并簡化訓練過程。

此外,混合了前輩模塊和接替者模塊的不同模塊組合還添加了額外的正則化項(類似于 Dropout)。該方法基于課程學習(Curriculum Learning)方法來驅動模塊替換,將模塊替換概率從低到高逐漸增加,從而實現優異的 BERT 壓縮性能。利用Theseus 壓縮方法壓縮得到的 BERT 模型運算速度是之前的1.94 倍,并且保留了原始模型超過98% 的性能,優于其它基于知識蒸餾的壓縮的基線方法。

通過在預訓練語言模型 BERT 上的成功實驗,微軟亞洲研究院的研究員們希望可以為模型壓縮打開一種全新的思路,并希望看到這一方法在計算機視覺等領域的更廣泛應用。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 微軟
    +關注

    關注

    4

    文章

    6741

    瀏覽量

    107850
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107750
  • 函數
    +關注

    關注

    3

    文章

    4417

    瀏覽量

    67499

原文標題:【EMNLP2020】忒修斯之船啟發下的知識蒸餾新思路 - 微軟研究院

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    誠邁科技攜手應急管理大學、中鐵十九局共建智慧應急科技創新研究院

    1月25日,由誠邁科技、應急管理大學、中鐵十九局共同組建的智慧應急科技創新研究院(以下簡稱“研究院”)在應急管理大學南校區正式啟動。應急管理大學黨委書記趙峰華,中鐵十九局黨委常委、副總經理趙琦,誠邁
    的頭像 發表于 01-27 11:51 ?468次閱讀
    誠邁科技攜手應急管理大學、中鐵十九局共建智慧應急科技創新<b class='flag-5'>研究院</b>

    纖納光電獲得2025年度浙江省企業研究院認定

    近日,浙江省經濟和信息化廳發布2025年度擬認定省企業研究院名單。經企業申報、縣級審查、市級推薦、專家評審等程序,纖納光電建設的“浙江省纖納新能源鈣鈦礦技術企業研究院”成功入選。
    的頭像 發表于 12-16 17:31 ?1270次閱讀

    廣電計量與長沙三大研究院達成戰略合作

    11月26-27日,廣電計量與長沙北斗產業安全技術研究院集團股份有限公司(簡稱“長沙北斗研究院”)、長沙量子測量產業技術研究院有限公司(簡稱“長沙量子研究院”)、湖南大學長沙半導體技術
    的頭像 發表于 12-04 14:36 ?514次閱讀

    AI資訊:前DeepSeek研究員羅福莉已加入小米 英偉達夜蒸發超萬億元

    給大家帶來些最新的AI業界新聞: 前DeepSeek研究員羅福莉已加入小米 此前直傳言稱雷軍以千萬年薪招攬DeepSeek開源大模型DeepSeek-V2的關鍵開發者之
    的頭像 發表于 11-12 17:02 ?1209次閱讀

    大化所提出高效等離子體啁啾壓縮方法 實現阿秒軟X射線激光輸出

    近日,我所化學反應動力學全國重點實驗室大連光源科學研究室楊學明院士、張未卿研究員團隊與深圳先進光源研究院科研團隊合作,在超快軟X射線自由電子激光(FEL)領域取得新進展。研發團隊提出
    的頭像 發表于 10-27 07:36 ?211次閱讀
    大化所<b class='flag-5'>提出</b>高效等離子體啁啾<b class='flag-5'>壓縮</b>方法 實現阿秒軟X射線激光輸出

    廣電計量攜手南山研究院打造大健康產業新生態

    10月19日, “南山研究院南海四周年系列活動”在廣東省南山醫藥創新研究院(簡稱“南山研究院”)成功舉辦。期間,南山研究院與廣電計量等多家單位聯合共建的華南醫學健康功效循證評價中心正式
    的頭像 發表于 10-23 17:42 ?1118次閱讀

    西門子EDA與北京開源芯片研究院達成戰略合作

    近日,西門子EDA與北京開源芯片研究院宣布達成戰略合作:西門子EDA的Tessent Embedded Analytics解決方案現已全面支持以“昆明湖”為代表的香山RISC-V Core,該解決方案將為選擇香山開源處理器的用戶提供一種實時監控CPU程序執行的機制。
    的頭像 發表于 09-05 17:19 ?4936次閱讀
    西門子EDA與北京開源芯片<b class='flag-5'>研究院</b>達成戰略合作

    京東方首個材料研究院項目開工

    2025年8月20日,BOE(京東方)材料研究院項目開工儀式在山東省煙臺市黃渤海新區八角片區成功舉辦。
    的頭像 發表于 08-22 09:12 ?1281次閱讀

    帝奧微車規芯片研究院獲得CNAS認證

    近日,帝奧微車規芯片研究院通過中國合格評定國家認可委員會(CNAS)評審,正式獲得CNAS認證。
    的頭像 發表于 08-12 14:00 ?2020次閱讀

    今日看點丨亞馬遜上海AI研究院解散;索尼擬出售以色列芯片部門

    ? ? ? 1、 亞馬遜上海AI研究院解散! 據報道,AWS亞馬遜云科技上海AI研究院的首席應用科學家王敏捷發朋友圈稱,他們收到通知,AWS亞馬遜云科技上海AI研究院(也是AWS最后
    發表于 07-24 09:42 ?1417次閱讀
    今日看點丨亞馬遜上海AI<b class='flag-5'>研究院</b>解散;索尼擬出售以色列芯片部門

    勇藝達人工智能研究院迎大咖加盟

    近日,深圳勇藝達總部隆重舉行 “數智融合 聚賢賦能 —— 勇藝達人工智能研究院高端人才聘任儀式”,正式聘請黃道權先生與吳天準先生加盟,為研究院注入頂尖智慧力量,此舉標志著勇藝達在人工智能領域的戰略布局邁出關鍵步,也是踐行 “人
    的頭像 發表于 07-10 18:04 ?947次閱讀

    無刷直流電機雙閉環串級控制系統仿真研究

    Madlab進行BLDC建模仿真的方法,并且也提出了很多的建模仿真方案。例如有研究人員提出采用節點電流法對電機控制系統進行分析,通過列寫m函數,建立BLDC控制系統真模型,這種方法實質
    發表于 07-07 18:36

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大小; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經網絡剪枝的顯存估計 神經網絡剪枝是一種減少模型參數數量的技術,可以降低顯存需求。通過剪枝,可以
    發表于 07-03 19:43

    導遠科技與清華大學無錫應用技術研究院達成合作

    近日,導遠科技與清華大學無錫應用技術研究院(以下簡稱:研究院)達成合作。導遠科技將提供高精度定位產品及解決方案,以支持研究院在L4級自動駕駛和人形機器人領域的技術研發及轉化落地。
    的頭像 發表于 06-12 16:34 ?1021次閱讀

    安徽省水利科學研究院攜手中科曙光完成DeepSeek大模型部署

    近日,安徽省(水利部淮河水利委員會)水利科學研究院攜手中科曙光,成功完成國產大模型DeepSeek、BGE-M3嵌入模型及重排模型的本地化部署與測試,并順利接入梅山水庫運行管理矩陣平臺
    的頭像 發表于 03-25 11:36 ?1033次閱讀