国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌開發出超過一萬億參數的語言模型,秒殺GPT-3

人工智能與大數據技術 ? 來源:新智元 ? 作者:新智元 ? 2021-01-27 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

繼GPT-3問世僅僅不到一年的時間,Google重磅推出Switch Transformer,直接將參數量從GPT-3的1750億拉高到1.6萬億,并比之前最大的、由google開發的語言模型T5-XXL足足快了4倍。

對于機器學習來說,參數可以算得上算法的關鍵:他們是歷史的輸入數據,經過模型訓練得來的結果,是模型的一部分。

一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性。

迄今為止,OpenAI 的 GPT-3是有史以來最大的語言模型之一,有1750億個參數。

現在,距離GPT-3問世不到一年的時間,更大更復雜的語言模型又來了——

在對這種相關性進行最全面測試的基礎上,谷歌的研究人員開發了一種能夠訓練包含超過一萬億參數的語言模型:Switch Transformer,并進行了基準測試。

他們表示,1.6萬億參數模型是迄今為止最大的,并比之前最大的、由google開發的語言模型T5-XXL足足快了4倍。

5d825108-6001-11eb-8b86-12bb97331649.png

圖:Switch 模型設計和預訓練表現

研究人員在論文中表示,對于強大模型來說,進行大規模訓練是一個非常有效的途徑。

盡管在大數據集和參數支撐下的簡單的架構可以超越一些復雜的算法,然而,高效且大規模的訓練卻屬于極度的計算密集型。

5db674a6-6001-11eb-8b86-12bb97331649.png

而這,也正是Google的研究者發明Switch Transformer的原因。

5e0e1de6-6001-11eb-8b86-12bb97331649.png

圖:Switch Transformer編碼塊

Switch Transformer使用了一種叫做稀疏激活(sparsely activated)的技術,這個技術只使用了模型權重的子集,或者是轉換模型內輸入數據的參數,即可達成相同的效果。

此外,Switch Transformer還主要建立在混合專家(Mix of Expert)的基礎上。

5e4d3a44-6001-11eb-8b86-12bb97331649.png

圖:Token動態路由示例

什么是“混合專家”呢?

混合專家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

在MoE中,對于不同的輸入,會選擇不同的參數。多個專家(或者專門從事不同任務的模型)被保留在一個更大的模型中,針對任何給定的數據,由一個“門控網絡”來選擇咨詢哪些專家。

其結果是一個稀疏激活的模型——具有數量驚人的參數,但計算成本不變。然而,盡管MoE取得了一些顯著的成功,但其廣泛采用仍然受到復雜性、通信成本和訓練不穩定性的阻礙。而Switch Transformer則解決了這些問題。

Switch Transformer的新穎之處,在于它有效地利用了為密集矩陣乘法(廣泛應用于語言模型的數學運算)設計的硬件,如GPU和谷歌的TPU。

5e91fe36-6001-11eb-8b86-12bb97331649.png

圖:數據和權重劃分策略

在研究人員的分布式訓練設置中,他們的模型將不同的權重分配到不同的設備上,因此,雖然權重會隨著設備數量的增加而增加,但是每個設備卻可以保持可管理的內存和計算足跡。

在一項實驗中,研究人員使用了32個TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 數據集上,預先訓練了幾種不同的Switch Transformer模型。

C4是一個750gb大小的數據集,包含從Reddit、Wikipedia和其他web資源上獲取的文本。

研究人員讓這些Switch Transformer模型去預測有15%的單詞被掩蓋的段落中遺漏的單詞,除此之外,還為模型布置了許多其他挑戰,如檢索文本來回答一系列越來越難的問題等等。

研究人員聲稱,和包含3950億個參數和64名專家的更小的模型(Switch-XXL)相比,他們發明的擁有2,048名專家的1.6萬億參數模型(Switch-C)則“完全沒有訓練不穩定性”。

然而,在SQuAD的基準測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6。

對此,研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。

在這種情況下,Switch Transformer還是在許多下游任務上的效果有了提升。例如,根據研究人員的說法,在使用相同數量的計算資源的情況下,它可以使預訓練的速度提高了7倍以上。

5f28a390-6001-11eb-8b86-12bb97331649.png

圖:所有模型均在32個TPU上進行訓練

同時研究人員證明,大型稀疏模型可以用來創建更小、更稠密的模型,這些模型可以對任務進行微調,其質量增益只有大型模型的30% 。

在一個測試中,一個 Switch Transformer 模型被訓練在100多種不同的語言之間進行翻譯,研究人員觀察到其中101種語言都得到了“普遍的改善”,91% 的語言受益于超過baseline模型4倍以上的速度。

5f8a406e-6001-11eb-8b86-12bb97331649.png

圖:101種語言的多語言預訓練

研究人員在論文中寫道: “雖然這項工作主要集中在超大型模型上,但我們也發現,只有兩個專家的模型能夠提高性能,同時很容易適應常用 GPU 或 TPU 的內存約束。”

“我們不能完全保證模型的質量,但是通過將稀疏模型蒸餾成稠密模型,同時達到專家模型質量增益的30%的情況下 ,是可以達到10到100倍壓縮率的。”

在未來的工作中,研究人員計劃將Switch Transformer應用到新的和跨越不同的模態中去,包括圖像和文本。他們認為,模型稀疏性可以賦予各種不同媒介以及多模態模型一些優勢。

在論文的最后,Google的研究人員還表示:

總的來說,Switch Transformers是一個可擴展的,高效的自然語言學習模型。

通過簡化MoE,得到了一個易于理解、易于訓練的體系結構,該結構還比同等大小的密集模型具有更大的采樣效率。

這些模型在一系列不同的自然語言任務和不同的訓練機制中,包括預訓練、微調和多任務訓練,都表現出色。

這些進步使得使用數千億到萬億參數訓練模型成為可能,相對于密集的T5基準,這些模型可以實現顯著的加速。

谷歌的研究人員表示,希望他們的工作能夠激勵稀疏模型成為一種有效的架構,并鼓勵研究人員和實踐者在自然語言任務中考慮這些靈活的模型。

原文標題:1.6萬億參數,秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111379
  • 人工智能
    +關注

    關注

    1817

    文章

    50097

    瀏覽量

    265319
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52101

原文標題:1.6萬億參數,秒殺GPT-3!谷歌推出超級語言模型Switch Transformer,比T5快4倍

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發布:AI領域的重大飛躍

    躍升重新定義了人工智能的能力邊界。OpenAI首席執行官山姆·奧特曼在發布會上直言:“這不僅是模型的升級,更是通往通用人工智能(AGI)的關鍵里程碑。” ? ? GPT-5:集成模型,能力躍升 ?
    的頭像 發表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發布:AI領域的重大飛躍

    模型實戰(SC171開發套件V2-FAS)

    模型實戰(SC171開發套件V2-FAS) 序列 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 工程源碼 1 大語言模型(Qwen3)案
    發表于 02-11 14:57

    解鎖谷歌FunctionGemma模型的無限潛力

    在智能體 AI 領域,工具調用能力是將自然語言轉化為可執行軟件操作的關鍵。此前,我們發布了專門針對函數調用而特別優化的 Gemma 3 270M 模型版本 FunctionGemma。該模型
    的頭像 發表于 02-04 11:30 ?327次閱讀
    解鎖<b class='flag-5'>谷歌</b>FunctionGemma<b class='flag-5'>模型</b>的無限潛力

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數規模巨大(通常達到數十億甚至萬億級別)、使用海量數據訓練而成的人工智能模型。2.什么是大
    的頭像 發表于 02-02 16:36 ?891次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    上海交大發布國產光學大模型Optics GPT

    電子發燒友網綜合報道 1月25日,上海交通大學正式推出光學領域垂直大語言模型——Optics GPT(光學大模型),這是一款完全自主研發的國產模型
    的頭像 發表于 01-26 09:59 ?1112次閱讀
    上海交大發布國產光學大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    GPT-5.1發布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網友實測發現OpenAI新發布的GPT-5.1大
    的頭像 發表于 11-13 15:49 ?702次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    繼續追本溯源,與騰訊學堂合作撰寫本文,嘗試讓人人都能懂大語言模型的基礎原理。1、大語言模型簡述截止到2025年“大模型”一般泛指“超大
    的頭像 發表于 09-02 13:34 ?3453次閱讀
    <b class='flag-5'>3</b>萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    谷歌AI模型點亮開發無限可能

    在 2025 年的 Google 谷歌開發者大會上,AI 不是一門“技術”,更是一股徹底改變開發范式的“力量”,助力開發者們在海外市場更上一層樓。AI 已經不僅僅是生成幾行代碼,它正在
    的頭像 發表于 08-29 09:29 ?1134次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    Token (TPS)。 這兩個 gpt-oss 模型是具有鏈式思維和工具調用能力的文本推理大語言模型 (LLM),采用了廣受歡迎的混合專家模型
    的頭像 發表于 08-15 20:34 ?2299次閱讀
    NVIDIA從云到邊緣加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,實現150萬TPS推理

    OpenAI或在周五凌晨發布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或將發布。據外媒的報道,GPT-5很可能在周五凌晨發布。這是OpenAI在2023年的3
    的頭像 發表于 08-07 14:13 ?1.2w次閱讀

    ?Groq LPU 如何讓萬億參數模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何讓萬億參數模型「飛」起來?揭秘 Kimi K2 40 倍提速背后的黑科技? 最近,Moonshot AI 的千億參數模型 ?Kimi K2? 在 ?GroqCl
    的頭像 發表于 08-07 10:01 ?973次閱讀

    面向萬億參數模型,“超節點”涌現

    C UniPoD系列超節點產品,旨在為萬億參數模型的訓練與推理提供更強勁、更智能且更綠色的算力支持。 ? H3C UniPoD系列超節點產品基于領先的Scale-up南向互聯技術,
    的頭像 發表于 08-03 02:37 ?8901次閱讀
    面向<b class='flag-5'>萬億</b>級<b class='flag-5'>參數</b>大<b class='flag-5'>模型</b>,“超節點”涌現

    萬億參數!元腦企智一體機率先支持Kimi K2大模型

    應用大模型提供高處理性能和完善的軟件工具平臺支持。 ? Kimi K2是月之暗面推出的開源萬億參數模型,創新使用了MuonClip優化器進行訓練,大幅提升了
    的頭像 發表于 07-22 09:27 ?557次閱讀
    <b class='flag-5'>萬億</b><b class='flag-5'>參數</b>!元腦企智一體機率先支持Kimi K2大<b class='flag-5'>模型</b>

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任
    的頭像 發表于 04-30 18:34 ?1305次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細解析

    的詳細解析: 1. 核心組成與工作原理 視覺編碼器 :提取圖像特征,常用CNN(如ResNet)或視覺Transformer(ViT)。 語言模型 :處理文本輸入/輸出,如GPT、BERT等,部分
    的頭像 發表于 03-17 15:32 ?8828次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析