国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌訓練開發一個萬億參數的AI語言模型

lhl545545 ? 來源:比特網 ? 作者:Yu ? 2021-01-18 16:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

參數是機器學習算法的關鍵。它們是從歷史訓練數據中學到的模型的一部分。一般來說,在語言領域,參數的數量和復雜性之間的相關性非常好。例如,OpenAI的GPT-3是有史以來訓練了1750億個參數的最大語言模型之一,它可以進行原始類比、生成配方,甚至完成基本代碼。

近日,谷歌的研究人員開發了一種技術,并對其進行基準測試,他們聲稱這種技術能夠訓練包含超過一萬億參數的語言模型。他們表示,他們的1.6萬億參數模型是迄今為止最大的,比之前最大的谷歌開發的語言模型(T5-XXL)快了4倍。

研究人員指出,大規模訓練是建立強大模型的有效途徑。簡單的架構,大數據集和參數計數的支持,超越了更復雜的算法。但是,大規模的訓練雖然有效,但計算強度極高。這就是為什么研究人員追求他們所謂的Switch?Transformer,一種“稀疏激活”技術,它只使用模型權重的子集,或轉換模型內輸入數據的參數。

Switch?Transformer的新穎之處在于它有效地利用了為密集矩陣乘法(廣泛應用于語言模型的數學運算)設計的硬件,如GPU和TPU。在研究人員的分布式訓練設置中,他們的模型將不同的權重分配到不同的設備上,這樣權重就會隨著設備數量的增加而增加,但在每個設備上都保持可管理的內存和計算空間。

在一項實驗中,研究人員使用32個TPU內核預先訓練了幾種不同的Switch?Transformer模型,這個語料是一個750GB大小的數據集,包含從Reddit、Wikipedia和其他網絡資源上獲取的文本。他們讓這些模型預測有15%的單詞被掩蓋的段落中遺漏的單詞,以及其他挑戰,比如檢索文本回答一系列越來越難的問題。

研究人員聲稱,與包含3950億個參數和64名專家的更小的模型(Switch-XXL)相比,他們發明的擁有2048名專家的1.6萬億參數模型(Switch-C)則“完全沒有訓練不穩定性”。

然而,在SQuAD的基準測試上,Switch-C的得分卻更低(87.7),而Switch-XXL的得分為89.6,研究人員將此歸因于微調質量、計算要求和參數數量之間的不明確關系。

在這種情況下,Switch?Transformer還是在許多下游任務上的效果有了提升。例如,在使用相同數量的計算資源的情況下,它可以使預訓練的速度提高了7倍以上。

同時研究人員證明,大型稀疏模型可以用來創建更小、更稠密的模型,這些模型可以對任務進行微調,其質量增益只有大型模型的30%?。

在一個測試中,一個?Switch?Transformer?模型被訓練在100多種不同的語言之間進行翻譯,研究人員觀察到其中101種語言都得到了普遍的改善。

在未來的工作中,研究人員計劃將Switch?Transformer應用于新的和不同的形態中去,包括圖像和文本。他們認為,模型稀疏性在一系列不同的媒體和多模態模型中都具有優勢。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6254

    瀏覽量

    111385
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136940
  • 大數據
    +關注

    關注

    64

    文章

    9063

    瀏覽量

    143746
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    訓練到推理:大模型算力需求的新拐點已至

    在大模型產業發展的早期階段,行業焦點主要集中在大模型訓練所需的算力投入。萬億
    的頭像 發表于 02-05 16:07 ?798次閱讀
    從<b class='flag-5'>訓練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    、概念篇1.什么是大模型?大模型是指參數規模巨大(通常達到數十億甚至萬億級別)、使用海量數據訓練
    的頭像 發表于 02-02 16:36 ?891次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    文了解Mojo編程語言

    Mojo 是種由 Modular AI 公司開發的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結合,特別適合人工智能(
    發表于 11-07 05:59

    在Ubuntu20.04系統中訓練神經網絡模型些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2為
    發表于 10-22 07:03

    文看懂AI訓練、推理與訓推體的底層關系

    (Inference)。它們就像“學霸的高考備考”和“考試當天的答題表現”,缺不可。1、什么是AI訓練(Training)?通過大量數據訓練模型
    的頭像 發表于 09-19 11:58 ?2415次閱讀
    <b class='flag-5'>一</b>文看懂<b class='flag-5'>AI</b><b class='flag-5'>訓練</b>、推理與訓推<b class='flag-5'>一</b>體的底層關系

    模板驅動 無需訓練數據 SmartDP解決小樣本AI算法模型開發難題

    。但是這個平臺不適用于小樣本AI模型開發,特別是些特殊行業,數據本來就不多,但又有著需求,因此陷于兩難。面臨這種市場困境,慧視光電推出了
    的頭像 發表于 09-09 17:57 ?1400次閱讀
    模板驅動  無需<b class='flag-5'>訓練</b>數據  SmartDP解決小樣本<b class='flag-5'>AI</b>算法<b class='flag-5'>模型</b><b class='flag-5'>開發</b>難題

    谷歌AI模型點亮開發無限可能

    在 2025 年的 Google 谷歌開發者大會上,AI 不是門“技術”,更是股徹底改變開發
    的頭像 發表于 08-29 09:29 ?1135次閱讀

    Cognizant加速AI模型企業級開發

    -Cognizant推出AI Training Data Services,助力企業級AI模型加速開發 Cognizant是數據與AI
    的頭像 發表于 07-31 17:25 ?708次閱讀

    ai_cube訓練模型最后部署失敗是什么原因?

    ai_cube訓練模型最后部署失敗是什么原因?文件保存路徑里也沒有中文 查看AICube/AI_Cube.log,看看報什么錯?
    發表于 07-30 08:15

    海思SD3403邊緣計算AI數據訓練概述

    模型,將模型轉化為嵌入式AI模型模型升級AI攝像機,進行
    發表于 04-28 11:11

    RAKsmart智能算力架構:異構計算+低時延網絡驅動企業AI訓練范式升級

    AI模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨算力效率與成本的雙重挑戰。R
    的頭像 發表于 04-17 09:29 ?763次閱讀

    RAKsmart高性能服務器集群:驅動AI語言模型開發的算力引擎

    RAKsmart高性能服務器集群憑借其創新的硬件架構與全棧優化能力,成為支撐大語言模型開發的核心算力引擎。下面,AI部落小編帶您了解RAKsmart如何為
    的頭像 發表于 04-15 09:40 ?698次閱讀

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    模型全鏈路分析功能,針對AI應用開發的三大痛點逐個擊破。 當前AI應用開發者在使用開發工具時會
    發表于 04-13 19:52

    利用RAKsmart服務器托管AI模型訓練的優勢

    AI模型訓練需要強大的計算資源、高效的存儲和穩定的網絡支持,這對服務器的性能提出了較高要求。而RAKsmart服務器憑借其核心優勢,成為托管AI模型
    的頭像 發表于 03-18 10:08 ?689次閱讀

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18