電子發燒友網報道(文/李彎彎)大模型,又稱為預訓練模型、基礎模型等,大模型通常是在大規模無標注數據上進行訓練,學習出一種特征和規則。近期火爆的ChatGPT,便是基于GPT大模型的一個自然語言處理工具。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個。可以看到,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,參數量實現了從億級到百萬億級的突破。從模態支持上看,AI大模型從支持圖片、圖像、文本、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
AI大模型的發展歷程
AI大模型的發展,還要從2017年Vaswani等提出Transformer架構說起,Transformer架構的提出奠定了當前大模型領域主流的算法架構基礎。
2018年,谷歌提出了大規模預訓練語言模型BERT,該模型是基于Transformer的雙向深層預訓練模型,其參數首次超過3億規模;同年,OpenAI提出了生成式預訓練Transformer模型GPT,大大地推動了自然語言處理領域的發展。此后,基于BERT的改進模型、ELNet、RoBERTa、T5等大量新式預訓練語言模型不斷涌現,預訓練技術在自然語言處理領域蓬勃發展。
2019年,OpenAI繼續推出15億參數的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。緊接著,英偉達推出了83億參數的Megatron-LM,谷歌推出了110億參數的T5,微軟推出了170億參數的圖靈Turing-NLG。
2020年,OpenAI推出了超大規模語言訓練模型GPT-3,參數達到1750億,在兩年左右的時間實現了模型規模從億級到上千億級的突破,并能夠實現作詩、聊天、生成代碼等功能。此后,微軟和英偉達在2020年10月聯手發布了5300億參數的MegatronTuring自然語言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高達1.6萬億的參數量成為史上首個萬億級語言模型;到2022年一大批大模型涌現,比如Stability AI發布的文字到圖像的創新模型Diffusion,以及OpenAI推出的ChatGPT。
在國內,大模型研究發展迅速。2021年,商湯發布了書生(INTERN)大模型,擁有100億的參數量;2021年4月,華為云聯合循環智能發布盤古NLP超大規模預訓練語言模型,參數規模達1000億,聯合北京大學發布盤古α超大規模預訓練模型,參數規模達2000億。
同年4月,阿里達摩院發布270億參數的中文預訓練語言模型PLUG,聯合清華大學發布參數規模達到 1000億的中文多模態預訓練模型M6;7月,百度推出ERNIE 3.0知識增強大模型,參數規模達到百億;10月,浪潮信息發布約2500億的超大規模預訓練模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,參數規模達2600億。
2022 年,基于清華大學、阿里達摩院等研究成果以及超算基礎實現的“腦級人工智能模型”八卦爐(BAGUALU)完成建立,其模型參數規模突破了174萬億個。可以看到,目前大模型參數規模最高已經達到百萬億級別。
大模型研究的重要意義
當前人工智能正處在可以用到好用的落地階段,但目前仍處于商業落地早期,主要面臨著場景需求碎片化、人力研發和應用計算成本高、長尾場景數據較少導致模型訓練精度不夠、模型算法從實驗室場景到真實場景效果差距大等行業痛點。
大模型具備大規模和預訓練的特點,一方面有良好的通用性、泛化性,能夠解決傳統AI應用中門檻高、部署難的問題,另一方面可以作為技術底座,支撐智能化產品及應用落地。
過去很多年,雖然各大科技公司不斷推出較大規模的模型,然而直到去年生成式AI逐漸走向商業化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎來發展的轉折點。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示,ChatGPT和AIGC,技術爆火背后,代表著人工智能(AI)大模型進入一個新的技術范式,也是第三波AI浪潮經過十幾年發展之后一個非常重要的拐點。
張宏江認為,它其實代表著從以前各自研發專用小模型到研發超大規模通用智能模型的一個范式轉變。這個轉變的重要意義在于:通過這種比較先進的算法架構,盡可能多的數據,匯集大量算力,集約化的訓練達模式,從而供大量用戶使用。
大模型的發展很可能會改變信息產業的格局,改變以前作坊式AI開發模式,把AI應用帶入基于互聯網、云計算的大規模智能云階段。
小結
雖然過去十幾年人工智能技術發展迅速,然而在近幾年卻遇到了一些技術瓶頸和商業化難題。而大模型的發展和普及,尤其是通過大模型+微調的新技術開發范式,人工智能將能夠更好的在各種場景中實現應用,當然大模型的訓練和推理對算力等也提出了很高的要求,因此大模型的研究最終能夠如何推進人工智能產業的發展,還需要產業鏈各環節的共同努力。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
89文章
37814瀏覽量
294907 -
ChatGPT
+關注
關注
30文章
1596瀏覽量
10041
發布評論請先 登錄
相關推薦
熱點推薦
xMEMS完成2100萬美元D輪融資,加速突破性piezoMEMS技術在AI消費設備中的商業化進程
、CDIB-TEN Capital、Harbinger Venture Capital、SIG Asia Investments(海納國際集團SIG的附屬公司)及其他戰略投資者跟投。 新資金將用于加速xMEMS基于piezoMEMS的揚聲器和微型散熱芯片的量產與全球商業化
企創科技與天罡智算合作再升級,獨家運營模型市場賦能AI應用高效商業化
重要升級。在既有品牌戰略合作基礎上,企創科技正式成為天罡智算平臺"AI模型市場"的獨家運營商,此標志著雙方合作從品牌層面深化至業務運營核心,共同為人工智能企業打造從市場推廣到商業轉化的完整閉環服務。 一、強強聯合,構建
從續航焦慮到安全飛行:增程式技術如何推動eVTOL商業化落地
在低空經濟加速發展的背景下,電動垂直起降飛行器(eVTOL)的商業化進程面臨核心挑戰——續航能力和動力可靠性。純電推進系統受限于當前電池能量密度,難以滿足中遠程飛行需求,而增程式發電系統
比肩HBM,SOCAMM內存模組即將商業化
參數規模達數百億甚至萬億級別,帶來巨大內存需求,但HBM內存價格高昂,只應用在高端算力卡上。SOCAMM則有望應用于AI服務器、高性能計算、
經緯恒潤和白犀牛達成戰略合作,加速自動駕駛商業化進程
近日,經緯恒潤與全球領先的L4級別自動駕駛公司白犀牛達成戰略合作。雙方將圍繞車規級智能硬件研發、高可靠性無人車產品開發展開深度合作,共同推動末端物流無人車的規模化商業落地。此次合作,雙方將充分發揮
首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
基石。
Neuron Studio打造全流程一站式開發體驗,為AI應用開發按下加速鍵
AI 應用的開發瓶頸,從來都不是“點的問題”,而是“鏈的問題”:開發工具碎片化,調優過程靠手動,單
發表于 04-13 19:52
PCIe 7.0最終版草案發布,傳輸速率128 GT/s,PCIe 6.0加速商業化
PCIe 7.0最終版草案發布,傳輸速率128 GT/s,PCIe 6.0加速商業化 ? 電子發燒友網綜合報道,近日,PCI-SIG 組織公布了 PCI Express 7.0 規范的0.9 版草案
發表于 03-29 00:07
?1002次閱讀
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
突破40%;數據中心加速卡市場復合增長率達34%......
2. 萬億級市場的四大賽道1) 智能駕駛新基建:單輛L4自動駕駛車搭載12-16片FPGA;動態可重構技術實現毫秒級算法切換
發表于 03-03 11:21
Gupshup加速企業AI應用進程
Gupshup-Gupshup推出預構建、行業訓練有素的多模態AI代理,加速企業AI應用進程 印度尼西亞雅加達2025年2月14日?/美通社/ -- 全球領先的對話式
DeepSeek大模型受行業熱捧,加速AI應用迭代
趨勢反映出DeepSeek大模型在AI領域的強大影響力。通過接入DeepSeek,這些機構能夠獲取更先進的AI技術支持,從而提升其產品的智能化水平和競爭力。 機構表示,隨著
DeepSeek大模型攜手廣和通,加速AI普惠化進程
近期,國產大模型DeepSeek憑借其開放性、低訓練成本以及端側部署的顯著優勢,迅速嶄露頭角,成為增速最為迅猛的AI應用之一。這一突破性進展,為AI技術的普惠化應用開辟了新路徑。 值得
谷歌表示計劃在五年內推出商業化量子計算應用程序
谷歌量子計算負責人近日接受路透社采訪時稱谷歌計劃在五年內推出商業化的量子計算應用程序,這一表態挑戰了英偉達對于量子計算商業化進程的預判。 谷歌量子人工智能部門創始人兼負責人哈特穆特?內
汽車制造商搶灘人形機器人領域,技術協同與商業化探索
近年來,隨著人工智能技術的飛速發展,特別是大型語言模型的廣泛應用,人形機器人迎來了前所未有的發展機遇。這一趨勢不僅為機器人的自然語言交互和自動化決策能力帶來了顯著提升,更為其商業化應用鋪平了道路。在此背景下,國內汽車制造商紛紛涉
政策與技術并行,共推Robotaxi商業化進程?
高級別自動駕駛的發展離不開政策與技術的雙重驅動。政府對“車路云一體化”建設的支持推動了基礎設施的完善,同時高級別自動駕駛的監管體系逐步完善,為自動駕駛商業化
NVIDIA推出加速物理AI開發的Cosmos世界基礎模型
經數百萬小時的駕駛和機器人視頻數據訓練的先進模型,可用于普及物理 AI 開發,并以開放模型許可形式提供。

大模型參數達百萬億級別,AI商業化進程加速!
評論