国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI圈巨震!微軟論文聲稱ChatGPT是20B(200億)參數量的模型?

CVer ? 來源:新智元 ? 2023-11-01 16:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導讀】微軟最近一篇論文爆料,GPT-3.5的參數量只有20B,遠遠小于之前GPT-3公布175B。網友表示,ChatGPT能力似乎「配得上」這個體量?

GPT-3.5只有200億參數?

今天,大模型圈都被微軟論文中的一紙截圖刷爆了,究竟是怎么回事?

就在前幾天,微軟發表了篇論文并掛在了arXiv上,該論文提出了一個參數量只有75M的小規模擴散模型——CodeFusion。

性能方面,7500萬參數的CodeFusion在top-1準確率指標上,可以與最先進的350M-175B模型相媲美。

fc683000-785c-11ee-939d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2310.17680

這篇論文的工作很有意義,但引起大家格外注意的卻是——

作者在對比ChatGPT(gpt-3.5-turbo)時,標稱的參數量竟然只有20B!

fc77aca6-785c-11ee-939d-92fbcf53809c.png

在此之前,大家針對GPT-3.5參數量的猜測都是1750億,這相當于是縮減了差不多十倍!

fc8a2fac-785c-11ee-939d-92fbcf53809c.png

根據這篇論文的爆料,網友還去維基百科上更新了GPT-3.5的介紹,直接把參數大小改成了20B。

消息一出,直接登上知乎熱搜,網友們都炸了。

fca5c104-785c-11ee-939d-92fbcf53809c.png

有人表示,趕緊回頭再把我之前模型蒸餾的博文拿出來復習復習 。

fcb0865c-785c-11ee-939d-92fbcf53809c.png

是「烏龍」還是「事實」?

網友的爆料貼一出,瞬間就引發了激烈的討論。

目前,已經有超過68萬人前來圍觀。

fcbf4048-785c-11ee-939d-92fbcf53809c.png

這位老哥表示,論文的幾位作者也都在用推特,估計過不了多久就會親自下場解釋。

fcca9e5c-785c-11ee-939d-92fbcf53809c.png

而對于這個神秘的「20B」,網友們也是眾說紛紜。

fcdd2298-785c-11ee-939d-92fbcf53809c.png

有人猜測,這很可能是作者手誤打錯了。比如原本是120B,或者200B。

fceadfd2-785c-11ee-939d-92fbcf53809c.png

結合現實中的各項評測來看,確實有很多小模型能夠取得和ChatGPT差不多的成績,比如Mistral-7B。

fcf5aa3e-785c-11ee-939d-92fbcf53809c.png

也許,這也是側面證實了GPT-3.5體量真的不大。

fcffd162-785c-11ee-939d-92fbcf53809c.png

很多網友也認為20B的參數可能是準確的,紛紛發出感嘆:

「這也太難以想象了!Falcon-180B和Llama2-70B,竟然都無法擊敗這款20B的模型。」

fd15eb00-785c-11ee-939d-92fbcf53809c.png

也有網友認為,gpt-3.5-turbo是精煉版的gpt-3.5。

而這次參數的「泄露」,正好從側面印證了那些關于gpt-3.5-turbo表現不如舊版gpt-3.5的傳言。

fd20504a-785c-11ee-939d-92fbcf53809c.png

不過,根據OpenAI的官方文檔,除了已經不再使用的text-davinci和code-davinci,GPT-3.5家族全員都是基于gpt-3.5-turbo構成的。

fd2a28fe-785c-11ee-939d-92fbcf53809c.png

fd3462c4-785c-11ee-939d-92fbcf53809c.png

fd473494-785c-11ee-939d-92fbcf53809c.png

微軟發布CodeFusion

而爆出GPT3.5只有20B參數的微軟論文,是想介紹一個用于代碼生成的擴散模型。

研究人員針對Bash、Python和Microsoft Excel條件格式(CF)規則的自然語言生成代碼的任務來評估這個模型——CodeFusion。

實驗表明,CodeFusion(只有75M參數)在top-1精度方面與最先進的LLM(350M-175B參數)相當,并且在top-3和top-5精度方面性能和參數比非常優秀。

fd52e794-785c-11ee-939d-92fbcf53809c.png

模型架構CODEFUSION用于代碼生成任務,它的訓練分為兩個階段,第一階段是無監督預訓練,第二階段是有監督微調。

fd5d9748-785c-11ee-939d-92fbcf53809c.png

在第一階段,CODEFUSION使用未標記的代碼片段來訓練降噪器和解碼器。它還使用可訓練的嵌入層L,將代碼片段嵌入到連續空間中。

在第二階段,CODEFUSION進行有監督的微調,使用來自文本-代碼對數據。在這個階段,編碼器、降噪器和解碼器都會得到調整,以更好地執行任務。

此外,CODEFUSION還借鑒了之前有關文本擴散的研究成果,將來自解碼器的隱藏表示D融合到模型中。這是為了改進模型的性能。在訓練過程中,在不同step中,模型引入一些噪聲,然后計算損失函數,以確保生成的代碼片段更符合預期的標準。

總之,CODEFUSION是一個執行代碼生成工作的小模型,通過兩個階段的訓練和噪聲引入來不斷提升其性能。這個模型的靈感來自于文本擴散的研究,并通過融合解碼器的隱藏表示來改進損失函數,以更好地生成高質量的代碼片段。

評估結果

下表總結了CODEFUSION模型與各個基線模型在top-1、top-3和top-5設置下的性能表現。

在top-1中,CODEFUSION的性能與自回歸模型相媲美,甚至在某些情況下表現更出色,尤其是在Python任務中,只有GPT-3(175B)的性能稍微優于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明顯優于所有基線模型。

fd7e7cec-785c-11ee-939d-92fbcf53809c.png

表下表展示了CODEFUSION和自回歸模型(包括T5、CodeT5、StarCoder、CodeGen、GPT-3)在各項基準任務上的平均多樣性結果,考察了每個模型的前5代生成結果。

相對于自回歸模型,CODEFUSION生成更加多樣化的結果,表現更出色。

fd897d68-785c-11ee-939d-92fbcf53809c.png

在消融實驗中,作者停止了去噪過程,并生成了在時間步t∈[0, T]范圍內的當前狀態的代碼片段。利用歸一化字符串編輯距離來衡量每個時間步長(每100步為一個增量)所獲得的結果。

這一方法有助于總結和展示CODEFUSION模型的逐步進展,如下圖所示。

fd96984a-785c-11ee-939d-92fbcf53809c.png

說了這么多,GPT-3.5的參數量到底是多少?GPT-4與GPT-3.5在技術和其他方面有著什么樣的聯系?

GPT-3.5是一個個小專家模型的集成還是一個通才模型?是通過更大模型的蒸餾還是更大數據訓練?

這些問題的答案只能等到真正開源的時候才能揭曉了。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301431
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10269

原文標題:AI圈巨震!微軟論文聲稱ChatGPT是20B(200億)參數量的模型?

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    太強了!AI PC搭載70B模型,算力狂飆,內存開掛

    了1.5B/7B/8B/14B/32B/70B/671B
    的頭像 發表于 03-24 08:52 ?3605次閱讀
    太強了!<b class='flag-5'>AI</b> PC搭載70<b class='flag-5'>B</b>大<b class='flag-5'>模型</b>,算力狂飆,內存開掛

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發表于 02-19 13:43

    微軟發布AI芯片Maia 200,性能超越谷歌TPU和亞馬遜Trainium

    。 ? Maia 200采用臺積電先進的3納米工藝制造,現已開始部署至愛荷華州的數據中心,后續還將進駐鳳凰城地區。微軟云與AI業務負責人Scott Guthrie在博客文章中宣稱,Maia 2
    的頭像 發表于 01-27 16:46 ?3132次閱讀
    <b class='flag-5'>微軟</b>發布<b class='flag-5'>AI</b>芯片Maia <b class='flag-5'>200</b>,性能超越谷歌TPU和亞馬遜Trainium

    今日看點:微軟發布新定制 AI 芯片 Maia 200;國芯科技累計出貨2500萬顆創新高

    微軟發布新定制 AI 芯片 Maia 200 ? 近日,微軟在官方博客正式發布了其定制 AI 加速芯片 Maia
    發表于 01-27 10:23 ?341次閱讀

    如何在NVIDIA Jetson AGX Thor上部署1200參數模型

    我們將嘗試能否在 Jetson AGX Thor 上部署并成功運行高達 1,200 參數量的 gpt-oss-120b模型
    的頭像 發表于 12-26 17:06 ?4834次閱讀
    如何在NVIDIA Jetson AGX Thor上部署1200<b class='flag-5'>億</b><b class='flag-5'>參數</b>大<b class='flag-5'>模型</b>

    【 HD200I A2(20T)】基于昇騰 310B 的智能計算模組

    HD200IA2(20T)是一款基于華為昇騰 310B 的高性能 AI 智能計 算模組。該模組將華為的昇騰 310B 芯片集成在了一個 82
    的頭像 發表于 11-17 14:54 ?838次閱讀
    【 HD<b class='flag-5'>200</b>I A2(<b class='flag-5'>20</b>T)】基于昇騰 310<b class='flag-5'>B</b> 的智能計算模組

    AI模型的配置AI模型該怎么做?

    STM32可以跑AI,這個AI模型怎么搞,知識盲區
    發表于 10-14 07:14

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、現階段更智能、更接近AGI的6中算法與模型 1、MoE模型 MoE模型作為Transfomer模型的后繼者,代表著AI技術的一項重大創新和
    發表于 09-18 15:31

    英特爾可變顯存技術讓32GB內存筆記本流暢運行Qwen 30B模型

    近日,阿里通義千問發布了兩款新版本30B(300參數)MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen
    的頭像 發表于 08-14 15:39 ?1651次閱讀

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?

    大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?直接發個安裝包,謝謝。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    發表于 07-09 18:30

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70參數的稠密模型、盤古Pro MoE 720參數的混合專家
    的頭像 發表于 06-30 11:19 ?1336次閱讀

    華為助力中國石油發布3000參數昆侖大模型

    昆侖大模型完成備案,成為中國能源化工行業首個通過備案的大模型,到2024年11月發布700參數昆侖大模型建設成果,中國石油始終緊緊圍繞行業
    的頭像 發表于 05-29 09:19 ?1097次閱讀
    華為助力中國石油發布3000<b class='flag-5'>億</b><b class='flag-5'>參數</b>昆侖大<b class='flag-5'>模型</b>

    如何賦能醫療AI模型應用?

    引言自ChatGPT掀起熱潮以來,眾多AI模型如雨后春筍般涌現,其中包括百度科技的文心一言、科大訊飛的訊飛星火、華為的盤古AI模型、騰訊
    的頭像 發表于 05-07 09:36 ?688次閱讀
    如何賦能醫療<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>應用?

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    。 端側AI應用開發往往需要調用各種各樣的大模型能力,需要更豐富、類型更多的模型適配。為此,Gen-AI Model Hub全面擴容,模型
    發表于 04-13 19:52

    智能語音交互的突破與應用,啟明云端AI模型方案應用

    根據Statista的預測,到2025年,全球人工智能市場規模有望突破6400美元,年復合增長率高達30.8%。其中,AI模型作為核心驅動力,正重塑各個行業的發展格局。從ChatGPT
    的頭像 發表于 03-10 18:11 ?1554次閱讀
    智能語音交互的突破與應用,啟明云端<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>方案應用