国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

首頁
技術

可編程邏輯

MEMS/傳感技術

嵌入式技術

模擬技術

控制/MCU

處理器/DSP

存儲技術

EMC/EMI設計

電源/新能源

測量儀表

制造/封裝

RF/無線

接口/總線/驅動

EDA/IC設計

光電顯示

連接器

PCB設計

LEDs

汽車電子

醫療電子

人工智能

可穿戴設備

軍用/航空電子

工業控制

觸控感測

智能電網

音視頻及家電

通信網絡

機器人

vr|ar|虛擬現實

安全設備/系統

移動通信

便攜設備

物聯網

區塊鏈

HarmonyOS

RISC-V MCU

光伏

ChatGPT

IGBT

充電樁

氮化鎵

BLDC

逆變器

5G

電機控制
資源

技術文庫

新品速遞

電路圖

元器件知識

電子百科

最新技術文章

元器件搜索引擎
下載

在線工具

常用軟件

電子書

datasheet
專欄

電子說

專欄
社區

論壇

問答

小組

技術專欄

社區之星

試用中心

HarmonyOS技術社區

2023電子工程師大會
研究院
活動

設計大賽

硬創大賽

社區活動

線下會議

在線研討會

小測驗
學院

直播

課程
視頻
企業號
工具

datasheet查詢

免費評測試用

技術子站

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

AI圈巨震！微軟論文聲稱ChatGPT是20B(200億)參數量的模型？

【導讀】微軟最近一篇論文爆料，GPT-3.5的參數量只有20B，遠遠小于之前GPT-3公布175B。網友表示，ChatGPT能力似乎「配得上」這個體量？

GPT-3.5只有200億參數？

今天，大模型圈都被微軟論文中的一紙截圖刷爆了，究竟是怎么回事？

就在前幾天，微軟發表了篇論文并掛在了arXiv上，該論文提出了一個參數量只有75M的小規模擴散模型——CodeFusion。

性能方面，7500萬參數的CodeFusion在top-1準確率指標上，可以與最先進的350M-175B模型相媲美。

論文地址：https://arxiv.org/abs/2310.17680

這篇論文的工作很有意義，但引起大家格外注意的卻是——

作者在對比ChatGPT（gpt-3.5-turbo）時，標稱的參數量竟然只有20B！

在此之前，大家針對GPT-3.5參數量的猜測都是1750億，這相當于是縮減了差不多十倍！

根據這篇論文的爆料，網友還去維基百科上更新了GPT-3.5的介紹，直接把參數大小改成了20B。

消息一出，直接登上知乎熱搜，網友們都炸了。

有人表示，趕緊回頭再把我之前模型蒸餾的博文拿出來復習復習。

是「烏龍」還是「事實」？

網友的爆料貼一出，瞬間就引發了激烈的討論。

目前，已經有超過68萬人前來圍觀。

這位老哥表示，論文的幾位作者也都在用推特，估計過不了多久就會親自下場解釋。

而對于這個神秘的「20B」，網友們也是眾說紛紜。

有人猜測，這很可能是作者手誤打錯了。比如原本是120B，或者200B。

結合現實中的各項評測來看，確實有很多小模型能夠取得和ChatGPT差不多的成績，比如Mistral-7B。

也許，這也是側面證實了GPT-3.5體量真的不大。

很多網友也認為20B的參數可能是準確的，紛紛發出感嘆：

「這也太難以想象了！Falcon-180B和Llama2-70B，竟然都無法擊敗這款20B的模型。」

也有網友認為，gpt-3.5-turbo是精煉版的gpt-3.5。

而這次參數的「泄露」，正好從側面印證了那些關于gpt-3.5-turbo表現不如舊版gpt-3.5的傳言。

不過，根據OpenAI的官方文檔，除了已經不再使用的text-davinci和code-davinci，GPT-3.5家族全員都是基于gpt-3.5-turbo構成的。

微軟發布CodeFusion

而爆出GPT3.5只有20B參數的微軟論文，是想介紹一個用于代碼生成的擴散模型。

研究人員針對Bash、Python和Microsoft Excel條件格式（CF）規則的自然語言生成代碼的任務來評估這個模型——CodeFusion。

實驗表明，CodeFusion（只有75M參數）在top-1精度方面與最先進的LLM（350M-175B參數）相當，并且在top-3和top-5精度方面性能和參數比非常優秀。

模型架構CODEFUSION用于代碼生成任務，它的訓練分為兩個階段，第一階段是無監督預訓練，第二階段是有監督微調。

在第一階段，CODEFUSION使用未標記的代碼片段來訓練降噪器和解碼器。它還使用可訓練的嵌入層L，將代碼片段嵌入到連續空間中。

在第二階段，CODEFUSION進行有監督的微調，使用來自文本-代碼對數據。在這個階段，編碼器、降噪器和解碼器都會得到調整，以更好地執行任務。

此外，CODEFUSION還借鑒了之前有關文本擴散的研究成果，將來自解碼器的隱藏表示D融合到模型中。這是為了改進模型的性能。在訓練過程中，在不同step中，模型引入一些噪聲，然后計算損失函數，以確保生成的代碼片段更符合預期的標準。

總之，CODEFUSION是一個執行代碼生成工作的小模型，通過兩個階段的訓練和噪聲引入來不斷提升其性能。這個模型的靈感來自于文本擴散的研究，并通過融合解碼器的隱藏表示來改進損失函數，以更好地生成高質量的代碼片段。

評估結果

下表總結了CODEFUSION模型與各個基線模型在top-1、top-3和top-5設置下的性能表現。

在top-1中，CODEFUSION的性能與自回歸模型相媲美，甚至在某些情況下表現更出色，尤其是在Python任務中，只有GPT-3（175B）的性能稍微優于CODEFUSION（75M）。然而，在top-3和top-5方面，CODEFUSION明顯優于所有基線模型。

表下表展示了CODEFUSION和自回歸模型（包括T5、CodeT5、StarCoder、CodeGen、GPT-3）在各項基準任務上的平均多樣性結果，考察了每個模型的前5代生成結果。

相對于自回歸模型，CODEFUSION生成更加多樣化的結果，表現更出色。

在消融實驗中，作者停止了去噪過程，并生成了在時間步t∈[0, T]范圍內的當前狀態的代碼片段。利用歸一化字符串編輯距離來衡量每個時間步長（每100步為一個增量）所獲得的結果。

這一方法有助于總結和展示CODEFUSION模型的逐步進展，如下圖所示。

說了這么多，GPT-3.5的參數量到底是多少？GPT-4與GPT-3.5在技術和其他方面有著什么樣的聯系？

GPT-3.5是一個個小專家模型的集成還是一個通才模型？是通過更大模型的蒸餾還是更大數據訓練？

這些問題的答案只能等到真正開源的時候才能揭曉了。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
39793

瀏覽量
301431
模型

模型

+關注

關注
1

文章
3752

瀏覽量
52111
ChatGPT

ChatGPT

+關注

關注
31

文章
1598

瀏覽量
10269

原文標題：AI圈巨震！微軟論文聲稱ChatGPT是20B(200億)參數量的模型？

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

評論

CVer
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot DDFM：首個使用擴散模型進行多模態圖像融合的方法
Hot DepGraph：任意架構的結構化剪枝，CNN、Transformer、GNN等都適用！

New SegVG視覺定位方法的各個組件
New 詳解E2E-MFD多模態融合檢測端到端算法

精選推薦
更多

文章

資料

帖子

技術資訊 I 剛柔結合印刷電路板設計

深圳(耀創)電子科技有限公司
1天前

1529 閱讀

閃迪開源SPRandom：160小時變6.2小時，企業SSD測試迎革命性提速

章鷹觀察
1天前

2872 閱讀

開關電源限流保護電路的原理分析

電源聯盟
1天前

1154 閱讀

炮火，AI，全球飄零：逆潮中的伊朗開發者

腦極體
1天前

2900 閱讀

高壓放大器ATA-7025在量子點薄膜的非接觸無損原位檢測中的應用

Aigtek安泰電子
2天前

1734 閱讀

電子設計1000例

caosurround
3221

10積分

833下載

L293D集成電路說明

無人島
177

10積分

259下載

高速電路PCB板的反射問題分析及仿真

stormcol
865 KB

免費

0下載

典型的差分驅動電路設計與原理分析

Duke
371KB

免費

79下載

一個用于app指向性功能高亮的庫

姚小熊27
0.92 MB

免費

1下載

【飛凌嵌入式RV1126B開發板】+基本功能測試篇（1）

jennyzhaojie
2天前

793 閱讀

【飛凌嵌入式RV1126B開發板】+初識篇

jennyzhaojie
3天前

835 閱讀

樹莓派5還是香橙派5 Pro？兩款熱門開發板的詳細對比

行走的小派
3天前

1194 閱讀

OrangePi RV2 深度技術評測：RISC-V AI融合架構的先行者

行走的小派
4天前

1512 閱讀

lab view NI6003搭建電路

jf_73763743
4天前

1494 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

電子發燒友

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

電子發燒友

關于我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

張迎輝：mikezhang@elecfans.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

版權所有 ? 長沙勒克斯教育咨詢有限公司

湖南省長沙市開福區月湖街道匍園路20號聚恒科技園1棟2301-1房
電子發燒友 （電路圖） 湘公網安備43011202000918 工商網監湘ICP備2023036445號-105-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
伦伦影院久久影视