日本大奶一区二区,亚洲国产精品高清线久久,久久性爱精品

前段時間，Mistral AI 公布的 Mixtral 8x7B 模型爆火整個開源社區，其架構與 GPT-4 非常相似，很多人將其形容為 GPT-4 的「縮小版」。

我們都知道，OpenAI 團隊一直對 GPT-4 的參數量和訓練細節守口如瓶。Mistral 8x7B 的放出，無疑給廣大開發者提供了一種「非常接近 GPT-4」的開源選項。

在基準測試中，Mistral 8x7B 的表現優于 Llama 2 70B，在大多數標準基準測試上與 GPT-3.5 不相上下，甚至略勝一籌。

▲圖源 https://mistral.ai/news/mixtral-of-experts/

隨著這項研究的出現，很多人表示：「閉源大模型已經走到了結局。」

短短幾周的時間，機器學習愛好者 Vaibhav (VB) Srivastav 表示：隨著 AutoAWQ（支持 Mixtral、LLaVa 等模型的量化）最新版本的發布，現在用戶可以將 Mixtral 8x7B Instruct 與 Flash Attention 2 結合使用，達到快速推理的目的，實現這一功能大約只需 24GB GPU VRAM、不到十行代碼。

▲圖源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址：

https://github.com/casper-hansen/AutoAWQ 操作過程是這樣的： 首先是安裝 AutoAWQ 以及 transformers：

pipinstallautoawqgit+https://github.com/huggingface/transformers.git

第二步是初始化 tokenizer 和模型：

?第三步是初始化 TextStreamer：

?第四步對輸入進行 Token 化：

?第五步生成：

?當你配置好項目后，就可以與 Mixtral 進行對話，例如對于用戶要求「如何做出最好的美式咖啡？通過簡單的步驟完成」，Mixtral 會按照 1、2、3 等步驟進行回答。

項目中使用的代碼：

Srivastav 表示上述實現也意味著用戶可以使用 AWQ 運行所有的 Mixtral 微調，并使用 Flash Attention 2 來提升它們。看到這項研究后，網友不禁表示：真的很酷。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

代碼

代碼

+關注

關注
30

文章
4968

瀏覽量
73970
GPT

GPT

+關注

關注
0

文章
368

瀏覽量
16873
OpenAI

OpenAI

+關注

關注
9

文章
1245

瀏覽量
10072

原文標題：8x7B MoE與Flash Attention 2結合，不到10行代碼實現快速推理

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

搜索歷史

8x7B MoE與Flash Attention 2結合，不到10行代碼實現快速推理

評論