前言
最近由UC Berkeley、CMU、Stanford, 和 UC San Diego的研究人員創建的 Vicuna-13B,通過在 ShareGPT 收集的用戶共享對話數據中微調 LLaMA獲得。其中使用 GPT-4 進行評估,發現Vicuna-13B 的性能達到了ChatGPT 和 Bard 的 90% 以上,同時在 90% 情況下都優于 LLaMA 和 Alpaca 等其他模型。訓練 Vicuna-13B 的費用約為 300 美元。訓練和代碼[1]以及在線演示[2]已公開。
Vicuna到底怎么樣?
Vicuna在官網中通過和Alpaca、LLaMA、ChatGPT和Bard對比,然后通過GPT4當裁判來打出分數,具體如下。

問題
Alpaca-13b vs Vicuna
LLaMA-13b vs Vicuna
ChatGPT vs Vicuna
Bard vs Vicuna
可以看出,Vicuna的回答還是非常棒的,讓GPT4來打分,Vicuna和ChatGPT是十分接近的,遠遠高于Alpaca和LLaMA。
如果大家想試試別的問題,可以自己去嘗試[3]哈。

可換不同類型的不同問題
然而,官方認為評估聊天機器人絕非易事,聽過GPT4進行評估是一件十分不嚴格的事情,但是目前還是無法解決評估的問題,需要后續學者進行進一步探索。

圖1 GPT-4 評估
在線demo

概述

圖2 工作流
圖 2 介紹了整體工作流程。訓練是在一天時間在 8 個 A100 上使用 PyTorch FSDP 完成的。 LLaMA、Alpaca、ChatGPT 和 Vicuna 的詳細比較如表 1 所示。

表1 一些模型的對比
訓練
Vicuna 是通過使用從 ShareGPT.com 使用公共 API 收集的大約 7萬 用戶共享對話微調 LLaMA 基礎模型創建的。為了確保數據質量,將 HTML 轉換回 markdown 并過濾掉一些不合適或低質量的樣本。此外,將冗長的對話分成更小的部分,以適應模型的最大上下文長度。
訓練方法建立在斯坦福alpaca的基礎上,并進行了以下改進。
內存優化:為了使 Vicuna 能夠理解長上下文,將最大上下文長度從alpaca 中的 512 擴展到 2048。還通過gradient checkpointing和flash attentio來解決內存壓力。
多輪對話:調整訓練損失考慮多輪對話,并僅根據聊天機器人的輸出進行微調。
通過 Spot 實例降低成本:使用 SkyPilot 托管點來降低成本。該解決方案將 7B 模型的訓練成本從 500 美元削減至 140 美元左右,將 13B 模型的訓練成本從 1000 美元左右削減至 300 美元。

圖3 通過GPT4來評估打分
通過GPT4評估得出的總分
審核編輯:劉清
-
機器人
+關注
關注
213文章
31079瀏覽量
222258 -
CMU
+關注
關注
0文章
21瀏覽量
15599 -
GPT
+關注
關注
0文章
368瀏覽量
16873 -
ChatGPT
+關注
關注
31文章
1598瀏覽量
10268
原文標題:Vicuna:與ChatGPT 性能最相匹配的開源模型
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
華為昇騰深度適配智譜AI全新開源模型GLM-5
百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5
成都匯陽投資關于國產開源模型持續突破,國產AI 競爭力增強
NVIDIA開源Audio2Face模型及SDK
澎峰科技完成OpenAI最新開源推理模型適配
硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型
OpenAI發布2款開源模型
【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署
瑞金醫院攜手華為開源RuiPath病理模型
華為正式開源盤古7B稠密和72B混合專家模型
上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5
NVIDIA Isaac GR00T N1開源人形機器人基礎模型+開源物理引擎Newton加速機器人開發
與ChatGPT性能最相匹配的開源模型
評論