Orca-2-13B[1] 是微軟最新發(fā)布的 Orca 2 系列中的一款模型,Orca 2 另外還提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基礎模型中微調(diào)而來。Orca 2系列模型擅長推理、文本總結(jié)、數(shù)學問題解決和理解任務,是在原始 13B Orca 模型的基礎上進一步發(fā)展而來,模仿更強大的 AI 系統(tǒng)推理過程從而提高小型模型在復雜任務中的能力。
本文將以 Orca-2-13B 為例,將介紹:
如何在你自己的設備上運行 Orca-2-13B
如何為 Orca-2-13B 創(chuàng)建一個與 OpenAI 兼容的 API 服務
你也可以使用同樣的方式運行 Orca-2-7B 模型,只需要替換 Orca-2-7B模型的 GGUF 格式的下載鏈接。
我們將用 Rust + Wasm 技術棧來開發(fā)和部署這個模型的應用程序。無需安裝復雜的 Python 包或 C++ 工具鏈!了解我們?yōu)槭裁催x擇 Rust+Wasm 技術棧[2]。
在自己的設備上運行 Orca-2-13B
步驟 1:通過以下命令行安裝 WasmEdge[3]。
curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml
步驟 2:下載模型 GGUF 文件[4]。由于模型文件有幾 GB,所以可能需要很長時間。
curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf
步驟 3:下載一個跨平臺的可移植 Wasm 文件,用于聊天應用。該應用能讓你用命令行與模型進行交流。戳這里[5]查看該應用的 Rust 源代碼。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm
就這樣。接下來,可以通過輸入以下命令在終端與模型進行聊天。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout
這個可移植的 Wasm 應用會自動利用你設備上的硬件加速器(如 GPU)。
在我的 Mac M1 32G 內(nèi)存設備上,它的速度約為每秒 9.15 個token。
[USER]:What isanOrca? [ASSISTANT]: Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness. [USER]:
為 Orca-2-13B 創(chuàng)建一個與 OpenAI 兼容的 API 服務
一個與 OpenAI 兼容的網(wǎng)絡 API 能讓 Orca-2-13B 與大量的 LLM 工具和代理框架(如 flows.network、LangChain 和 LlamaIndex)一起工作。
首先,先下載一個 API 服務器應用。它也是一個可以在許多 CPU 和 GPU 設備上運行的跨平臺可移植 Wasm 應用。
curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm
然后,使用以下命令行啟動模型的 API 服務器。
wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml
從另一個終端,你可以使用 curl 與 API 服務器進行交互。
curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'
就這樣。WasmEdge 是運行 Orca-2-13B 大模型應用程序最簡單、最快、最安全的方式[6]。試試看吧!
審核編輯:劉清
-
C++語言
+關注
關注
0文章
147瀏覽量
7685 -
python
+關注
關注
57文章
4876瀏覽量
90032 -
硬件加速器
+關注
關注
0文章
43瀏覽量
13477 -
Rust
+關注
關注
1文章
240瀏覽量
7586 -
OpenAI
+關注
關注
9文章
1245瀏覽量
10072
原文標題:跨設備運行微軟最新大語言模型 Orca-2-13B,只需4個命令行
文章出處:【微信號:Rust語言中文社區(qū),微信公眾號:Rust語言中文社區(qū)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
調(diào)用樂天平臺API獲取商品詳情數(shù)據(jù)
1688交易API:B2B訂單自動化,加速成交!
1688商品詳情API指南
系統(tǒng)調(diào)用和API有什么區(qū)別呢?
如何評價OpenRouter這樣的大模型API聚合平臺?
RESTful API設計原則: 構建易用、可擴展的API接口
什么是 API接口?
別再搜了!國內(nèi)用戶搞定OpenAI API Key的兩種最佳實踐(保姆級教程)
OpenAI發(fā)布2款開源模型
電商API的微服務架構優(yōu)化策略
具有載波聚合的 RX 分集 FEM(B26、B8、B12/13、B2/25、B4 和 B7) skyworksinc
如何獲取 OpenAI API Key?API 獲取與代碼調(diào)用示例 (詳解教程)
濱松光子的相機研發(fā)史:ORCA系列與qCMOS的誕生(下)
如何為Orca-2-13B創(chuàng)建一個與OpenAI兼容的API服務呢?
評論