狠狠躁天天躁青青草原,日日狠狠久久影院,国产成人片9999久久精品澳门

大型語言模型（LLM）正在迅速發(fā)展，變得更加強大和高效，使人們能夠在廣泛的應(yīng)用程序中越來越復(fù)雜地理解和生成類人文本。谷歌的Gemma是一個輕量級、先進的開源模型新家族，站在LLM創(chuàng)新的前沿。然而，對更高推理速度和更智能推理能力的追求并不僅僅局限于復(fù)雜模型的開發(fā)，它擴展到模型優(yōu)化和部署技術(shù)領(lǐng)域。

OpenVINO 工具套件因此成為一股引人注目的力量，在這些領(lǐng)域發(fā)揮著越來越重要的作用。這篇博客文章深入探討了優(yōu)化谷歌的Gemma模型，并在不足千元的AI開發(fā)板上進行模型部署、使用OpenVINO 加速推理，將其轉(zhuǎn)化為能夠更快、更智能推理的AI引擎。

此文使用了研揚科技針對邊緣AI行業(yè)開發(fā)者推出的哪吒（Nezha）開發(fā)套件，以信用卡大?。?5x56mm）的開發(fā)板-哪吒（Nezha）為核心，哪吒采用Intel N97處理器（Alder Lake-N），最大睿頻3.6GHz，Intel UHD Graphics內(nèi)核GPU，可實現(xiàn)高分辨率顯示；板載LPDDR5內(nèi)存、eMMC存儲及TPM 2.0，配備GPIO接口，支持Windows和Linux 操作系統(tǒng)，這些功能和無風(fēng)扇散熱方式相結(jié)合，為各種應(yīng)用程序構(gòu)建高效的解決方案，適用于如自動化、物聯(lián)網(wǎng)網(wǎng)關(guān)、數(shù)字標(biāo)牌和機器人等應(yīng)用。

什么是Gemma？

Gemma是谷歌的一個輕量級、先進的開源模型家族，采用了與創(chuàng)建Gemini模型相同的研究和技術(shù)。它們以拉丁語單詞 “Gemma” 命名，意思是“寶石”，是文本到文本的、僅解碼器架構(gòu)的LLM，有英文版本，具有開放權(quán)重、預(yù)訓(xùn)練變體和指令調(diào)整變體。Gemma模型非常適合各種文本生成任務(wù)，包括問答、摘要和推理。

Gemma模型系列，包括Gemma-2B和Gemma-7B模型，代表了深度學(xué)習(xí)模型可擴展性和性能的分層方法。在本次博客中，我們將展示OpenVINO 如何優(yōu)化和加速Gemma-2B-it模型的推理，即Gemma-2B參數(shù)模型的指令微調(diào)后的版本。

利用OpenVINO 優(yōu)化和加速推理

優(yōu)化、推理加速和部署的過程包括以下具體步驟，使用的是我們常用的OpenVINO Notebooks GitHub倉庫 中的254-llm-chatbot代碼示例。

由安裝必要的依賴包開始

運行OpenVINO Notebooks倉庫的具體安裝指南在這里。運行這個254-llm-chatbot的代碼示例，需要安裝以下必要的依賴包。

選擇推理的模型

由于我們在Jupyter Notebook演示中提供了一組由OpenVINO 支持的LLM，您可以從下拉框中選擇 “Gemma-2B-it” 來運行該模型的其余優(yōu)化和推理加速步驟。當(dāng)然，很容易切換到 “Gemma-7B-it” 和其他列出的型號。

使用Optimum Intel實例化模型

Optimum Intel是Hugging Face Transformers和Diffuser庫與OpenVINO 之間的接口，用于加速Intel體系結(jié)構(gòu)上的端到端流水線。接下來，我們將使用Optimum Intel從Hugging Face Hub加載優(yōu)化模型，并創(chuàng)建流水線，使用Hugging Face API以及OpenVINO Runtime運行推理。在這種情況下，這意味著我們只需要將AutoModelForXxx類替換為相應(yīng)的OVModelForXxx類。

權(quán)重壓縮

盡管像Gemma-2B這樣的LLM在理解和生成類人文本方面變得越來越強大和復(fù)雜，但管理和部署這些模型在計算資源、內(nèi)存占用、推理速度等方面帶來了關(guān)鍵挑戰(zhàn)，尤其是對于這種不足千元級的AI開發(fā)板等客戶端設(shè)備。權(quán)重壓縮算法旨在壓縮模型的權(quán)重，可用于優(yōu)化模型體積和性能。

我們的Jupyter筆記本電腦使用Optimum Intel和NNCF提供INT8和INT4壓縮功能。與INT8壓縮相比，INT4壓縮進一步提高了性能，但預(yù)測質(zhì)量略有下降。因此，我們將在此處選擇INT4壓縮。

我們還可以比較模型權(quán)重壓縮前后的模型體積變化情況。

選擇推理設(shè)備和模型變體

由于OpenVINO 能夠在一系列硬件設(shè)備上輕松部署，因此還提供了一個下拉框供您選擇將在其上運行推理的設(shè)備。考慮到內(nèi)存使用情況，我們將選擇CPU作為推理設(shè)備。

運行聊天機器人

現(xiàn)在萬事具備，在這個Notebook代碼示例中我們還提供了一個基于Gradio的用戶友好的界面?，F(xiàn)在就讓我們把聊天機器人運行起來吧。

小結(jié)

整個的步驟就是這樣！現(xiàn)在就開始跟著我們提供的代碼和步驟，動手試試用OpenVINO 在哪吒開發(fā)板上運行基于大語言模型的聊天機器人吧。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
20255

瀏覽量
252325
機器人

機器人

+關(guān)注

關(guān)注
213

文章
31079

瀏覽量
222273
物聯(lián)網(wǎng)

物聯(lián)網(wǎng)

+關(guān)注

關(guān)注
2945

文章
47820

瀏覽量
415047
GPIO

GPIO

+關(guān)注

關(guān)注
16

文章
1328

瀏覽量
56231
OpenVINO

OpenVINO

+關(guān)注

關(guān)注
0

文章
118

瀏覽量
768

原文標(biāo)題：千元開發(fā)板，百萬可能：OpenVINO? 助力谷歌大語言模型Gemma實現(xiàn)高速智能推理 | 開發(fā)者實戰(zhàn)

文章出處：【微信號：英特爾物聯(lián)網(wǎng)，微信公眾號：英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

OpenVINO?助力谷歌大語言模型Gemma實現(xiàn)高速智能推理

評論