国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英特爾一系列AI解決方案,為Llama 2大模型提供實力之選

looger123 ? 來源:looger123 ? 作者:looger123 ? 2023-07-24 19:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

英特爾廣泛的AI硬件組合及開放的軟件環境,為Meta發布的Llama 2模型提供了極具競爭力的選擇,進一步助力大語言模型的普及,推動AI發展惠及各行各業。

大語言模型(LLM)在生成文本、總結和翻譯內容、回答問題、參與對話以及執行復雜任務(如解決數學問題或推理)方面表現出的卓越能力,使其成為最有希望規模化造福社會的AI技術之一。大語言模型有望解鎖更豐富的創意和洞察,并激發AI社區推進技術發展的熱情。

Llama 2旨在幫助開發者、研究人員和組織構建基于生成式AI的工具和體驗。Meta發布了多個Llama 2的預訓練和微調版本,擁有70億、130億和700億三種參數。通過Llama 2,Meta在公司的各個微調模型中采用了三項以安全為導向的核心技術:安全的有監督微調、安全的目標文本提取以及安全的人類反饋強化學習(RLHF)。這些技術相結合,使Meta得以提高安全性能。隨著越來越廣泛的使用,人們將能夠以透明、公開的方式不斷識別并降低生成有害內容的風險。

英特爾致力于通過提供廣泛的硬件選擇和開放的軟件環境,推動AI的發展與普及。英特爾提供了一系列AI解決方案,為AI社區開發和運行Llama 2等模型提供了極具競爭力和極具吸引力的選擇。英特爾豐富的AI硬件產品組合與優化開放的軟件相結合,為應對算力挑戰提供了可行的方案。

英特爾提供了滿足模型的開發和部署的AI優化軟件。開放生態系統是英特爾得天獨厚的戰略優勢,在AI領域亦是如此。我們致力于培育一個充滿活力的開放生態系統來推動AI創新,其安全、可追溯、負責任以及遵循道德,這對整個行業至關重要。此次發布的大模型進一步彰顯了我們的核心價值觀——開放,為開發人員提供了一個值得信賴的選擇。Llama 2模型的發布是我們行業向開放式AI發展轉型邁出的重要一步,即以公開透明的方式推動創新并助力其蓬勃發展。

--李煒

英特爾軟件與先進技術副總裁

人工智能和分析部門總經理


-- Melissa Evers

英特爾軟件與先進技術副總裁

兼執行戰略部總經理

在Llama 2發布之際,我們很高興地分享70億和130億參數模型的初始推理性能測試結果。這些模型在英特爾AI產品組合上運行,包括Habana?Gaudi?2 深度學習加速器、第四代英特爾?至強?可擴展處理器、英特爾?至強?CPU Max系列和英特爾?數據中心GPU Max系列。我們在本文中分享的性能指標是我們當前軟件提供的“開箱即用”的性能,并有望在未來的軟件中進一步提升。我們還支持700億參數模型,并將很快分享最新相關信息。

Habana?Gaudi?2 深度學習加速器

Habana Gaudi2旨在為用戶提供高性能、高能效的訓練與推理,尤其適用于諸如Llama和Llama 2的大語言模型。Gaudi2加速器具備96GB HBM2E的內存容量,可滿足大語言模型的內存需求并提高推理性能。Gaudi2配備Habana?SynapseAI?軟件套件,該套件集成了對PyTorch和DeepSpeed的支持,以用于大語言模型的訓練和推理。此外,SynapseAI近期開始支持HPU Graphs和DeepSpeed推理,專門針對時延敏感度高的推理應用。Gaudi2還將進行進一步的軟件優化,包括計劃在2023年第三季度支持FP8數據類型。此優化預計將在執行大語言模型時大幅提高性能、吞吐量,并有效降低延遲。

大語言模型的性能需要靈活敏捷的可擴展性,來突破服務器內以及跨節點間的網絡瓶頸。每張Gaudi2芯片集成了21個100Gbps以太網接口,21個接口專用于連接服務器內的8顆Gaudi2,該網絡配置有助于提升服務器內外的擴展性能。

在近期發布的MLPerf基準測試中,Gaudi2在大語言模型上展現了出色的訓練性能,包括在384個Gaudi2加速器上訓練1750億參數的GPT-3模型所展現的結果。Gaudi2經過驗證的高性能使其成為Llama和Llama 2模型訓練和推理的高能效解決方案。

圖1顯示了70億參數和130億參數Llama 2模型的推理性能。模型分別在一臺Habana Gaudi2設備上運行,batch size=1,輸出token長度256,輸入token長度不定,使用BF16精度。報告的性能指標為每個token的延遲(不含第一個)。該測試使用optimum-habana文本生成腳本在Llama模型上運行推理。optimum-habana庫能夠幫助簡化在Gaudi加速器上部署此類模型的流程,僅需極少的代碼更改即可實現。如圖1所示,對于128至2000輸入token,在70億參數模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對于130億參數模型,范圍為每token 15.5-20.4毫秒1。

wKgZomS-YSuAHdVsAAEBZ5B_BE0302.png

圖1基于Habana Gaudi2,70億和130億參數Llama 2模型的推理性能

若想訪問Gaudi2,可按照此處(https://developer.habana.ai/intel-developer-cloud/)在英特爾開發者云平臺上注冊一個實例,或聯系超微(Supermicro)了解Gaudi2服務器基礎設施。

英特爾?至強?可擴展處理器

第四代英特爾至強可擴展處理器是一款通用計算處理器,具有英特爾?高級矩陣擴展(英特爾?AMX)的AI加速功能。具體而言,該處理器的每個核心內置了BF16和INT8通用矩陣乘(GEMM)加速器,以加速深度學習訓練和推理工作負載。此外,英特爾?至強?CPU Max系列,每顆CPU提供64GB的高帶寬內存(HBM2E),兩顆共128GB,由于大語言模型的工作負載通常受到內存帶寬的限制,因此,該性能對于大模型來說極為重要。

目前,針對英特爾至強處理器的軟件優化已升級到深度學習框架中,并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI庫的默認發行版。英特爾主導了torch.compile CPU后端的開發和優化,這是PyTorch 2.0的旗艦功能。與此同時,英特爾還提供英特爾?PyTorch擴展包*(Intel?Extension for PyTorch*),旨在PyTorch官方發行版之前,盡早、及時地為客戶提供英特爾CPU的優化。

第四代英特爾至強可擴展處理器擁有更高的內存容量,支持在單個插槽內實現適用于對話式AI和文本摘要應用的、低延遲的大語言模型執行。對于BF16和INT8,該結果展示了單個插槽內執行1個模型時的延遲。英特爾?PyTorch擴展包*支持SmoothQuant,以確保INT8精度模型具有良好的準確度。

考慮到大語言模型應用需要以足夠快的速度生成token,以滿足讀者較快的閱讀速度,我們選擇token延遲,即生成每個token所需的時間作為主要的性能指標,并以快速人類讀者的閱讀速度(約為每個token 100毫秒)作為參考。如圖2、3所示,對于70億參數的Llama2 BF16模型和130億參數的Llama 2 INT8模型,第四代英特爾至強單插槽的延遲均低于100毫秒2。

得益于更高的HBM2E帶寬,英特爾至強CPU Max系列為以上兩個模型提供了更低的延遲。而憑借英特爾AMX加速器,用戶可以通過更高的批量尺寸(batch size)來提高吞吐量。

wKgaomS-YSyACaIZAAFdK5-yIQE422.png

圖2 基于英特爾至強可擴展處理器,70億參數和130億參數Llama 2模型(BFloat16)的推理性能

wKgZomS-YSyAKqrVAAFd-S49C7s205.png

圖3 基于英特爾至強可擴展處理器,70億參數和130億參數Llama 2模型(INT8)的推理性能

對于70億和130億參數的模型,每個第四代至強插槽可提供低于100毫秒的延遲。用戶可以分別在兩個插槽上同時運行兩個并行實例,從而獲得更高的吞吐量,并獨立地服務客戶端。亦或者,用戶可以通過英特爾?PyTorch擴展包*和DeepSpeed* CPU,使用張量并行的方式在兩個第四代至強插槽上運行推理,從而進一步降低延遲或支持更大的模型。

關于在至強平臺上運行大語言模型和Llama 2,開發者可以點擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/cpu/)了解更多詳細信息。第四代英特爾至強可擴展處理器的云實例可在AWS和Microsoft Azure上預覽,目前已在谷歌云平臺和阿里云全面上線。英特爾將持續在PyTorch*和DeepSpeed*進行軟件優化,以進一步加速Llama 2和其它大語言模型。

英特爾?數據中心GPU Max系列

英特爾數據中心GPU Max系列提供并行計算、科學計算和適用于科學計算的AI加速。作為英特爾性能最為出色、密度最高的獨立顯卡,英特爾數據中心GPU Max系列產品中封裝超過1000億個晶體管,并包含多達128個Xe內核,Xe是英特爾GPU的計算構建模塊。

英特爾數據中心GPU Max系列旨在為AI和科學計算中使用的數據密集型計算模型提供突破性的性能,包括:

●408 MB基于獨立SRAM技術的L2緩存、64MB L1緩存以及高達128GB的高帶寬內存(HBM2E)。

●AI增強型的Xe英特爾?矩陣擴展(英特爾?XMX)搭載脈動陣列,在單臺設備中可實現矢量和矩陣功能。

英特爾Max系列產品統一支持oneAPI,并基于此實現通用、開放、基于標準的編程模型,釋放生產力和性能。英特爾oneAPI工具包括高級編譯器、庫、分析工具和代碼遷移工具,可使用SYCL輕松將CUDA代碼遷移到開放的C++

英特爾數據中心Max系列GPU通過當今框架的開源擴展來實現軟件支持和優化,例如面向PyTorch*的英特爾擴展、面向TensorFlow*的英特爾?擴展和面向DeepSpeed*的英特爾?擴展。通過將這些擴展與上游框架版本一起使用,用戶將能夠在機器學習工作流中實現快速整合。

我們在一個600瓦OAM形態的GPU上評估了Llama 2的70億參數模型和Llama 2的130億參數模型推理性能,這個GPU上封裝了兩個tile,而我們只使用其中一個tile來運行推理。圖4顯示,對于輸入長度為32到2000的token,英特爾數據中心GPU Max系列的一個tile可以為70億參數模型的推理提供低于20毫秒的單token延遲,130億參數模型的單token延遲為29.2-33.8毫秒3。因為該GPU上封裝了兩個tile,用戶可以同時并行運行兩個獨立的實例,每個tile上運行一個,以獲得更高的吞吐量并獨立地服務客戶端。

wKgaomS-YSyAQ0J9AAEglfTSRug869.png

圖4英特爾數據中心GPUMax1550上的Llama2的70億和130億參數模型的推理性能

關于在英特爾GPU平臺上運行大語言模型和Llama 2,可以點擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/xpu/)獲取詳細信息。目前英特爾開發者云平臺上已發布英特爾GPU Max云實例測試版。

英特爾平臺上的大語言模型微調

除了推理之外,英特爾一直在積極地推進微調加速,通過向Hugging Face Transformers、PEFT、Accelerate和Optimum庫提供優化,并在面向Transformers的英特爾?擴展中提供參考工作流。這些工作流支持在相關英特爾平臺上高效地部署典型的大語言模型任務,如文本生成、代碼生成、完成和摘要。

總結

上述內容介紹了在英特爾AI硬件產品組合上運行Llama 2的70億和130億參數模型推理性能的初始評估,包括Habana Gaudi2深度學習加速器、第四代英特爾至強可擴展處理器、英特爾?至強?CPU Max系列和英特爾數據中心GPU Max系列。我們將繼續通過軟件發布提供優化,后續會再分享更多關于大語言模型和更大的Llama 2模型的評估。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180452
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301407
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5183
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    是德科技推出一系列全新Scale-up驗證解決方案

    是德科技(NYSE: KEYS )推出一系列全新Scale-up驗證解決方案,旨在幫助人工智能數據中心運營商應對計算集群日益密集復雜化過程中不斷加劇的帶寬、延遲及互操作性挑戰。 該解決方案支持新興
    的頭像 發表于 03-06 10:01 ?308次閱讀
    是德科技推出<b class='flag-5'>一系列</b>全新Scale-up驗證<b class='flag-5'>解決方案</b>

    英特爾與華陽通用聯手推出全新AI Box解決方案

    英特爾宣布推出基于最新英特爾 酷睿 Ultra 架構的AI Box解決方案,將PC級旗艦算力引入汽車、工業自動化、軌道交通、機器人等多種工業環境,
    的頭像 發表于 03-02 14:15 ?317次閱讀

    英特爾創新引領AI NAS:軟硬結合引領本地數據智慧管理與多場景創新應用

    展示面向中小企業、消費者和專業用戶,賦能新場景、加速產品落地的最新技術方案。會上,綠聯、極空間、鐵威馬、暢網、飛牛等AI NAS 廠商,發布和展示了一系列基于英特爾? 酷睿? Ultr
    的頭像 發表于 12-12 15:45 ?489次閱讀
    <b class='flag-5'>英特爾</b>創新引領<b class='flag-5'>AI</b> NAS:軟硬結合引領本地數據智慧管理與多場景創新應用

    智銳通科技亮相“英特爾技術創新與產業生態大會”,展示AI醫療內窺解決方案

    2025年11月19日“英特爾技術創新與產業生態大會”在重慶國際博覽中心隆重啟幕。作為行業矚目的技術風向標,本次大會聚焦AI算力創新與行業深度融合。智銳通科技作為英特爾在邊緣計算與醫療AI
    的頭像 發表于 11-25 18:24 ?1117次閱讀
    智銳通科技亮相“<b class='flag-5'>英特爾</b>技術創新與產業生態大會”,展示<b class='flag-5'>AI</b>醫療內窺<b class='flag-5'>解決方案</b>

    英特爾舉辦行業解決方案大會,共同打造機器人“芯”動脈

    11月19日,在2025英特爾行業解決方案大會上,英特爾展示了基于英特爾? 酷睿? Ultra平臺的最新邊緣AI產品及
    的頭像 發表于 11-19 21:51 ?6765次閱讀
    <b class='flag-5'>英特爾</b>舉辦行業<b class='flag-5'>解決方案</b>大會,共同打造機器人“芯”動脈

    英特爾Gaudi 2E AI加速器DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現已為DeepSeek-V3.1提供深度優化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低
    的頭像 發表于 08-26 19:18 ?3027次閱讀
    <b class='flag-5'>英特爾</b>Gaudi <b class='flag-5'>2</b>E <b class='flag-5'>AI</b>加速器<b class='flag-5'>為</b>DeepSeek-V3.1<b class='flag-5'>提供</b>加速支持

    硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    今日,騰訊正式發布新代混元開源大語言模型英特爾憑借在人工智能領域的全棧技術布局,現已在英特爾? 酷睿? Ultra 平臺上完成針對該模型
    的頭像 發表于 08-07 14:42 ?1365次閱讀
    硬件與應用同頻共振,<b class='flag-5'>英特爾</b>Day 0適配騰訊開源混元大<b class='flag-5'>模型</b>

    英特爾發布邊緣AI控制器與邊緣智算體機,創造“AI新視界”

    處理器的邊緣 AI 控制器 和 基于英特爾銳炫 ? 顯卡的邊緣智算體機 ,工業AI的規模化落地注入強勁動力。
    發表于 06-24 17:50 ?1517次閱讀
    <b class='flag-5'>英特爾</b>發布邊緣<b class='flag-5'>AI</b>控制器與邊緣智算<b class='flag-5'>一</b>體機,創造“<b class='flag-5'>AI</b>新視界”

    英特爾銳炫Pro B系列,邊緣AI的“智能引擎”

    CTO、高級首席AI工程師張宇博士 英特爾客戶端計算事業部邊緣計算CTO、高級首席AI工程師張宇博士在MWC AI終端峰會上指出,邊緣將崛起
    的頭像 發表于 06-20 17:32 ?893次閱讀
    <b class='flag-5'>英特爾</b>銳炫Pro B<b class='flag-5'>系列</b>,邊緣<b class='flag-5'>AI</b>的“智能引擎”

    直擊Computex 2025:英特爾重磅發布新代GPU,圖形和AI性能躍升3.4倍

    電子發燒友原創? 章鷹 5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理器(GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B
    的頭像 發表于 05-21 00:57 ?7471次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發布新<b class='flag-5'>一</b>代GPU,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    直擊Computex2025:英特爾重磅發布新代GPU,圖形和AI性能躍升3.4倍

    5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理器(GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B系列
    的頭像 發表于 05-20 12:27 ?5444次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發布新<b class='flag-5'>一</b>代GPU,圖形和<b class='flag-5'>AI</b>性能躍升3.4倍

    英特爾發布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業用戶和AI開發者的英特爾銳炫Pro GPU系列,發布英特爾? Gaudi 3 AI
    發表于 05-20 11:03 ?1844次閱讀

    部署成本顯著降低!英特爾助陣高效AI算力體機方案

    3月27日,英特爾舉辦了名為“‘至’繪未來,銳炫來襲”的創新解決方案研討會,與生態伙伴共同分享最新AI算力體機方案。該
    的頭像 發表于 03-29 16:29 ?2099次閱讀
    部署成本顯著降低!<b class='flag-5'>英特爾</b>助陣高效<b class='flag-5'>AI</b>算力<b class='flag-5'>一</b>體機<b class='flag-5'>方案</b>

    英特爾至強6再推新品!打造最強AI“機頭引擎”

    2月底,英特爾口氣發布多款至強6處理器,其中包括備受矚目的6700/6500性能核處理器。在數據中心領域需求持續攀升的當下,英特爾的這一系列
    的頭像 發表于 03-13 14:57 ?743次閱讀

    英特爾發布最強大的商用AI PC產品陣容

    處理器。在臺式機和移動設備形態中,該產品組合為全球企業提供包含計算性能、能效、連接性、安全性和可管理性的全面解決方案。 如今是PC更新換代的關鍵節點,憑借英特爾?酷睿?Ultra處理器(第二代),我們
    的頭像 發表于 03-08 09:28 ?1186次閱讀