国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepSeek 推理型AI盡顯高效訓練的小模型之威

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2025-02-10 15:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

——在IBM院士Kush Varshney看來,全球AI競賽中的地緣政治差異,可能沒有人們想象的那么重要,他說:"一旦模型開源,它源自何處在很多方面就不再重要了。"

作者:Aili McConnon,IBM

2025年1月27日發表與IBM官網Think頻道,點擊閱讀英文原文

北京2025年2月10日/美通社/ --DeepSeek-R1是中國初創公司DeepSeek 推出的人工智能模型,不久前,在人工智能開源平臺Hugging Face上發布數小時,便躍居下載量和活躍度最高模型的榜首;同時因其促使投資者重新考慮英偉達(NVIDIA)等芯片制造商的估值,以及AI巨頭為擴大其AI業務規模而進行的巨額投資,從而給金融市場也帶來了震蕩。


DeepSeek 推理型AI盡顯高效訓練的小模型之威

為何掀起如此大的波瀾?DeepSeek-R1 是一款所謂"推理模型"的數字助理,在某些數學和編碼任務的人工智能基準測試中,它的表現與OpenAI 的 o1 不相上下;而據該公司稱,訓練該系統所使用的芯片數量卻要少得多,使用成本低約96%。

IBM AI 硬件部門的一位首席研究科學家兼經理Kaoutar El Maghraoui 說:"DeepSeek 無疑正在重塑人工智能的格局,它以開源的雄心和最先進的創新技術向巨頭們發起挑戰。"

與此同時,TikTok 母公司、中國科技巨頭字節跳動最近發布了自己的推理型代理(智能體)UI-TARS,并聲稱該智能體在某些基準測試中優于OpenAI 的 GPT-4o、Anthropic 的Claude 和谷歌的 Gemini。字節跳動的智能體可以讀取圖形界面,進行推理,并采取自主和一步接一步的行動。

從初創公司到成熟巨頭,中國的人工智能公司似乎正在縮小與美國競爭對手的差距,這在很大程度上要歸功于它們愿意開源或與其他企業和軟件開發商共享底層軟件代碼。IBM花崗巖(Granite)模型高級技術產品經理Abraham Daniels說:"DeepSeek已經能夠在整個社區推廣一些相當強大的模型。DeepSeek真的有可能加速人工智能的民主化。"DeepSeek-R1在Hugging Face 上提供,根據MIT 許可證,允許不受限制地用于商業用途。

去年夏天,中國公司快手(Kuaishou)發布了一款視頻生成工具,它與OpenAI 的索拉(Sora)類似,但公眾可以直接使用。Sora于去年2 月亮相,但直到12 月才正式發布,即便如此,也只有訂閱了ChatGPT Pro 的用戶才能使用其全部功能。Hugging Face 上的開發者還搶購了中國科技巨頭騰訊和阿里巴巴的新開源模式。雖然Meta 已將其Llama 模型開源,但OpenAI 和谷歌在模型開發方面都主要采用閉源方式。

除了開源帶來的好處外,DeepSeek 工程師在訓練系統時使用的英偉達(NVIDIA)高度專業化芯片也僅為美國競爭對手的一小部分。例如,DeepSeek 工程師在發布DeepSeek-V3 模型時發表的研究論文稱,他們只需要2000 個GPU(圖形處理單元)或芯片就能訓練出他們的模型。

推理模型

IBM院士(IBMFellow)Kush Varshney說:"真正令人印象深刻的是DeepSeek模型的推理能力。"推理模型本質上是自我驗證或檢查,代表了一種"元認知"或 "關于思考的思考"。"我們正開始將智慧融入到這些模型中,這是巨大的進步," Varshney 說。

去年9 月,當OpenAI 預覽其o1 推理模型時,推理模型成為熱門話題。與以往只給出答案而不解釋推理過程的人工智能模型不同,它通過將復雜問題分成幾個步驟來解決。推理模型可能需要多花幾秒或幾分鐘來回答問題,因為它們會一步一步或以"思維鏈"的方式來反思自己的分析。

強化學習

DeepSeek-R1將思維鏈推理與強化學習相結合,在強化學習中,自主智能體在沒有人類用戶任何指令的情況下,通過反復試錯學會執行任務。強化學習有別于更常用的學習形式,如監督學習和無監督學習,前者使用人工標注的數據進行預測或分類,后者旨在從無標注的數據中發現和學習隱藏的模式。

DeepSeek-R1 質疑了這樣一種假設,即通過對正確或錯誤行為的標記示例進行訓練,或者從隱藏模式中提取信息,模型的推理能力就會得到提高。密歇根州立大學博士生張逸驊撰寫了數十篇機器學習方面的論文,他說:"它的核心假設很簡約,卻不那么簡單:我們能否只通過獎勵信號來教會模型正確回答,從而讓它自己摸索出最優的思考方式?"

張逸驊說,對于他和像他一樣習慣了傳統監督微調的專家而言,"眼見DeepSeek這樣的大型語言模型僅靠強化學習獎勵就能學會‘更好地思考',著實令人驚艷",尤其是看到"模型出現真正的‘aha(頓悟)時刻',它能后退一步,發現錯誤并自我糾正"。

成本計算

DeepSeek 引發的熱議部分源于其低廉的價格。根據該公司發布的技術報告,在圣誕節當天發布的DeepSeek-V3 的訓練成本為550 萬美元,而對于希望試用它的開發人員來說,價格要便宜得多。IBM杰出工程師Chris Hay說:"他們在模型成本方面所做的工作,以及他們訓練模型所花費的時間,確實令人印象深刻。"

然而,IBM研究院Granite技術產品管理總監Kate Soule表示,低廉的價格標簽可能并不是故事的全部。她說,550 萬美元的成本"只代表了所需計算量的一小部分"。她說,這還不包括公司即使采用開源模型也要保持專有的成本細節,比如"強化學習、數據消減和超參數搜索的計算成本"。

無可置疑的是,DeepSeek 通過使用專家混合(MoE)架構實現了更高的成本效益,而這種架構大大降低了訓練所需的資源。MoE 架構將人工智能模型劃分為不同的子網絡(或"專家"),每個子網絡專門處理輸入數據的一個子集。模型只激活特定任務所需的特定專家,而不是激活整個神經網絡。因此,MoE 架構大大降低了預訓練期間的計算成本,并在推理期間實現了更快的性能。在過去一年中,包括法國領先的人工智能公司Mistral和IBM在內的全球多家公司著力推廣了MoE 架構,并通過將MoE 與開源相結合實現了更高的效率。(例如,IBM在2024年Think大會宣布與紅帽一起推出InstructLab,一個推動大模型開源創新的革命性大模型對齊方法。)

就 IBM 的一系列開源Granite模型(采用MoE 架構開發)而言,企業能夠以極低的成本實現前沿模型的性能,因為他們可以針對特定應用或用例調整大型預訓練模型,從而有效創建更小的適用模型。將強大的功能集成到更小的稠密模型上,意味著這些模型可用于智能手機和其他在邊緣運行的移動設備,如汽車計算機或工廠車間的智能傳感器

這種采用較大模型并將其蒸餾成資源密集度較低的較小模型的過程也為DeepSeek 的成功做出了貢獻。在發布其標志性的 R1 模型的同時,這家中國初創公司還發布了一系列更小的適合不同用途的模型。有趣的是,他們用實踐證明,與一開始就對小型模型進行強化學習相比,將大型模型蒸餾成小型模型的推理效果更好。

全球性的人工智能洗牌?

隨著這些新模型在某些基準測試中與老一代競爭對手相抗衡或超越它們時,它們將如何影響全球人工智能格局?El Maghraoui說:"全球人工智能格局不只關乎基準測試的原始性能,更關系到是否能以安全和道德的方式對這些模型進行端到端的整合。" 因此,El Maghraoui 表示,現在判斷DeepSeek-R1 及其他產品是否會"改變人類互動、技術和企業應用",還為時尚早。

最終,"開發人員的采用率將決定DeepSeek 模型的受歡迎程度,"Daniels說。他表示期待"看到他們為模型發掘出的各種用例"。

在IBM院士Kush Varshney看來,全球AI競賽中的地緣政治差異,可能沒有人們想象的那么重要,他說:"一旦模型開源,它源自何處在很多方面就不再重要了。"

即刻開始在IBM watsonx.ai上使用DeepSeek——通過本教程,了解如何使用watsonx.ai以安全的方式部署DeepSeek-R1的精餾變體進行推理。



審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301404
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52109
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3265
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型 ai coding 比較

    框架:llm-coding-bench v1.0 統一代碼執行超時:10秒 統一隨機種子:42 統一裁判模型DeepSeek-Chat(第三方交叉驗證) ? 綜合評分公式: scss 體驗AI代碼
    發表于 02-19 13:43

    什么是AI模型推理能力

    NVIDIA 的數據工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發表于 09-23 15:19 ?1276次閱讀

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發的推理模型
    的頭像 發表于 07-25 15:22 ?1376次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】+混合專家

    :路由專家) 這種創新讓AI推理過程更接近人類思維,為解決復雜問題提供了新的思路。 共享專家宛如一位知識淵博的通才,它始終參與模型的每一次運算,就像一個穩定的基石,為整個模型提供著通
    發表于 07-22 22:14

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構、訓練框架、推理階段優化、后
    發表于 07-21 00:04

    【「DeepSeek 核心技術揭秘」閱讀體驗】第三章:探索 DeepSeek - V3 技術架構的奧秘

    時間減少,數據處理更流暢。這讓我聯想到工業生產中的流水線,AI 訓練在此處借鑒類似思路,通過優化任務分配和流程,突破硬件限制,追求更高效率,體現了技術發展中持續優化、突破瓶頸的智慧。 三、細粒度
    發表于 07-20 15:07

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化等關鍵技術。從混合專家模型
    發表于 07-17 11:59

    信而泰×DeepSeekAI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI
    發表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    MoE 訓練中的通信瓶頸,實現了高效穩定的訓練DeepSeek-V3 是業界率先使用 FP8 進行混合精度訓練的開源
    發表于 06-09 14:38

    Deepseek海思SD3403邊緣計算AI產品系統

    訓練樣本和訓練 模型,具體商業價值和保密性,采用海思SD3403邊緣計算AI服務器+多路安防監控IPC,讓差異化AI視頻系統, 成本控制極
    發表于 04-28 11:05

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    應用開發不用“等平臺”,徹底釋放開發效率和模型接入自由度。 自DeepSeek橫空出世以來,這種更適合端側部署,回答效率更高效訓練模式快速引爆了A
    發表于 04-13 19:52

    中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座

    2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區,這兩款產品作為通用千億級模型與專用
    的頭像 發表于 03-31 11:56 ?690次閱讀
    中科馭數高性能網卡產品 成就<b class='flag-5'>DeepSeek</b><b class='flag-5'>推理模型</b>網絡底座

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    的100G光模塊已無法滿足高效AI訓練推理所需的大規模數據傳輸。為了應對這一挑戰,400G、800G乃至1.6T光模塊的出現成為行業必然趨勢。特別是隨著
    發表于 03-25 12:00

    【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試

    和強大的多場景適應能力受到廣泛關注。業務范圍包括為用戶提供智能對話、推理AI搜索、文件處理、翻譯、解題、創意寫作、編程等多種服務。 最新發布的 DeepSeek R1 大型語言模型
    發表于 03-21 19:31

    訓練好的ai模型導入cubemx不成功怎么處理?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 03-11 07:18