国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

商湯科技發布新一代大語言模型書生·浦語2.0

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2024-01-17 15:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1月17日,商湯科技與上海AI實驗室聯合香港中文大學和復旦大學正式發布新一代大語言模型書?·浦語2.0(InternLM2)。

InternLM2 的核心理念在于回歸語言建模的本質,致力于通過提高語料質量及信息密度,實現模型基座語言建模能力質的提升,進而在數理、代碼、對話、創作等各方面都取得長足進步,綜合性能達到開源模型的領先水平。

InternLM2是在2.6萬億token的高質量語料上訓練得到的。沿襲第一代書生·浦語(InternLM)設定,InternLM2包含7B及20B兩種參數規格及基座、對話等版本,滿足不同復雜應用場景需求,繼續開源,提供免費商用授權。

回歸語言建模本質

筑牢大模型能力基礎

大模型的研究應回歸語言建模本質,大模型各項性能提升的基礎在于語言建模能力的增強。

為此,聯合團隊提出了新一代的數據清洗過濾技術,通過更高質量的語料及更高的信息密度,筑牢大模型能力基礎。

主要發展了以下幾個方面的技術方法:

多維度數據價值評估:基于文本質量、信息質量、信息密度等維度對數據價值進行綜合評估與提升。

高質量語料驅動的數據富集:利用高質量語料的特征從物理世界、互聯網以及語料庫中進一步富集類似語料。

針對性的數據補齊:針對性補充語料,重點加強現實世界知識、數理、代碼等核心能力。

目前,浦語背后的數據清洗過濾技術已經歷三輪迭代升級。僅使用約60%的訓練數據即可達到使用第二代數據訓練1T tokens的性能表現,模型訓練效率大幅提升。

wKgaomWne-iAQbT_AAEIBmxsGEc255.png

第三代數據清洗過濾技術大幅度提升模型訓練效率

基于第三代數據清洗過濾技術,InternLM2語言建模能力實現了顯著增強。

wKgaomWne-iAGGMaAAEp5gb_hxg049.png

與第一代InternLM相比,InternLM2在大規模高質量的驗證語料上的Loss分布整體左移,表明其語言建模能力實質性增強

支持200K超長上下文

“大海撈針”近乎完美

長語境輸入及理解能力能夠顯著拓展大模型應用場景,比如支持大型文檔處理、復雜的推理演算和實際場景的工具調用等。然而,大模型有限的上下文長度當前仍是學界及業內面臨的重要難題。

通過拓展訓練窗口大小和位置編碼改進,InternLM2支持20萬 tokens的上下文,能夠一次性接受并處理約30萬漢字(約五六百頁的文檔)的輸入內容,準確提取關鍵信息,實現長文本中“大海撈針”。

參考業界范例,研究人員對InternLM2進行了“大海撈針”試驗:將關鍵信息隨機插入一段長文本的不同位置并設置問題,測試模型能否從中提取出關鍵信息。

wKgaomWne-iAMWLhAAHPhFbq5Kg567.png

InternLM2“大海撈針”試驗效果

上圖展示了InternLM2在不同長度的上下文(橫軸)及上下文中不同位置(縱軸)上召回關鍵信息的準確率(Recall)。紅色代表較低的召回準確率,而綠色則代表較高的召回率。試驗結果表明,InternLM2在上下文長度延展到200K時依舊保持了近乎完美的召回成功率,驗證了InternLM2對于超長上下文堅實的支持能力。

為測試InternLM2在真實長文本處理任務中的能力,研究人員將一份時長3小時的公開會議錄音轉錄稿輸入模型中,并要求InternLM2從中提取出關鍵信息。

wKgZomWne-iAb9TxAAKeZy0-Z5E797.png

InternLM2準確總結“聯合國2023年10月2日召開的聯合國貿易和發展會議會議記錄”

原始公開記錄詳見:

https://conf.unog.ch/digitalrecordings/index.html?guid=public/60.5295/9849DF25-F3B5-4BFF-8979-C5A989586205_10h09&position=0&channel=ORIGINAL

測試結果表明,盡管在未校對的文本中存在較多錯別字,但InternLM2仍從中準確提煉出了關鍵信息,并總結了關鍵發言人的觀點。

性能全面提升

綜合領先同量級開源模型

InternLM2的各項能力獲得全面進步,相比于初代InternLM,在推理、數學、代碼等方面的能力提升尤為顯著,綜合能力領先于同量級開源模型。

根據大語言模型的應用方式和用戶關注的重點領域,研究人員定義了語言、知識、推理、數學、代碼、考試等六個能力維度,在55個主流評測集上對多個同量級模型的表現進行了綜合評測。

評測結果顯示,InternLM2的輕量級及中量級版本性能在同量級模型中表現優異。

wKgZomWne-iAYX2dAAOU3xvEZm0395.png

InternLM2的輕量級及中量級版本性能在同量級開源模型中表現優異

下面表格對比了InternLM2各版本與ChatGPT(GPT-3.5)以及GPT-4在典型評測集上的表現。

wKgZomWne-iAbmVbAABeTz7Q-O4654.png

InternLM2與ChatGPT的評測結果對比

可以看到,InternLM2只用20B參數的中等規模,即在整體表現上達到了與ChatGPT比肩的水平。其中,在AGIEval、 BigBench-Hard(BBH)、GSM8K、MATH等對推理能力有較高要求的評測上,InternLM2表現甚至優于ChatGPT。

與此同時,綜合性能的增強,帶來了下游任務的全方位能力提升。新發布的InternLM2提供優秀的對話及創作體驗,支持多輪任務規劃及工具調用,并提供實用的數據分析能力。

對話及創作:更溫情、更富想象力

InternLM2不僅在客觀性能指標上提升顯著,在主觀體驗上也有明顯改善,可以為用戶提供優秀的對話和交互體驗。

研究測試表明,InternLM2-Chat可以精準地理解和遵循用戶意圖,具備較強的共情能力和豐富的結構化創作能力。

下面是幾個示例:

示例一:在嚴格格式要求下編制課程大綱

wKgaomWne-mAG337AAREsUaUmIA061.png

InternLM2設計的課程大綱精準遵循用戶要求(比如格式、數量、內容等)

示例二:以富有人文關懷的回答開解用戶

wKgaomWne-iARq8gAAOpZVBuhxo378.png

InternLM2能夠在對話中與用戶“共情”

示例三:展開想象力,編寫《流浪地球3》的劇本

wKgZomWne-mAIIUyAAdrIFPut2A371.png

InternLM2設計的具備充滿豐富的合理想象,比如外星遺跡、量子糾纏的引入等。同時整個故事表現了人類面對危機時的勇氣和團結精神

對話和創造的體驗進步的原因,一方面是基礎語言能力的顯著增強,另一方面也得益于微調技術的提升。

InternLM2進行微調的過程使用了經過第三代數據清洗過濾技術處理的指令微調語料,同時也采用了更強的Online RLHF。

研究人員在微調InternLM2的過程中,對獎勵模型和對話模型進行了三輪迭代更新,每一輪更新均針對前一輪模型的表現更新偏好數據與提示詞。

在獎勵模型訓練(RM)和近端策略優化(PPO)階段,研究人員均衡采用各類提示詞,不僅提高了對話的安全性,也提升了用戶體驗。

工具調用:能力升級,更精準的工具選用,更可靠的多步規劃

基于更強大、更具泛化性的指令理解、工具篩選與結果反思等能力,InternLM2可支持復雜智能體的搭建,支持對工具進行多輪有效調用及多步驟規劃,完成復雜任務。

聯合團隊針對多種任務構建了細粒度工具調用評測集T-Eval(https://open-compass.github.io/T-Eval),InternLM2-Chat-7B在該評測集上表現超越了Claude-2.1和目前的開源模型,性能接近GPT-3.5。

wKgaomWne-mABQpTAAI-EDiHJ5g700.png

InternLM2工具調用能力全面提升

通過工具調用,使得大語言模型可通過搜索、計算、代碼解釋器等獲取知識并處理更復雜的問題,從而拓展應用邊界。研究人員對模型調用工具流程實施細粒度的拆解和分析,針對規劃、推理、工具選擇、理解、執行、反思等步驟進行了針對性增強和優化。

9319c0b8-b4f3-11ee-8b88-92fbcf53809c.gif

基于InternLM2通過開源智能體框架Lagent搭建的用戶助手智能體,能夠在一次指令回應中完成地圖查詢、路線規劃、發郵件等任務

數理推理:會做題,還會可視化分析

數學能力是大模型邏輯思維和推理能力的重要體現。

InternLM2的數學能力全面提升,達到當前開源模型的標桿水平。

基于更加科學構建的預訓練語料,InternLM2形成了很強的內生計算能力。

在不依靠計算器等外部工具的情況下,在100以內的簡單數學運算上能夠做到接近100%的準確率,在1000以內達到80%左右的運算準確率。在GSM8K和MATH評測中,InternLM2-20B的表現超過了ChatGPT(GPT-3.5)。

wKgZomWne-mAY4SLAABadSiq160159.jpg

InternLM2在100以內的簡單數學運算上能夠做到接近100%的準確率

為應對各類復雜計算,InternLM2-Chat還可借助代碼解釋器(Code-Interpreter)編寫代碼進行計算,或對推理的結果進行形式化驗證,從而解決計算要求更高或者演算過程更加復雜的問題。

在典型的數學評測集 GSM8K 和 MATH 上,配合代碼解釋器,InternLM2取得了更高的評測分數。其中對于難度更高的 MATH 數據集,InternLM2的計算精度從 32.5 大幅提升到 51.2,甚至超過了 GPT-4 的表現。

wKgZomWne-mAWtYyAAAxpHyXgBQ884.png

下面示例展示了InternLM2可以和代碼解釋器結合解決較復雜的高等數學問題。

wKgaomWne-mAL_XLAAI-5vcDqXI119.png

InternLM2能夠完成積分求解等高等數學題目

基于在計算及工具調用方面強大的基礎能力,InternLM2在語言模型中具備了數據分析和可視化實用能力,進一步貼近用戶使用場景。

936b4384-b4f3-11ee-8b88-92fbcf53809c.gif

向InternLM2輸入國家統計局公布的“2023年3-11月份規模以上工業企業主要財務指標(分行業)”,InternLM2能夠分析數據并繪制折線圖

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301405
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310
  • 商湯科技
    +關注

    關注

    8

    文章

    609

    瀏覽量

    37557

原文標題:支持200K超長上下文,一次可讀30萬漢字,“書生·浦語”2.0正式開源

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為在MWC 2026正式發布新一代智能電信云解決方案TICC 2.0

    在MWC26巴塞羅那期間舉行的Agentic Core峰會上,華為正式發布了全新一代智能電信云解決方案TICC 2.0(Telco Intelligent Converged Cloud),該方案
    的頭像 發表于 03-05 10:47 ?151次閱讀

    百度正式發布并開源新一代文檔解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式發布并開源新一代文檔解析模型 PaddleOCR-VL-1.5。該模型以僅 0.9B 參數的輕量架構,在全球權威文檔解析評測榜單 OmniDocBench V
    的頭像 發表于 01-30 10:03 ?593次閱讀
    百度正式<b class='flag-5'>發布</b>并開源<b class='flag-5'>新一代</b>文檔解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    商湯科技日日新V6.5榮獲2025年多模態大模型全國第

    近日,權威大模型評測基準 SuperCLUE 發布《中文多模態視覺語言模型測評基準12月報告》,商湯日日新V6.5(SenseNova V6
    的頭像 發表于 01-06 14:44 ?622次閱讀
    <b class='flag-5'>商湯</b>科技日日新V6.5榮獲2025年多模態大<b class='flag-5'>模型</b>全國第<b class='flag-5'>一</b>

    商湯科技日日新Seko系列模型與寒武紀成功適配

    12月15日,商湯科技基于在生成式AI與多模態交互領域的技術積累,正式發布Seko2.0——行業首個多劇集生成智能體。該智能體在多劇集視頻生成的致性方面展現出顯著優勢,其背后依托的是
    的頭像 發表于 12-17 14:06 ?460次閱讀

    商湯科技正式發布并開源全新多模態模型架構NEO

    商湯科技正式發布并開源了與南洋理工大學S-Lab合作研發的全新多模態模型架構 —— NEO,為日日新SenseNova 多模態模型奠定了新一代
    的頭像 發表于 12-08 11:19 ?1018次閱讀
    <b class='flag-5'>商湯</b>科技正式<b class='flag-5'>發布</b>并開源全新多模態<b class='flag-5'>模型</b>架構NEO

    摩爾線程新一代語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代語言模型對齊框架——URPO統獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這
    的頭像 發表于 11-17 16:03 ?494次閱讀
    摩爾線程<b class='flag-5'>新一代</b>大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    恩智助力億境虛擬打造新一代AI眼鏡解決方案

    恩智半導體宣布,深圳市億境虛擬現實技術有限公司(簡稱“億境虛擬”)在其新一代 AI 眼鏡解決方案SW3021中采用恩智i.MX RT685跨界MCU,實現了極致低功耗與強大音頻處理能力的平衡。
    的頭像 發表于 10-16 09:03 ?4366次閱讀

    【內測活動同步開啟】這么小?這么強?新一代模型MCP開發板來啦!

    【內測活動同步開啟】這么小?這么強?新一代模型MCP開發板來啦! 聆思全新一代六合芯片「LS26系列」,搭載WIFI / BLE & BT / NPU,與「小聆AI」強強
    發表于 09-25 11:47

    新一代超大模型訓練引擎XTuner V1開源

    9月8日,上海人工智能實驗室(上海AI實驗室)開源書生模型新一代訓練引擎XTuner V1。
    的頭像 發表于 09-10 10:55 ?1134次閱讀

    廣和通發布新一代具身智能開發平臺Fibot

    8月27日,全球領先的無線通信與AI解決方案提供商廣和通發布新一代具身智能開發平臺 Fibot。Fibot已成功應用于Physical Intelligence(π公司)最新通用視覺-語言-動作
    的頭像 發表于 08-29 11:14 ?1315次閱讀

    書生模型實戰營沐曦魔樂專場MeetUP精彩回顧

    近日,由書生模型社區、沐曦、魔樂社區、算豐和 DaoCloud 道客等聯合打造的「書生模型實戰營沐曦魔樂專場 MeetUP 暨頒獎儀式」在上海漕河涇國際孵化中心圓滿落幕。
    的頭像 發表于 08-20 11:33 ?1108次閱讀

    廣和通發布新一代AI語音智能體FiboVista

    近日,2025火山引擎Force原動力大會正式開幕。廣和通發布新一代AI語音智能體FiboVista,并已率先應用于車聯網,成為智能駕駛的“用車伙伴”和“出行伴侶”。通過創新AI大模型和場景服務洞察,FiboVista將在智慧家
    的頭像 發表于 06-17 09:22 ?1259次閱讀

    商湯大裝置SenseCore 2.0全新升級

    在2025商湯技術交流日上,作為最懂大模型的AI基礎設施,商湯大裝置SenseCore 2.0全新升級,致力于為企業提供敏捷、靈活、可靠的全棧AI基礎設施服務,以極致性價比推動大
    的頭像 發表于 04-14 18:07 ?1072次閱讀

    商湯“日日新”融合大模型登頂大語言與多模態雙榜單

    據弗若斯特沙利文(Frost & Sullivan, 簡稱“沙利文”)聯合頭豹研究院發布的《2025年中國大模型年度評測》結果顯示:在語言和多模態核心能力測評中,商湯“日日新”融合大
    的頭像 發表于 03-18 10:35 ?1144次閱讀

    易控智駕推出新一代全場景智能巡檢產品“礦巡2.0

    近日,在無人駕駛礦用車規模化應用成果發布會上,易控智駕正式發布新一代全場景智能巡檢產品——“礦巡2.0”,助力礦山實現環境信息采集、安全隱患排查、設備狀態監測等功能的自動化,大幅提升巡
    的頭像 發表于 03-13 11:24 ?1043次閱讀