国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如果大模型是一片星空,誰是北斗?

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2025-09-10 18:02 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


wKgZO2jBTKSAbYNgAAmwJZ6ZuBE288.jpg

曾幾何時,我們對大模型的需求是“智能涌現”,是能夠滔滔不絕為我們提供內容,什么問題都能給出令人眼花繚亂的回復。初見這種能力時的訝然與驚喜,在今天依舊令人難忘。

但類似體驗多了之后,我們開始發現好像有哪里不對。大模型確實對答如流,但準確性與實用性卻不能夠保證,經常出現答非所問,錯誤理解的問題,尤其還有廣受詬病的大模型幻覺。記得有一次我想讓AI幫我規劃一天的Citywalk行程,某款頗具國民度的大模型為我規劃了五個地點。結果在出門后才發現,五個地方有三個是它編造臆想出來的,還有一個已經倒閉多時了。這就是因為大模型最終的推理結果不夠精準,不夠實用。長此以往下去,大模型就很容易失去它最為關鍵的工具性價值,轉而淪為一種極客玩具。

北斗七星,是羅盤發明之前最重要的導航參照物。這七顆星有著辨識度極高的形狀,并且永恒將勺柄指向正北方。有時候我會想,我們對大模型推理的需求不是它能給出漫天繁星般的答案,而是要給出北斗七星一樣精準、有效、有用的反饋。

wKgZPGjBTKWAWdX1AAB01k_NMmI775.jpg

9月9日,WAVE SUMMIT深度學習開發者大會2025在北京舉行。會上,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰發布了文心大模型X1.1深度思考模型。該模型在事實性、指令遵循、智能體等能力上均有顯著提升。

王海峰介紹,文心大模型X1是基于文心大模型4.5訓練而來的深度思考模型,升級后的X1.1相比文心X1,X1.1的事實性提升34.8%,指令遵循提升12.5%,智能體提升9.6%。

經過實測之后我們發現,文心大模型X1.1確實帶來了如齒輪咬合運轉一般的精準推理效果,全面強化了大模型在調用工具與智能體等領域的實用性。

大模型的未來不能僅僅是花團錦簇,而應該是訓練穩如泰山,推理準如北斗。基于飛槳文心聯合優化等優勢,具有全棧AI布局的百度,正在讓這一切成為可能。

wKgZO2jBTKWAA1F_AAJLK8gWdF8973.jpg

大模型依舊會面對諸多問題,這已經是全球AI行業的普遍認識,同時也是AI技術持續發展面對的最大瓶頸之一。

前不久,OpenAI在其發表的《Why Language Models Hallucinate》文章中就承認,“ChatGPT也會產生幻覺。GPT-5的幻覺雖然明顯更少,但在執行推理時幻覺仍然會發生。幻覺是所有大型語言模型面臨的一大根本挑戰”。

而事實上,大模型幻覺只是模型表現不佳的一個縮影。在今天,絕大多數大模型都會面臨著“虛實難題”。即大模型雖然能夠生成諸多內容,但其依舊缺乏實用性,無法在真正的學習、工作場景中產生實際價值。總結起來,大模型無法走向實用化,問題有以下幾種鮮明表現:

1.事實不清。大模型幻覺會導致模型推理出與事實不符的答案。我們甚至見到過大模型為了證明自身給出的結論,去編造新聞報道甚至歷史文獻,這種虛虛實實的推理結果,令人防不勝防。

2.無法準確驅動智能體與垂直工具。模型推理需要與更多專業工具、垂類智能體進行緊密結合,但大多數大模型都還不具備在推理側準確調用智能體的能力,導致整個推理體驗非常割裂。

3.對用戶指令理解不明確。當我們下達一些感情化、情緒化,或者較為復雜的指令時,大模型往往會陷入無法應對的怪圈,最終只能強行給我們一些錯誤無效的反饋。

文心大模型X1.1的出現,讓我們有機會擊破這些推理困境,走向真正的實用主義AI。

wKgZO2jBTKiAGUEdAAHpzk075U0539.jpg

2025年3月16日,百度發布了深度思考模型X1,隨后在4月更新了X1 Turbo。XI系列模型的特點是強化深度思考能力,能夠有效處理諸如邏輯分析、數學解答、專業知識調用等AI需求。而最新發布的文心大模型X1.1,則在智能體、工具調用、指令遵循、事實性等任務上有著出色的表現,較比此前版本與業界其他大模型,在問答、創作、邏輯推理等方面的綜合能力明顯提升。

讓我們來看看這款模型在推理任務中的表現究竟怎樣。

首先我提出了一個關于中國AI行業發展的問題,但不同之處在于我要求文心大模型X1.1通過七個維度進行分析,來考驗一下大模型的事實性效果

wKgZPGjBTKiAWL3rAAB8a7zZ9no649.jpg

這個問題對于大模型來說非常好回答,但想要列出七個維度,并且確保有數據,沒有事實錯誤,那其實還是非常困難的,來看看文心大模型X1.1的表現如何。

wKgZO2jBTKmAMj53AAOv7292Mq4854.jpg

wKgZPGjBTKmARZ9zAAQ0cd79tvA172.jpg

可以看到,文心X1.1確實找到了七個維度進行分析的方法,不同維度之間沒有出現大部分模型都可能出現的意義重疊、指向不清等問題,并且每一個維度都列出了相關案例與數據,而且這些內容都沒有與事實不相符的情況出現。可以看到文心大模型X1.1在事實性回答上的準確度已經顯著提升。為了對比,我們也評測了其他幾款主流大模型,回答效果較比文心X1.1都有著明顯的差距,大家可以自行對比、感受一下。

讓我們來測試一個文心X1.1對復雜指令的理解與遵循能力。延續上一個關于中國AI產業分析的問題,我問文心X1.1這樣一個關于中國AI人才的問題:

wKgZO2jBTKmAf0X5AADI5FoXsTY165.jpg

這個問題非常復雜,需要考慮的數據與影響要素很多,絕大多數大模型都會被這樣的復雜指令繞暈,然后給出與問題無關的推理結果。當然,別說是AI了,相信絕大多數人類也無法完成如此復雜的問題。讓我們來看看文心X1.1的答案。

首先,它的計算過程就非常復雜嚴謹。

wKgZPGjBTKqAU_d9AAIsdzw73_4570.jpg

接下來在最終的結果計算中,也給出了較為可信的供需計算過程與最終答案。

wKgZO2jBTKqAPIZ8AALXMkz08uo268.jpg

wKgZPGjBTKuAVN_mAADEklGrb14462.jpg

我們可以再來看看文心X1.1在工具調用方面的效果。為此,我上傳給文心X1.1一本超過12萬字的《伽利略傳》,讓它來幫我進行內容梳理。由于這是布萊希特創作的一本戲劇劇本,因此理解難度和總結難度都比較大。

wKgZO2jBTKuAZPS3AABp5BKYiLg217.jpg

而最終文心X1.1調用了文檔問答這一工具,對長文本進行了快速理解,并高效率給出了答案。

wKgZPGjBTKyAA39DAAPT6zBZVBA688.jpg

可以看到,文心X1.1不僅關注到了內容本身,還總結了作者、譯者的相關內容,給出了文檔內容之外的深度思考。

在這些推理能力的實際改善、增強下,能夠看到在多個權威基準評測中,文心X1.1整體表現超越了DeepSeek R1-0528,在部分任務上展現出領先優勢,并且與國際頂尖模型GPT-5和Gemini 2.5 Pro效果持平。

wKgZO2jBTKyATMNyAAFWr7Jiy7g561.jpg

目前,用戶已經可以在文心一言官網、文小言APP使用文心大模型X1.1。并且其已正式上線百度智能云千帆平臺,對企業客戶及開發者全面開放使用。

wKgZPGjBTKyAcHMMAAI7vaOwR1M425.jpg

那么,究竟是什么支撐起了文心X1.1的能力全面升級?

這就要提到文心X1.1背后創新的模型訓練方法。為了實現更好的強化學習模型訓練目標,百度對文心X1.1采用了迭代式的混合強化學習訓練框架,一方面通過混合強化學習同時融合提升通用任務和智能體任務的效果;另一方面通過自蒸餾數據的迭代式生產及訓練不斷提升模型整體效果。此外,通過多項技術創新讓文心X1.1在智能體、指令遵循和事實性方面表現出更出色效果。

wKgZPGjBTK2AA-mnAABuZIClkSs420.jpg

并且,文心X1.1還采用了基礎模型和策略模型知識一致性的強化學習訓練。在訓練過程中,不斷校驗后訓練模型和預訓練模型知識的一致性,從而讓模型事實性得到了大幅提升,規避了大模型幻覺的滋生可能性。

除此之外,文心X1.1還采用了基于檢查清單和指令驗證器的強化學習訓練讓模型在復雜指令遵循方面的效果明顯提升;通過基于思維和行動鏈的多輪強化學習訓練,讓模型在思考過程中將思維鏈和行動鏈結合,從而提升了智能體和工具調用方面的能力。

這一系列強化學習模型訓練方式的更新迭代,都是基于百度對大模型推理瓶頸的核心洞察與解決方案思考,最終造就了文心X1.1的推理效果。而更進一步說,發現問題之后還要能夠解決問題。文心X1.1能夠以超高速完成大幅迭代,離不開其背后穩如泰山的訓練推理綜合能力。

wKgZO2jBTK2AWNHlAAIeaIJZw7Y198.jpg

在當前產業環境下,我們可以發現AI大模型正發生著飛速的變化,讓人有眼花繚亂的感覺。但如果仔細看這些升級,卻會發現絕大多數大模型在核心技術能力上的提升都比較有限,彼此間的同質化嚴重。然而在這樣的整體走勢下,文心X1.1卻展現出了另一種升級模式:以核心技術提升整體能力,做到短時間跨越式升級。

而稍微放大視角就會發現,這不是只出現在文心X1.1上的孤例。從多粒度知識融合學習、知識和數據融合學習,到知識增強、知識點增強,從檢索增強、邏輯推理增強,到慢思考、深度思考、多模態,百度始終保持著大模型的效果的高速升級,以及訓推能力的全面迭代。能夠實現這一目標的深層動力,是百度構筑了穩固、高效、可持續的大模型能力提升動力源泉——這就是文心飛槳聯合優化。

文心與飛槳的配合,既包括框架-模型的聯合優化,也包括框架-算力的聯合優化,既有提升訓練性能的創新,也有提升推理吞吐的創新。在最新發布的飛槳框架v3.2中我們可以看到,其在?模型訓練、大模型硬件適配、主流?模型及高性能加速庫的支持上全面提升,這就將有助于進一步解決大模型的訓練技術難題,提高訓練效率,而這些價值也將被充沛釋放到文心大模型當中。

wKgZPGjBTK2AB9LHAABsvAm5qXs486.jpg

在訓練層面,能夠看到最新發布的飛槳框架v3.2在計算、并行策略、容錯能力三方面進?步升級。極致計算優化方面,提出了存算重疊的稀疏掩碼注意力計算FlashMask V3,同時實現了高效的FP8混合精度效果?損訓練技術。高效并行策略方面,提出了動態?適應的顯存卸載策略,以及創新設計的顯存友好的流水線并行調度,進一步降低顯存開銷。框架原生容錯能力方面,實現了大規模集群訓練容錯系統,在線監測靜默數據損壞等難以察覺的故障,并實現了高可用的檢查點容災方法,降低中斷恢復損失。經過上述優化,??X1.1及4.5系列模型均獲得了優異的性能表現,并在文心最?規模的4.5?本模型ERNIE-4.5-300B-A47B的預訓練上取得了47% MFU。

而在推理層面通過卷積編2比特極致壓縮,可插拔稀疏化輕量注意力,混合動態自適應多步投機解碼,通信存儲計算深度協同優化的大規模P/D分離部署等技術,提供大模型高效部署及高性能推理全棧能力。在文心4.5激活參數量47B、總參數量300B的模型ERNIE-4.5-300B-A47B上,通過上述系統性優化,在TPOT 50ms時延條件下,實現了輸入吞吐高達57K、輸出吞吐29K的卓越性能表現。

模型要準,基座要穩。文心飛槳聯合優化就提供了這樣的AI發展基座。文心飛槳的聯合優化與雙層開源,構成了百度在大模型技術上的特色與優勢。這樣的優勢將源源不斷釋放到大模型的最終表現與用戶體驗上來,文心X1.1就是最好的證明。

wKgZO2jBTK6ARGd3AAI9ogs0uRc749.jpg

文心X1.1的優秀表現最終證明了這樣一件事:大模型不是孤立存在的,它必須要與整體性的AI基礎設施進行緊密結合,是整個AI體系的一部分。而大模型的進化與成長,也與AI體系的完整性、成熟性緊密相關。或許在我們對標某項技術、某種技術特性時,可以通過集結人才、集中攻克等方式對這些技術進行模仿。但在此之后,當大模型要走上獨立發展、持續迭代的道路,就必須依靠AI基座的支撐。

在大模型喧嘩初散,同質化競爭開始復現時,百度重底座,重視AI全棧布局的戰略價值反而得到了證明與突顯。AI從最底層的芯片到最上層的應用,總共分為芯片-框架-模型-應用四層架構。而百度是全球為數不多進行全棧布局的AI公司。從昆侖芯,到飛槳深度學習框架,再到文心大模型,以及多個領域中領先的AI應用產品,百度在每一層都有關鍵自研技術,并且能夠有效獲得層層之間的反饋,實現端到端優化。這種把群星連為星河的戰略方向,讓百度能夠持續提供高性價比、擁有核心技術優勢的AI產品與解決方案。對于AI行業來說,文心X1.1的價值或許是證明了這種重視基座,重視全棧布局戰略的預見性與長期主義價值。

wKgZPGjBTK6ADa7pAAIaSWORJ8Y932.jpg

當前,百度的文心與飛槳雙層開源格局不斷強化。6月30日,百度正式開源文心大模型4.5系列模型,涵蓋47B、3B激活參數的混合專家(MoE)模型,與0.3B參數的稠密型模型等10款模型,并實現預訓練權重和推理代碼的完全開源。目前,文心大模型4.5系列開源模型已經在行業得到了廣泛的應用,實現了有效的開源生態構建。

最新數據披露,飛槳文心生態開發者達到2333萬,服務企業達到76萬家。廣生態、厚底座、快模型的AI戰略,正在幫助百度探索AI時代更廣闊的可能性。

wKgZO2jBTK6AOZlJAAHYOKiPkhA582.jpg

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301382
  • 大模型
    +關注

    關注

    2

    文章

    3650

    瀏覽量

    5183
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    北斗智聯榮膺長安汽車2025年度北斗天樞貢獻獎

    天樞貢獻獎”。這榮譽不僅是長安汽車對雙方戰略合作成果的高度認可,更彰顯了北斗智聯在汽車智能化賽道的核心競爭力。
    的頭像 發表于 01-07 17:54 ?1102次閱讀

    原料“漲聲”一片,磁性元件產業如何走?

    輪原材料漲價狂潮再度來襲,銅、錫、錳等有色金屬價格屢創新高,粉料企業密集發布漲價函,磁性材料及磁性元件行業企業被推至成本與市場的雙重擠壓之下,磁性元件產業亟需凝聚共識、共渡難關! 、全面漲價
    的頭像 發表于 01-07 13:56 ?298次閱讀
    原料“漲聲”<b class='flag-5'>一片</b>,磁性元件產業如何走?

    商湯大裝置助力上海發布全國規劃資源領域首個基礎大模型

    近日,上海量子城市空間智能建設年度成果之——全國規劃資源領域首個基礎大模型“云宇星空模型(專業版)”正式發布!
    的頭像 發表于 12-30 14:38 ?602次閱讀
    商湯大裝置助力上海發布全國規劃資源領域首個基礎大<b class='flag-5'>模型</b>

    關于CS1180S一片當兩用遇到的問題

    最近在使用你們公司的CS1180S,一片CS1180S通過模擬多路開關切換輪詢檢測輸出電壓和輸出電流,現在CS1180S使用的外部4.9152MHZ晶振,數據輸出引腳30HZ速率,33.333ms
    發表于 12-17 15:02

    北斗星通亮相第四屆北斗規模應用國際峰會

    9月24日,以“同世界 共北斗——智聯時空”為主題的第四屆北斗規模應用國際峰會在湖南株洲開幕。本屆峰會由國家發改委、國家網信辦、工信部、交通部與湖南省人民政府共同主辦,旨在積極推廣北斗規模應用、推動
    的頭像 發表于 09-25 17:46 ?1154次閱讀

    星空投影燈方案開發設計案例

    在科技與浪漫的交匯處,款能夠將浩瀚星空濃縮于掌心的投影儀,無疑是現代生活中的點睛之筆。無論是為臥室增添抹夢幻色彩,還是作為份獨特的禮物。然而,如何在有限的成本內實現卓越的投影效果
    發表于 09-03 15:45

    濕法清洗尾效應是什么原理

    濕法清洗中的“尾效應”是指在批量處理晶圓時,最后一片(即尾)因工藝條件變化導致清洗效果與前面片子出現差異的現象。其原理主要涉及以下幾個方面:化學試劑濃度衰減:隨著清洗過程的進行,槽體內化學溶液
    的頭像 發表于 09-01 11:30 ?442次閱讀
    濕法清洗尾<b class='flag-5'>片</b>效應是什么原理

    星空開源MES(萬界星空科技)——專業、通用、開源、免費的MES系統

    星空開源MES(萬界星空科技)——專業、通用、開源、免費的MES系統 源代碼:免費開源MES https://gitee.com/metaxk/xingkong-mes 、系統概述 星空
    的頭像 發表于 08-14 11:30 ?1504次閱讀

    北斗三號兼容升級如何選擇新北斗高精度定位模組

    隨著北斗三號全球衛星導航系統全面建成,其定位精度、信號強度及功能多樣性均實現跨越式升級。對于行業用戶而言,如何在保留原有設備價值的同時獲取北斗三號的全新能力?如何在不同頻段、不同場景下實現穩定精準的定位?
    的頭像 發表于 06-25 17:44 ?922次閱讀
    <b class='flag-5'>北斗</b>三號兼容升級如何選擇新<b class='flag-5'>一</b>代<b class='flag-5'>北斗</b>高精度定位模組

    max9979把DOUT也share到根線上,如果次只選其中個CS#, 其他未被選的芯片DOUT會是高阻態嗎?

    我有10路max9979, 共用路SPI控制接口(其中CS#是獨立的)。 當我把DOUT也share到根線上,如果次只選其中
    發表于 06-11 06:19

    北斗短報文應用方案舉例

    北斗短報文應用方案舉例
    發表于 06-05 16:25

    北斗短報文開發板

    北斗短報文N2G3型號開發板由核心板+底板組成,用排針排母對接。底板有MCU、DC-DC、LDO、EEPROM等。核心板有RD模塊、定位模塊等。主要功能有北斗短報文通信、北斗有源定位、北斗
    發表于 06-05 15:06

    FA模型訪問Stage模型DataShareExtensionAbility說明

    DataShareExtensionAbility提供數據庫的讀寫服務。 服務端由FA模型升級到Stage模型后,會導致FA模型的客戶端在API 9(含)之后的版本上無法訪問服務端。 為了解決上述問題,系統在框架側提供了
    發表于 06-04 07:53

    北斗有源終端:打通應急通信‘最后公里’的關鍵技術

    在自然災害頻發、通信設施易受破壞的緊急情況下,應急通信的“最后公里”問題尤為突出。北斗有源終端作為依托中國自主研發的北斗衛星導航系統的重要設備,憑借其強大的定位功能和穩定的通信能力,成為打通應急
    的頭像 發表于 04-02 10:11 ?874次閱讀
    <b class='flag-5'>北斗</b>有源終端:打通應急通信‘最后<b class='flag-5'>一</b>公里’的關鍵技術

    芯片流失敗都有哪些原因

    最近和某行業大佬聊天的時候聊到芯片流失敗這件事,我覺得這是個蠻有意思的話題,遂在網上搜集了些芯片流失敗的原因,放在這里和大家起分享
    的頭像 發表于 03-28 10:03 ?2454次閱讀
    芯片流<b class='flag-5'>片</b>失敗都有哪些原因