
用AI做一個項目,要像花木蘭一樣“東市買駿馬,西市買鞍韉”,左一個DS,右一個GPT,代碼交給Claude,畫圖找MJ……一同操作下來,生產(chǎn)力還不知道提升了幾個點,真金白銀已經(jīng)充了一大堆。
11月13日,2025百度世界大會發(fā)布了文心 5.0,作為全新一代原生全模態(tài)大模型,它從訓(xùn)練之初就將語言、圖像、視頻、音頻納入同一套自回歸統(tǒng)一架構(gòu),進行統(tǒng)一的理解與生成訓(xùn)練,不僅支持文、圖、音、視頻全模態(tài)輸入,還能實現(xiàn)多模態(tài)輸出,直接把全能AI搭子送到你面前。似乎能解決這一問題。

其實早在文心5.0發(fā)布前,ERNIE-5.0-Preview-1022已亮相大模型競技場 LMArena,在文本排行榜斬獲1432分,與GPT-4.5-Preview等模型并列全球第二、國內(nèi)第一。當(dāng)時不少網(wǎng)友都在追問正式上線時間。

現(xiàn)在文心 5.0 Preview已同步登陸文心一言網(wǎng)頁版、文心 App 和百度千帆平臺,登錄即可直接調(diào)用。更絕的是,憑借原生全模態(tài)的大一統(tǒng)能力,終結(jié)了拼盤式AI干活,寫代碼、剪視頻、搞設(shè)計、寫文案樣樣精通……
這個“全能打工人” 到底能不能hold住復(fù)雜職場?咱們實測見分曉。

角色一:察言觀色的基礎(chǔ)執(zhí)行崗。
作為AI,幫咱們干點兒費時費力的體力活,那是最基本的要求。比如忙了一天之后,想看短劇爽一下,又感覺鋪墊太長,想直接快進到精華段落,我直接讓文心5.0 Preview化身“AI代看”,先看完這部劇,咱直接快進到最爽的點開始做夢。

文心5.0 Preview梳理了劇情脈絡(luò):專科生主角激活系統(tǒng),兌換了10套學(xué)區(qū)房,被異性認(rèn)可反轉(zhuǎn)。

同時精準(zhǔn)提煉出爽點:逆襲、打臉,并鎖定了最爽的點,在第4集“兌換學(xué)區(qū)房拿到房產(chǎn)證”和第5集“女博士主動示好”。

最后看結(jié)果:

短劇/爽文的受眾心理,真叫文心5.0 Preview給拿捏住了。
不過,互聯(lián)網(wǎng)“梗文化”的門道,可比爽劇的套路復(fù)雜多了。正話反說、諧音解構(gòu),都是網(wǎng)絡(luò)鬼才們的常規(guī)操作。就像一些被冠以“萬惡之源”的搞笑視頻,外人聽著還以為是啥暗黑邪典。面對這種語言陷阱,AI還能get到其中的笑點嗎?
比如下面這個被稱為萬惡之源的表情包,讓文心5.0 Preview分析一下為啥好笑?

它先是看懂了強森的表情與情緒變化,還結(jié)合了場景氛圍,摔角比賽的狂熱現(xiàn)場,然后精準(zhǔn)理解“萬惡之源”網(wǎng)絡(luò)術(shù)語的含義,懂網(wǎng)友的玩梗心理。

最后進行結(jié)構(gòu)化整合輸出,按“表情反差→場景烘托→玩梗屬性”的邏輯分層呈現(xiàn),用通俗語言把梗圖傳播的邏輯講明白了。
這個表情包的笑點源于表情的戲劇性、場景的反差感,以及網(wǎng)絡(luò)玩梗的“萬惡之源”屬性,可以從這幾個維度拆解:

文心5.0 Preview視頻內(nèi)容深度理解、互聯(lián)網(wǎng)文化洞察的能力,不光能用來看短劇,還能給市場運營策劃寫個腳本、分析目標(biāo)受眾的興趣偏好,輔助影視/短劇項目開發(fā),吸引用戶點擊觀看,通通拿捏住。
說干就干,我直接派給文心 5.0 Preview一個市場情緒洞察的活,讓它“分析這場直播的彈幕情緒”。
它不僅精準(zhǔn)讀懂了視頻內(nèi)容,還快速抓取所有彈幕信息,給出了一份邏輯清晰的情緒分析報告。

它還能聯(lián)動視頻畫面與彈幕內(nèi)容,實現(xiàn)多模態(tài)情緒對齊,結(jié)合點贊數(shù)從1125漲到2197、彈幕量持續(xù)走高的數(shù)據(jù),判斷出用戶情緒熱烈且參與感強。
這場直播的彈幕情緒整體呈現(xiàn)出高度積極、熱情且充滿支持的氛圍,主要可以歸納為以下幾類正面情緒:

這種多模態(tài)協(xié)同的察言觀色+高效落地,不管是分析直播帶貨的用戶反饋、會議錄像的參會者情緒,還是解讀活動視頻的觀眾互動效果,能省去大量人工篩選、分類、整合的時間。
這AI,還真給咱幫上忙了,必須給文心5.0 Preview升職,把它從基礎(chǔ)崗調(diào)進創(chuàng)意崗位。
角色二:多因素決策的創(chuàng)意崗位。
創(chuàng)造性任務(wù)中,需要理解復(fù)雜長問題,并結(jié)合多因素進行決策,再進行創(chuàng)意輸出,這種綜合能力,AI也能具備嗎?現(xiàn)在想拉動業(yè)務(wù)增長,離不開網(wǎng)絡(luò)手段,咱們先讓文心5.0 Preview看兩段電商直播視頻,分析下哪一種更帶貨。
從思考過程中發(fā)現(xiàn),它將直播帶貨的要素,拆解為場景、互動性、產(chǎn)品展示、受眾觸達、信任度等多個指標(biāo)。

先讀懂了視頻1“帳篷內(nèi)集中陳列農(nóng)產(chǎn)品+專業(yè)相機直播”的模式,抓取“場景固定、產(chǎn)品集中、畫面穩(wěn)定”的關(guān)鍵特征。

再解析視頻2“果園實地+手持水果 / 平板互動”的模式,提煉“產(chǎn)地直拍、實時采摘、強互動”的核心亮點。

逐一分析兩種模式的差異。


最終判斷“果園實地互動模式”更契合助農(nóng)需求,還給出了優(yōu)化建議,全程展現(xiàn)了極強的多模態(tài)理解與決策分析能力。

無論是營銷部門對比不同活動形式、廣告投放場景的效果,還是跨部門溝通,比如市場、銷售、供應(yīng)鏈團隊爭議推廣方案時,都可以用文心5.0 Preview來調(diào)整策略、統(tǒng)一方向。
有人可能覺得,AI可以在創(chuàng)意工作中隨便發(fā)揮,但我的工作內(nèi)容是嚴(yán)肅專業(yè)的,不能出錯,文心5.0 Preview也能勝任這種專業(yè)崗位嗎?
角色三:嚴(yán)肅認(rèn)真的專業(yè)崗。
面對嚴(yán)肅領(lǐng)域、復(fù)雜指令和問題,文心5.0 Preview的事實準(zhǔn)確性顯著提升,通過知識增強、檢索增強等方式,結(jié)合知識庫和上下文提供可靠信息。
我讓它把一篇74頁全英文論文《Waveguide combiners for mixed reality headsets:a nanophotonics design perspective》,講給初中生聽。


模型沒有堆砌術(shù)語,用一個魔法眼鏡的比喻,生成講解方案,實現(xiàn)復(fù)雜知識降維與文圖協(xié)同解釋,展現(xiàn)出了較強的邏輯思維和判斷力。


說明文心5.0 Preview也可以在專業(yè)崗位發(fā)揮輔助作用,幫科研人員快速制作科普材料,幫企業(yè)培訓(xùn)師將技術(shù)文檔轉(zhuǎn)為通俗易懂的課程,醫(yī)生向患者解釋復(fù)雜病情時減少溝通誤差的話術(shù),也能信手拈來。
角色四:編程壁壘的技術(shù)崗位。
文本能力比理科生強,編程能力比文科生強,打工人的差異化優(yōu)勢也讓文心5.0找到了。
我靈機一動,讓文心5.0 Preview給我寫個百度首頁前端代碼。別問,問就是《重生之我在九十年代創(chuàng)業(yè)建百度》。

不到一分鐘輸出了可運行的完整代碼,頁面高度還原了百度首頁,簡直“robin看了要崩潰,程序員看了會流淚”。那些“只差一個程序員”的互聯(lián)網(wǎng)創(chuàng)業(yè)夢想,可以由文心5.0 Preview補上了。

除了代碼編寫能力,文心5.0 Preview還支持智能體規(guī)劃能力,能根據(jù)用戶指令合理調(diào)用內(nèi)置工具或外部接口完成復(fù)雜操作。
于是我既要又要還要,讓文心給我做個更復(fù)雜的前端網(wǎng)頁,能調(diào)用名言API獲取名言、調(diào)用圖片API匹配背景圖、通過天氣API結(jié)合用戶位置獲取實時天氣,最后整合成一個美觀的界面。


表面看起來是寫代碼,背后其實還要拆解多步驟任務(wù),合理調(diào)用外部工具,在前端、3D、音頻等多個技術(shù)棧間無縫切換,實現(xiàn)智能體自主規(guī)劃。
無論是初創(chuàng)團隊零成本搭建MVP產(chǎn)品,設(shè)計師快速原型可視化創(chuàng)意,教師創(chuàng)建交互式教學(xué)網(wǎng)頁,都可以用文心5.0 Preview試試。
當(dāng)然,這個AI打工人也有一些翻車現(xiàn)場,比如一些視頻的暗部區(qū)域,細節(jié)識別不到,或是網(wǎng)頁代碼生成錯誤,有亂碼。
今天的AI都稱不上完美,總體來說,絕大多數(shù)簡單執(zhí)行的基礎(chǔ)崗位,以及一些創(chuàng)意、策劃、專業(yè)、編程技能等有壁壘的高階崗位,一個文心5.0 Preview就能勝任。
這個全能打工人,到底是怎么培養(yǎng)出來的?

經(jīng)常看打工人上網(wǎng)吐槽:剛進入職場就當(dāng)上了管理層,手底下管著N個國產(chǎn)AI,還有幾個外籍AI員工。
在信息爆炸、媒介融合的時代,表達早已超出了純文本,于是要求AI也必須能聽、看、讀、想、做,但多數(shù)模型是單模態(tài)或拼接式多模態(tài)。用戶想完成一個“讀完論文做一個科普課程海報”的復(fù)雜任務(wù),可能要先用A讀論文,把結(jié)論給B寫文案,再讓C出圖,最后用D優(yōu)化成社交媒體語氣……全程切換好幾個平臺,還得給AI做翻譯,反復(fù)調(diào)整指令,爭取對齊幾個AI之間的顆粒度。
文心5.0的原生全模態(tài)架構(gòu),終結(jié)了AI打工人的拼盤模式,成為一個全能型通才。一個模型,一個界面,就能完成視頻內(nèi)容理解、情緒與風(fēng)格判斷、多平臺文案生成、可視化代碼輸出。
這種原生全模態(tài),對用戶的好處是顯而易見的:
1.輸入輸出更全面,支持多種模態(tài)的數(shù)據(jù)上傳,模型能理解多種信息,交付多種成果,省去了跨工具切換、手動整合的時間。
2.綜合理解更準(zhǔn)確:避免單一信息誤導(dǎo),比如綜合背景、語音、面部微表情、上下文判斷真實情況,讓結(jié)果更準(zhǔn)確。
3.效率大幅提升:復(fù)雜任務(wù)自動化,創(chuàng)建多智能體的應(yīng)用程序,將重復(fù)性、跨工具工作交給AI,用戶專注決策和創(chuàng)意。

百度如何攻克行業(yè)難題?行業(yè)普遍采用文本模型+視覺模型+音頻模型的拼接方式,文心5.0從底層突破,通過原生架構(gòu)讓所有模態(tài)共享語義空間,這種端到端的多模態(tài)一致性,是拼接式模型難以企及的。
從技術(shù)上看,文心5.0自訓(xùn)練就融合多模態(tài)數(shù)據(jù),采用自回歸統(tǒng)一結(jié)構(gòu)、超大規(guī)模混合專家結(jié)構(gòu),實現(xiàn)統(tǒng)一理解與生成。在復(fù)雜任務(wù)中,能同步解析多模態(tài)信息,在同一推理路徑下完成多個指令要求,最終成果風(fēng)格一致、邏輯自洽。ERNIE-5.0-Preview-1022在LMArena評測中登頂中文文本能力榜首,為多模態(tài)能力筑牢堅實底座。
從成本上看,通過分布式訓(xùn)練和多級分離推理部署框架,顯著降低推理成本,最終普惠用戶。
從落地價值看,原生全模態(tài)大幅降低使用門檻、提升任務(wù)完成效率,一套大腦,N種任務(wù)、N個角色都能勝任,真正實現(xiàn)“所想即所得”,讓應(yīng)用AI的投入回報比更高。
文心5.0的發(fā)布釋放明確信號:百度沒有掉隊,聚焦高頻場景打造實用AI。

審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
89文章
37814瀏覽量
294919
發(fā)布評論請先 登錄
百度文心大模型5.0-Preview文本能力國內(nèi)第一
百度文心大模型X1.1正式發(fā)布
百度智能云全面升級百舸5.0和千帆4.0
寧暢與與百度文心大模型展開深度技術(shù)合作
百度文心快碼推出AI原生開發(fā)環(huán)境工具Comate AI IDE
百度文心大模型X1 Turbo獲得信通院當(dāng)前大模型最高評級證書
百度發(fā)布文心4.5 Turbo、X1 Turbo和多款A(yù)I應(yīng)用
百度文心快碼3.5升級,智能代碼助手正進入多模態(tài)智能體時代

全能搭子文心5.0,百度用原生全模態(tài)宣告回歸
評論