【新智元導(dǎo)讀】剛剛,我們經(jīng)歷了LLM劃時(shí)代的一夜。Gemini Ultra發(fā)布還沒(méi)幾天,Gemini 1.5就來(lái)了。卯足勁和OpenAI微軟一較高下的谷歌,開始進(jìn)入了高產(chǎn)模式。
自家最強(qiáng)的Gemini 1.0 Ultra才發(fā)布沒(méi)幾天,谷歌又放大招了。
就在剛剛,谷歌DeepMind首席科學(xué)家Jeff Dean,以及聯(lián)創(chuàng)兼CEO的Demis Hassabis激動(dòng)地宣布了最新一代多模態(tài)大模型——Gemini 1.5系列的誕生。
其中,最高可支持10,000K token超長(zhǎng)上下文的Gemini 1.5 Pro,也是谷歌最強(qiáng)的MoE大模型。
不難想象,在百萬(wàn)級(jí)token上下文的加持下,我們可以更加輕易地與數(shù)十萬(wàn)字的超長(zhǎng)文檔、擁有數(shù)百個(gè)文件的數(shù)十萬(wàn)行代碼庫(kù)、一部完整的電影等等進(jìn)行交互。
同時(shí),為了介紹這款劃時(shí)代的模型,谷歌還發(fā)布了達(dá)58頁(yè)的技術(shù)報(bào)告。
毫不夸張地說(shuō),大語(yǔ)言模型領(lǐng)域從此將進(jìn)入一個(gè)全新的時(shí)代!
1,000,000 token超超超長(zhǎng)上下文,全面碾壓GPT-4 Turbo
在上下文窗口方面,此前的SOTA模型已經(jīng)「卷」到了200K token(20萬(wàn))。
如今,谷歌成功將這個(gè)數(shù)字大幅提升——能夠穩(wěn)定處理高達(dá)100萬(wàn)token(極限為1000萬(wàn)token),創(chuàng)下了最長(zhǎng)上下文窗口的紀(jì)錄。

1000萬(wàn)token極限海底撈針幾乎全綠
首先,我們看看Gemini 1.5 Pro在多模態(tài)海底撈針測(cè)試中的成績(jī)。

對(duì)于文本處理,Gemini 1.5 Pro在處理高達(dá)530,000 token的文本時(shí),能夠?qū)崿F(xiàn)100%的檢索完整性,在處理1,000,000 token的文本時(shí)達(dá)到99.7%的檢索完整性。
甚至在處理高達(dá)10,000,000 token的文本時(shí),檢索準(zhǔn)確性仍然高達(dá)99.2%。

在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時(shí)的音頻資料中,100%成功檢索到各種隱藏的音頻片段。

在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時(shí)的視頻內(nèi)容中,100%成功檢索到各種隱藏的視覺(jué)元素。

此外,谷歌研究人員還開發(fā)了一個(gè)更通用的版本的「大海撈針」測(cè)試。
在這個(gè)測(cè)試中,模型需要在一定的文本范圍內(nèi)檢索到100個(gè)不同的特定信息片段。
在這個(gè)測(cè)試中,Gemini 1.5 Pro在較短的文本長(zhǎng)度上的性能超過(guò)了GPT-4-Turbo,并且在整個(gè)100萬(wàn)token的范圍內(nèi)保持了相對(duì)穩(wěn)定的表現(xiàn)。
與之對(duì)比鮮明的是,GPT-4 Turbo的性能則飛速下降,且無(wú)法處理超過(guò)128,000 token的文本,表現(xiàn)慘烈。

大模型視野,被「史詩(shī)級(jí)」拓寬
LLM發(fā)展到這個(gè)階段,模型的上下文窗口已經(jīng)成為了關(guān)鍵的掣肘。
模型的上下文窗口由許多token組成,它們是處理單詞、圖像、視頻、音頻、代碼這些信息的基礎(chǔ)構(gòu)建。
模型的上下文窗口越大,它處理給定提示時(shí)能夠接納的信息就越多——這就使得它的輸出更加連貫、相關(guān)和實(shí)用。
而這次,谷歌通過(guò)一系列機(jī)器學(xué)習(xí)的創(chuàng)新,大幅提升了1.5 Pro的上下文窗口容量,從Gemini 1.0的原始32,000 token,直接提升到了驚人的1,000,000 token。
這就意味著,1.5 Pro能夠一次性處理海量信息——比如1小時(shí)的視頻、11小時(shí)的音頻、超過(guò)30,000行的代碼庫(kù),或是超過(guò)700,000個(gè)單詞。
甚至,谷歌曾經(jīng)一度成功測(cè)試了高達(dá)10,000,000的token。
深入理解海量信息
脫胎換骨的Gemini 1.5 Pro,已經(jīng)可以輕松地分析給定提示中的海量?jī)?nèi)容!
它能夠洞察文檔中的對(duì)話、事件和細(xì)節(jié),展現(xiàn)出對(duì)復(fù)雜信息的深刻理解。

我們甩給它一份阿波羅11號(hào)任務(wù)到月球的402頁(yè)飛行記錄,它對(duì)于多復(fù)雜的信息,都能表現(xiàn)出深刻的理解。

讓它從文件中列舉出3個(gè)喜劇性的時(shí)刻,接下來(lái),就是見(jiàn)證奇跡的時(shí)刻——
才過(guò)了30秒出頭,答案就已經(jīng)生成了!

接下來(lái),看看它的多模態(tài)功能。
把這張圖輸入進(jìn)去,問(wèn)它:這是什么時(shí)刻?
它會(huì)回答,這是阿姆斯特朗邁上月球的一小步,也是人類的一大步。

這次,谷歌還新增了一個(gè)功能,允許開發(fā)者上傳多個(gè)文件(比如PDF),并提出問(wèn)題。
更大的上下文窗口,就讓模型能夠處理更多信息,從而讓輸出結(jié)果更加一致、相關(guān)且實(shí)用。
橫跨各種不同媒介
與此同時(shí),Gemini 1.5 Pro還能夠在視頻中展現(xiàn)出深度的理解和推理能力!
得益于Gemini的多模態(tài)能力,上傳的視頻會(huì)被拆分成數(shù)千個(gè)畫面(不包括音頻),以便執(zhí)行復(fù)雜的推理和問(wèn)題解決任務(wù)。
比如,輸入這部44分鐘的無(wú)聲電影——Buster Keaton主演的經(jīng)典之作《小神探夏洛克》。
模型不僅能夠精準(zhǔn)地捕捉到電影的各個(gè)情節(jié)和發(fā)展,還能洞察到極易被忽略的細(xì)微之處。

我們可以問(wèn)它:找到一張紙從主角口袋中被拿出的瞬間,然后告訴我關(guān)于這個(gè)細(xì)節(jié)的信息。
令人驚喜的是,模型大約用了60秒左右就準(zhǔn)確地找出,這個(gè)鏡頭是在電影的12:01,還描述出了相關(guān)細(xì)節(jié)。

果然,模型精準(zhǔn)找出了這個(gè)鏡頭的時(shí)間點(diǎn),所述細(xì)節(jié)也完全準(zhǔn)確!
輸入一張粗略的涂鴉,要求模型找到電影中的對(duì)應(yīng)場(chǎng)景,模型也在一分鐘內(nèi)找到了答案。
高效處理更長(zhǎng)代碼
不僅如此,Gemini 1.5 Pro在處理長(zhǎng)達(dá)超過(guò)100,000行的代碼時(shí),還具備極強(qiáng)的問(wèn)題解決能力。

面對(duì)如此龐大的代碼量,它不僅能夠深入分析各個(gè)示例,提出實(shí)用的修改建議,還能詳細(xì)解釋代碼的各個(gè)部分是如何協(xié)同工作的。
?
開發(fā)者可以直接上傳新的代碼庫(kù),利用這個(gè)模型快速熟悉、理解代碼結(jié)構(gòu)。
?
高效架構(gòu)的秘密:MoE
Gemini 1.5的設(shè)計(jì),基于的是谷歌在Transformer和混合專家(MoE)架構(gòu)方面的前沿研究。
不同于傳統(tǒng)的作為一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)運(yùn)行的Transformer,MoE模型由眾多小型的「專家」神經(jīng)網(wǎng)絡(luò)組成。
這些模型可以根據(jù)不同的輸入類型,學(xué)會(huì)僅激活最相關(guān)的專家網(wǎng)絡(luò)路徑。
這樣的專門化,就使得模型效率大幅提升。
而谷歌通過(guò)Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成為深度學(xué)習(xí)領(lǐng)域中MoE技術(shù)的領(lǐng)航者。
Gemini 1.5的架構(gòu)創(chuàng)新帶來(lái)的,不僅僅是更迅速地掌握復(fù)雜任務(wù)、保持高質(zhì)量輸出,在訓(xùn)練和部署上也變得更加高效。
因此,團(tuán)隊(duì)才能以驚人的速度,不斷迭代和推出更先進(jìn)的Gemini版本。
性能比肩Ultra,大幅超越1.0 Pro
在涵蓋文本、代碼、圖像、音頻和視頻的綜合性測(cè)試中,1.5 Pro在87%的基準(zhǔn)測(cè)試上超越了1.0 Pro。
與1.0 Ultra在相同基準(zhǔn)測(cè)試的比較中,1.5 Pro的表現(xiàn)也相差無(wú)幾。

Gemini 1.5 Pro在擴(kuò)大上下文窗口后,依然保持了高水平的性能。在「大海撈針(NIAH)」測(cè)試中,它能夠在長(zhǎng)達(dá)100萬(wàn)token的文本塊中,在99%的情況下,準(zhǔn)確找出隱藏有特定信息的文本片段。
此外,Gemini 1.5 Pro展現(xiàn)了卓越的「上下文學(xué)習(xí)」能力,能夠僅憑長(zhǎng)提示中提供的信息掌握新技能,無(wú)需進(jìn)一步細(xì)化調(diào)整。
這一能力在「從一本書學(xué)習(xí)機(jī)器翻譯 (MTOB)」基準(zhǔn)測(cè)試中得到了驗(yàn)證,該測(cè)試檢驗(yàn)了模型學(xué)習(xí)從未接觸過(guò)的信息的能力。
對(duì)于一本關(guān)于全球不足200人使用的Kalamang語(yǔ)的語(yǔ)法手冊(cè),模型能夠?qū)W會(huì)將英語(yǔ)翻譯成Kalamang,學(xué)習(xí)效果與人類學(xué)習(xí)相似。
谷歌的研究者成功地增強(qiáng)了模型處理長(zhǎng)文本的能力,而且這種增強(qiáng)并沒(méi)有影響到模型的其他功能。
雖然這項(xiàng)改進(jìn)只用了Gemini 1.0 Ultra模型訓(xùn)練時(shí)間的一小部分,但1.5 Pro模型在31項(xiàng)性能測(cè)試中的17項(xiàng)上超過(guò)了1.0 Ultra模型。
與1.0 Pro模型相比,1.5 Pro在31項(xiàng)測(cè)試中的27項(xiàng)上,表現(xiàn)更佳。

具體結(jié)果如下:



細(xì)節(jié)表現(xiàn)如何?
分析和掌握復(fù)雜代碼庫(kù)
這款模型能夠迅速吸收大型代碼庫(kù),并解答復(fù)雜的問(wèn)題,這一點(diǎn)非常引人注目。
例如,three.js是一個(gè)包含約10萬(wàn)行代碼、示例和文檔等的3D Javascript庫(kù)。
借助這個(gè)代碼庫(kù)作為背景,系統(tǒng)能夠幫助用戶深入理解代碼,并能夠根據(jù)人們提出的高層次要求來(lái)修改復(fù)雜的示例。
比如:「展示一些代碼,用于添加一個(gè)滑塊控制動(dòng)畫速度。采用和其他演示相同的GUI風(fēng)格。」
或者精確地指出需要修改的代碼部分,以改變另一個(gè)示例中生成的地形的高度。
瀏覽龐大而陌生的代碼庫(kù)
并且,模型能夠幫我們理解代碼,或定位某個(gè)特定功能的實(shí)現(xiàn)位置。
在這個(gè)例子中,模型能夠處理整個(gè)包含116個(gè)文件的JAX代碼庫(kù)(746k token),并協(xié)助用戶找到實(shí)現(xiàn)自動(dòng)微分反向傳播的確切代碼位置。
顯然,在深入了解一個(gè)陌生的代碼庫(kù)或日常工作中使用的代碼庫(kù)時(shí),長(zhǎng)上下文處理能力的價(jià)值不言而喻。
許多Gemini團(tuán)隊(duì)成員已經(jīng)發(fā)現(xiàn),Gemini 1.5 Pro的長(zhǎng)上下文處理功能,對(duì)于Gemini 代碼庫(kù)大有裨益。

長(zhǎng)篇復(fù)雜文檔的推理
同時(shí),模型在分析長(zhǎng)篇、復(fù)雜的文本文檔方面也非常出色,例如雨果的五卷本小說(shuō)《悲慘世界》(共1382頁(yè),含732,000個(gè)token)。
下面這個(gè)簡(jiǎn)單的實(shí)驗(yàn),就展示了模型的多模態(tài)能力:粗略地畫出一個(gè)場(chǎng)景,并詢問(wèn)「請(qǐng)看這幅圖畫中的事件發(fā)生在書的哪一頁(yè)?」
模型就能給出準(zhǔn)確的答案——1099頁(yè)!
Kalamang語(yǔ)翻譯
報(bào)告中一個(gè)特別引人注目的例子是關(guān)于Kalamang語(yǔ)的翻譯。
卡拉曼語(yǔ)是新幾內(nèi)亞西部、印度尼西亞巴布亞?wèn)|部不足200人使用的語(yǔ)言,幾乎未在互聯(lián)網(wǎng)上留下足跡。
Gemini Pro 1.5通過(guò)上下文學(xué)習(xí)掌握了Kalamang語(yǔ)的知識(shí),其翻譯質(zhì)量可與使用相同材料學(xué)習(xí)的人相媲美。
在英語(yǔ)到卡拉曼語(yǔ)的翻譯中,Gemini Pro 1.5的ChrF達(dá)到了58.3,大幅超過(guò)了以往最好的模型得分45.8 ChrF,并略高于MTOB論文報(bào)告的57.0 ChrF人類基準(zhǔn)。
這一成就無(wú)疑帶來(lái)了令人激動(dòng)的可能性,提升稀有語(yǔ)言的翻譯質(zhì)量。


Gemini 1.5的誕生,意味著性能的階段飛躍,標(biāo)志著谷歌在研究和工程創(chuàng)新上,又邁出了登月般的一步。
接下來(lái)能跟Gemini 1.5硬剛的,大概就是GPT-5了。
-
谷歌
+關(guān)注
關(guān)注
27文章
6255瀏覽量
111701 -
AI
+關(guān)注
關(guān)注
91文章
40431瀏覽量
302026
發(fā)布評(píng)論請(qǐng)先 登錄
GPT-5震撼發(fā)布:AI領(lǐng)域的重大飛躍
海光DCU完成Qwen3.5多模態(tài)MoE模型全量適配
Ultrahuman使用Android Studio中的Gemini解決技術(shù)障礙并提升性能
Gemini CLI 中轉(zhuǎn)站配置使用教程
NVIDIA BlueField-4為推理上下文記憶存儲(chǔ)平臺(tái)提供強(qiáng)大支持
商湯科技正式開源多模態(tài)自主推理模型SenseNova-MARS
大語(yǔ)言模型如何處理上下文窗口中的輸入
正面對(duì)決GPT-5和Germini-3,DeepSeek-V3.2震撼發(fā)布
請(qǐng)問(wèn)riscv中斷還需要軟件保存上下文和恢復(fù)嗎?
商湯日日新V6.5多模態(tài)大模型登頂全球權(quán)威榜單
米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM
6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM,米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話
OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價(jià)向美國(guó)政府提供ChatGPT
鴻蒙NEXT-API19獲取上下文,在class中和ability中獲取上下文,API遷移示例-解決無(wú)法在EntryAbility中無(wú)法使用最新版
谷歌Gemini 1.5深夜爆炸上線,史詩(shī)級(jí)多模態(tài)硬剛GPT-5!最強(qiáng)MoE首破100萬(wàn)極限上下文紀(jì)錄
評(píng)論