国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2025年Next Token Prediction范式會(huì)統(tǒng)一多模態(tài)嗎

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來(lái)源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2025-01-21 10:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

訓(xùn)練方法與推理策略

性能評(píng)測(cè)體系

現(xiàn)存挑戰(zhàn)與未來(lái)方向

綜述的完整目錄如下:

26da8d0c-d62a-11ef-9310-92fbcf53809c.png

26f099ee-d62a-11ef-9310-92fbcf53809c.png

多模態(tài)的 Tokenization

我們認(rèn)為多模態(tài)的 Tokenization 是 MMNTP 的基石和最重要的部分,它將各種模態(tài)的信息(如圖像、視頻和音頻片段)分解為最小的單元序列(Token),以便 Transformer 結(jié)構(gòu)為基礎(chǔ)的 NTP 模型學(xué)習(xí)。

Tokenization 方法可以分為離散(Discrete Tokenization)和連續(xù)(Continuous Tokenization)兩種。離散標(biāo)記化通過(guò)量化將原始信息映射到有限的離散空間,而連續(xù)標(biāo)記化則不涉及量化,保留了數(shù)據(jù)的連續(xù)性質(zhì)。下面的圖給出了兩種方式的示意圖。

26f802c4-d62a-11ef-9310-92fbcf53809c.png

2.1 Tokenizer 訓(xùn)練方法

270f619e-d62a-11ef-9310-92fbcf53809c.png

本節(jié)針對(duì)圖片,視頻,音頻領(lǐng)域的 Tokenization 訓(xùn)練方法進(jìn)行了詳細(xì)的梳理和比較。首先總結(jié)了幾種常見(jiàn)的訓(xùn)練方法,例如對(duì)比學(xué)習(xí),自編碼器等,以及這些方法在不同模態(tài)上的應(yīng)用與針對(duì)不同模態(tài)特點(diǎn)的改進(jìn),并按照不同的訓(xùn)練方法歸納整理了不同類(lèi)型的 Tokenizers,如下表所示:

271f3fb0-d62a-11ef-9310-92fbcf53809c.png

我們以表示能力(representation)和重建能力(reconstruction)為基點(diǎn),重點(diǎn)討論了 Tokenizers 在訓(xùn)練時(shí)存在的挑戰(zhàn),例如離散型編碼器存在的編碼表塌陷,信息損失的問(wèn)題以及一些改進(jìn)措施例如 FSQ,LFQ 等方案,以及以 CLIP 為代表的連續(xù)型編碼器中主要存在的語(yǔ)義對(duì)齊,編碼效率,以及對(duì)于不同模態(tài)的數(shù)據(jù),大家提出了哪些針對(duì)性的改進(jìn)措施。

27319034-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型

273e03b4-d62a-11ef-9310-92fbcf53809c.png

MMNTP 模型一般結(jié)構(gòu)如上圖所示,它主要由骨干模型(一般是一個(gè) Transformer 模型),以及不同模態(tài)的 Tokenizer 與 De-Tokenizer 組成。Tokenizer將不同模態(tài)的信息轉(zhuǎn)換為 Token 序列,De-Tokenizer 則將 Token 序列轉(zhuǎn)換為原始模態(tài)的信息。

274fd1a2-d62a-11ef-9310-92fbcf53809c.png

如上圖所示,我們將 MMNTP 模型進(jìn)一步分為兩類(lèi),組合式(Compositional)和統(tǒng)一(Unified)式。組合模型依賴(lài)于強(qiáng)大的外部編碼器例如 CLIP 和解碼器例如 SD3 來(lái)理解和生成多模態(tài)信息,而統(tǒng)一模型則使用輕量級(jí)的編碼器和解碼器例如 VQVAE,將大部分理解和生成任務(wù)交給骨干模型。本文對(duì)這兩種模型結(jié)構(gòu)進(jìn)行了詳細(xì)討論,并比較了它們的優(yōu)缺點(diǎn)。

2761d1b8-d62a-11ef-9310-92fbcf53809c.png

對(duì)于不同的多模態(tài)任務(wù)來(lái)說(shuō),MMNTP 模型可以以一種統(tǒng)一的方式處理不同任務(wù),區(qū)別之處在于不同任務(wù)的輸入輸出不同。上圖以圖片模態(tài)為例子,列出來(lái)了同一個(gè) MMNTP 模型結(jié)構(gòu)如何進(jìn)行圖片理解例如 VQA,圖片生成,以及基于文字指令的圖片編輯任務(wù)。

只需要替換輸入輸出的組合形式,同一個(gè)模型架構(gòu)就可以完成不同的任務(wù),這體現(xiàn)了 MMNTP 模型在多模態(tài)任務(wù)上的統(tǒng)一性。本文針對(duì)圖片,視頻,音頻模態(tài)的 MMNTP 模型進(jìn)行了詳細(xì)的討論,并根據(jù)結(jié)構(gòu)類(lèi)型進(jìn)行了梳理,如下表所示。

277a2f42-d62a-11ef-9310-92fbcf53809c.png

278ed762-d62a-11ef-9310-92fbcf53809c.png

訓(xùn)練范式

4.1 訓(xùn)練任務(wù)的類(lèi)型

27a5037a-d62a-11ef-9310-92fbcf53809c.png

一旦將不同模態(tài)的內(nèi)容轉(zhuǎn)化為序列化的標(biāo) Tokens,就可以使用統(tǒng)一的骨 MMNTP 模型來(lái)訓(xùn)練,以解決各種理解和生成任務(wù)。

本文將訓(xùn)練任務(wù)按照生成的 Token 類(lèi)型不同分為兩類(lèi),離散 Token 預(yù)測(cè)和連續(xù) Token 預(yù)測(cè)。二者的區(qū)別在于預(yù)測(cè)的 token 是離散的還是連續(xù)的,這會(huì)對(duì)應(yīng)不同的訓(xùn)練任務(wù),以及特殊的輸出頭的結(jié)構(gòu)。

例如多模態(tài)理解任務(wù)往往以語(yǔ)言作為輸出,則需要使用語(yǔ)言模型頭作為輸出頭,進(jìn)行離散 Token 預(yù)測(cè)。如果將 Diffusion 模型和 NTP 模型結(jié)合,則需要使用 Diffusion 模型頭作為輸出頭,進(jìn)行連續(xù) Token 預(yù)測(cè)。

4.2 訓(xùn)練階段

27bbc092-d62a-11ef-9310-92fbcf53809c.png

和語(yǔ)言模型類(lèi)似,MMNTP 模型的訓(xùn)練也可以分為三個(gè)階段,如上圖所示,分別是模態(tài)對(duì)齊預(yù)訓(xùn)練,指令微調(diào)和偏好學(xué)習(xí)。

這里的預(yù)訓(xùn)練階段,通常指的是在多模態(tài)數(shù)據(jù)-文本對(duì)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,以將不同模態(tài)的信息對(duì)齊到語(yǔ)言空間。指令微調(diào)階段是針對(duì)不同的下游任務(wù),例如理解和生成類(lèi)任務(wù),用標(biāo)注好的數(shù)據(jù)進(jìn)行訓(xùn)練。偏好學(xué)習(xí)在 MMNTP 模型中的研究剛剛起步,主要將模型的輸出和人類(lèi)的偏好進(jìn)行對(duì)齊。

本文詳細(xì)這三個(gè)階段的相關(guān)研究工作,并根據(jù)任務(wù)類(lèi)型進(jìn)行了歸納整理。

4.3 測(cè)試時(shí)的Prompt工程

27cd65d6-d62a-11ef-9310-92fbcf53809c.png

Prompt 工程是提升 LLM 模型效果的重要手段,在 MMNTP 模型中,借助了 LLM 繼基座模型的能力,Prompt 工程同樣重要。本文對(duì) MMNTP 模型中的 Prompt 工程進(jìn)行了詳細(xì)的討論,如上圖所示,分為多模態(tài)的上下文學(xué)習(xí)(Multimodal In-Context Learning)和多模態(tài)思維鏈(Multimodal Chain-of-Thought)兩種方法。

27e42294-d62a-11ef-9310-92fbcf53809c.png

如上圖所示,多模態(tài)的上下文學(xué)習(xí)指的是在輸入中加入多模態(tài)任務(wù)的例子,以幫助模型更好地理解任務(wù)。多模態(tài)思維鏈則是指在輸入中加入一些思維鏈的提示,例如“感知”,“推理過(guò)程”等,以促使模型更好地進(jìn)行多模態(tài)推理。我們將這些方法進(jìn)行整理,如下表所示。

27fc1124-d62a-11ef-9310-92fbcf53809c.png

2815b69c-d62a-11ef-9310-92fbcf53809c.png

訓(xùn)練數(shù)據(jù)集與性能評(píng)測(cè)

281c0042-d62a-11ef-9310-92fbcf53809c.png

在綜述中,我們還對(duì) MMNTP 模型的訓(xùn)練數(shù)據(jù)集進(jìn)行了詳細(xì)的討論,包括數(shù)據(jù)集的構(gòu)建,數(shù)據(jù)集的規(guī)模,以及數(shù)據(jù)集的多樣性。同時(shí),我們也比較了 NTP 模型和非 NTP 模型在多模態(tài)任務(wù)上的表現(xiàn),如上圖所示,在大規(guī)模理解任務(wù)例如 VQAv2,MMMU上,NTP 模型表現(xiàn)全面優(yōu)于非 NTP 模型。

在生成任務(wù)評(píng)測(cè)數(shù)據(jù)例如 Imagenet,GenEval,我們觀察到 NTP 模型在和純 Diffusion 取得了不相上下的效果,甚至在某些任務(wù)上表現(xiàn)更好,這展示了 NTP 模型在統(tǒng)一不同多模態(tài)任務(wù)上的潛力。

2836d354-d62a-11ef-9310-92fbcf53809c.png

存在的挑戰(zhàn)

本文提出了四個(gè)目前尚未解決的挑戰(zhàn),主要源于 MMNTP 訓(xùn)練范式。這些挑戰(zhàn)包括:

如何更好地利用無(wú)監(jiān)督的多模態(tài)數(shù)據(jù)來(lái)擴(kuò)展 MMNTP 模型

克服多模態(tài)干擾并增強(qiáng)協(xié)同作用

提高 MMNTP 模型的訓(xùn)練和推理效率

將 MMNTP 作為更廣闊任務(wù)的通用接口。

這些挑戰(zhàn)的解決對(duì)于 MMNTP 范式實(shí)現(xiàn)多模態(tài)智能的發(fā)展至關(guān)重要。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3953

    瀏覽量

    142638
  • NTP
    NTP
    +關(guān)注

    關(guān)注

    1

    文章

    260

    瀏覽量

    14998

原文標(biāo)題:2025年Next Token Prediction范式會(huì)統(tǒng)一多模態(tài)嗎?

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    格靈深瞳2025度關(guān)鍵詞回顧

    過(guò)去一年,格靈深瞳深耕視覺(jué)算法與模態(tài)大模型,自研視覺(jué)基礎(chǔ)模型Glint-MVT系列持續(xù)升級(jí):MVT v1.5提升局部和文字特征表達(dá)能力,收獲國(guó)際頂級(jí)學(xué)術(shù)會(huì)議ICCV 2025的Hig
    的頭像 發(fā)表于 02-24 17:17 ?1196次閱讀

    商湯科技日日新V6.5榮獲2025模態(tài)大模型全國(guó)第

    近日,權(quán)威大模型評(píng)測(cè)基準(zhǔn) SuperCLUE 發(fā)布《中文模態(tài)視覺(jué)語(yǔ)言模型測(cè)評(píng)基準(zhǔn)12月報(bào)告》,商湯日日新V6.5(SenseNova V6.5 Pro)以75.35的總分位列國(guó)內(nèi)第,斬獲金牌,并在視覺(jué)推理維度上拿下國(guó)內(nèi)最高分
    的頭像 發(fā)表于 01-06 14:44 ?622次閱讀
    商湯科技日日新V6.5榮獲<b class='flag-5'>2025</b><b class='flag-5'>年</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大模型全國(guó)第<b class='flag-5'>一</b>

    亞馬遜云科技上線(xiàn)Amazon Nova模態(tài)嵌入模型

    專(zhuān)為Agentic RAG與語(yǔ)義搜索量身打造,以行業(yè)頂尖的準(zhǔn)確率實(shí)現(xiàn)跨模態(tài)檢索 北京202510月29日 /美通社/ -- 亞馬遜云科技宣布,Amazon Nova Multimodal
    的頭像 發(fā)表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線(xiàn)Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入模型

    模態(tài)與智能體:學(xué)術(shù)界與產(chǎn)業(yè)界共話(huà)邊緣智能新未來(lái)-2025安凱微電子開(kāi)發(fā)者技術(shù)論

    202510月24日,在“2025安凱微電子開(kāi)發(fā)者技術(shù)論壇”(ADF 2025)期間,多位學(xué)術(shù)界專(zhuān)家與產(chǎn)業(yè)界行業(yè)資深人士齊聚H大廈多功能廳,圍繞“從多媒體到
    的頭像 發(fā)表于 10-29 10:15 ?3569次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>與智能體:學(xué)術(shù)界與產(chǎn)業(yè)界共話(huà)邊緣智能新未來(lái)-<b class='flag-5'>2025</b>安凱微電子開(kāi)發(fā)者技術(shù)論

    米爾RK3576部署端側(cè)模態(tài)輪對(duì)話(huà),6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

    滲透到智能家居、工業(yè)質(zhì)檢、穿戴設(shè)備等千萬(wàn)級(jí)場(chǎng)景中。RK3576 的模態(tài)交互對(duì)話(huà)方案,其價(jià)值遠(yuǎn)不止 “實(shí)現(xiàn)了項(xiàng)技術(shù)”,更在于提供了套 “算力適配 - 工程封裝 - 二次拓展” 的端
    發(fā)表于 09-05 17:25

    2025土耳其伊斯坦布爾線(xiàn)材線(xiàn)纜展覽會(huì)wire Eurasia 2025

    、展會(huì)信息 展會(huì)名稱(chēng):2025土耳其伊斯坦布爾線(xiàn)材線(xiàn)纜展覽會(huì) wire Eurasia 2025 展會(huì)時(shí)間:
    發(fā)表于 08-15 10:23

    “端云+模態(tài)”新范式:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書(shū)》正式發(fā)布

    7月28日,移遠(yuǎn)通信聯(lián)合智次方研究院正式發(fā)布《AI大模型技術(shù)方案白皮書(shū)》(以下簡(jiǎn)稱(chēng)“白皮書(shū)”)。這份白皮書(shū)系統(tǒng)梳理了AI大模型的技術(shù)特點(diǎn)、產(chǎn)業(yè)發(fā)展態(tài)勢(shì)與多元應(yīng)用場(chǎng)景,以及移遠(yuǎn)通信“端云+模態(tài)”AI
    的頭像 發(fā)表于 07-28 13:08 ?1229次閱讀
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>”新<b class='flag-5'>范式</b>:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書(shū)》正式發(fā)布

    潤(rùn)和軟件榮登2025模態(tài)AI大模型排行榜單

    近日,《互聯(lián)網(wǎng)周刊》聯(lián)合eNET研究院、德本咨詢(xún)、中國(guó)社會(huì)科學(xué)院信息化研究中心共同發(fā)布了“2025模態(tài)AI大模型”榜單。江蘇潤(rùn)和軟件股份有限公司(以下簡(jiǎn)稱(chēng)“潤(rùn)和軟件”)自主研發(fā)的“潤(rùn)知”知識(shí)處理
    的頭像 發(fā)表于 06-25 14:37 ?1687次閱讀

    商湯日日新SenseNova融合模態(tài)大模型 國(guó)內(nèi)首家獲得最高評(píng)級(jí)的大模型

    的大模型。 可信AI模態(tài)大模型評(píng)估20251月啟動(dòng),由中國(guó)信通院人工智能研究所牽頭,依據(jù)由業(yè)界60余家單位共同編制的《
    的頭像 發(fā)表于 06-11 11:57 ?1419次閱讀

    智駕革命再升級(jí)!2025上海車(chē)展解碼生成式AI重構(gòu)汽車(chē)產(chǎn)業(yè)新范式

    上海20255月12日?/美通社/ -- 在2025上海國(guó)際車(chē)展上,生成式人工智能與模態(tài)大模型成為技術(shù)焦點(diǎn),從智能座艙的擬人化交互到自動(dòng)
    的頭像 發(fā)表于 05-12 17:32 ?595次閱讀
    智駕革命再升級(jí)!<b class='flag-5'>2025</b>上海車(chē)展解碼生成式AI重構(gòu)汽車(chē)產(chǎn)業(yè)新<b class='flag-5'>范式</b>

    Google Cloud Next 2025會(huì)亮點(diǎn)回顧

    我們?cè)?Next 25 大會(huì)上展現(xiàn)了企業(yè)采用 AI 的強(qiáng)勁動(dòng)能,并就已全面集成 AI 技術(shù)堆棧的各個(gè)層面推出系列創(chuàng)新功能。
    的頭像 發(fā)表于 04-16 11:22 ?1987次閱讀

    采用可更新且具區(qū)分度錨點(diǎn)的模態(tài)運(yùn)動(dòng)預(yù)測(cè)研究

    在自動(dòng)駕駛領(lǐng)域,運(yùn)動(dòng)預(yù)測(cè) (Motion Prediction) 是個(gè)重要任務(wù),它有助于場(chǎng)景理解和安全決策。該任務(wù)利用歷史狀態(tài)和道路地圖來(lái)預(yù)測(cè)目標(biāo)智能體的未來(lái)軌跡。其主要挑戰(zhàn)來(lái)自未來(lái)行為的
    的頭像 發(fā)表于 04-01 10:32 ?776次閱讀
    采用可更新且具區(qū)分度錨點(diǎn)的<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>運(yùn)動(dòng)預(yù)測(cè)研究

    2025星閃技術(shù)應(yīng)用巡回研討會(huì)-深圳站火熱報(bào)名中

    2025星閃技術(shù)應(yīng)用巡回研討會(huì)-深圳站火熱報(bào)名中,感興趣的可以關(guān)注【國(guó)際星閃聯(lián)盟】微信公眾號(hào)了解活動(dòng)信息。
    發(fā)表于 03-25 10:17

    商湯“日日新”融合大模型登頂大語(yǔ)言與模態(tài)雙榜單

    據(jù)弗若斯特沙利文(Frost & Sullivan, 簡(jiǎn)稱(chēng)“沙利文”)聯(lián)合頭豹研究院發(fā)布的《2025中國(guó)大模型年度評(píng)測(cè)》結(jié)果顯示:在語(yǔ)言和模態(tài)核心能力測(cè)評(píng)中,商湯“日日新”融合大模
    的頭像 發(fā)表于 03-18 10:35 ?1144次閱讀

    ?模態(tài)交互技術(shù)解析

    模態(tài)交互 模態(tài)交互( Multimodal Interaction )是指通過(guò)多種感官通道(如視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等)或多種交互方式(如語(yǔ)音、手勢(shì)、觸控、眼動(dòng)等)與計(jì)算機(jī)系統(tǒng)進(jìn)行自然、
    的頭像 發(fā)表于 03-17 15:12 ?4403次閱讀