国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-12-03 20:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

研究者表示,CoDi-2 標志著在開發全面的多模態基礎模型領域取得了重大突破。

今年 5 月,北卡羅來納大學教堂山分校、微軟提出一種可組合擴散(Composable Diffusion,簡稱 CoDi)模型,讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態的生成,還能接收多個條件輸入以及多模態聯合生成。

近日,UC 伯克利、微軟 Azure AI、Zoom、北卡羅來納大學教堂山分校等多個機構的研究者將 CoDi 升級到了 CoDi-2。

wKgaomVsc6OAeaxrAAEl2u7reAU239.png

  • 論文地址:https://arxiv.org/pdf/2311.18775.pdf

  • 項目地址:https://codi-2.github.io/

項目 demo

論文一作 Zineng Tang 表示,「CoDi-2 遵循復雜的多模態交錯上下文指令,以零樣本或少樣本交互的方式生成任何模態(文本、視覺和音頻)?!?/span>

wKgaomVsc6OAYmXrAAI_ZkWK0sY869.png

圖源:https://twitter.com/ZinengTang/status/1730658941414371820

可以說,作為一種多功能、交互式的多模態大語言模型(MLLM),CoDi-2 能夠以 any-to-any 輸入-輸出模態范式進行上下文學習、推理、聊天、編輯等任務。通過對齊編碼與生成時的模態與語言,CoDi-2 使 LLM 不僅可以理解復雜的模態交錯指令和上下文示例, 還能在連續的特征空間內自回歸地生成合理和連貫的多模態輸出。

而為了訓練 CoDi-2,研究者構建了一個大規模生成數據集,包含了跨文本、視覺和音頻的上下文多模態指令。CoDi-2 展示了一系列多模態生成的零樣本能力,比如上下文學習、推理以及通過多輪交互對話實現的 any-to-any 模態生成組合。其中在主題驅動圖像生成、視覺轉換和音頻編輯等任務上超越了以往領域特定的模型。

wKgaomVsc6OATom_AAWunzoj2p0816.png

人類與 CoDi-2 的多輪對話為圖像編輯提供了上下文多模態指令。

模型架構

CoDi-2 在設計時旨在處理上下文中的文本、圖像和音頻等多模態輸入,利用特定指令促進上下文學習并生成相應的文本、圖像和音頻輸出。CoDi-2 模型架構圖如下所示。

wKgaomVsc6OAdK65AAKOrejz7vs577.png

將多模態大語言模型作為基礎引擎

這種 any-to-any 基礎模型可以消化交錯式模態輸入,理解和推理復雜指令(如多輪對話、上下文示例),并與多模態擴散器交互,實現這一切的前提是需要一個強大的基礎引擎。研究者提出將 MLLM 作為這個引擎,它的構建需要為僅文本的 LLM 提供多模態感知。

利用對齊的多模態編碼器映射,研究者可以無縫地使 LLM 感知到模態交錯的輸入序列。具體地,在處理多模態輸入序列時,他們首先使用多模態編碼器將多模態數據映射到特征序列,然后特殊 token 被添加到特征序列的前后,比如「?audio? [audio feature sequence] ?/audio?」。

基于 MLLM 的多模態生成

研究者提出將擴散模型(DM)集成到 MLLM 中,從而生成多模態輸出,這里遵循細致入微的多模態交錯指令和提示。擴散模型的訓練目標如下所示:

wKgaomVsc6SAdyM-AAB6GX4e-Ac131.png

接著他們提出訓練 MLLM 以生成條件式特征 c = C_y (y),該特征被饋入到擴散模型中以合成目標輸出 x。這樣一來,擴散模型的生成損失被用來訓練 MLLM。

任務類型

本文提出的模型在以下示例任務類型中顯示出強大的能力,它提供了一種獨特的方法來提示模型生成或轉換上下文中的多模態內容,包括本文、圖像、音頻、視頻及其組合。

1. 零樣本提示。零樣本提示任務要求模型在沒有任何先前示例的情況下進行推理并生成新內容。

2. 一次/少量樣本提示。一次或少量樣本提示為模型提供了一個或幾個示例,以便在執行類似任務之前從中學習。這種方法在以下任務中很明顯:模型將學習到的概念從一個圖像應用到另一個圖像,或者通過理解所提供示例中描述的風格來創建一個新的藝術品。

(1)范例學習在要求模型將此學習應用于新實例之前,向模型顯式顯示期望輸出的示例。(2)概念學習涉及模型從這些給定示例的共享概念/屬性中學習,例如藝術風格或模式,然后創建展示類似概念/屬性的新內容。(3)主題驅動的學習側重于根據一組提供的圖像生成新的內容。

實驗及結果

模型設置

本文模型的實現基于 Llama2,特別是 Llama-2-7b-chat-hf。研究者使用 ImageBind ,它具有對齊的圖像、視頻、音頻、文本、深度、thermal 和 IMU 模式編碼器。研究者使用 ImageBind 對圖像和音頻特征進行編碼,并通過多層感知器(MLP)將其投射到 LLM(Llama-2-7b-chat-hf)的輸入維度。MLP 由線性映射、激活、歸一化和另一個線性映射組成。當 LLM 生成圖像或音頻特征時,他們通過另一個 MLP 將其投射回 ImageBind 特征維度。本文圖像擴散模型基于 StableDiffusion2.1 (stabilityai/stable-diffusion-2-1-unclip)、AudioLDM2 和 zeroscope v2。

對于需要更高保真原始輸入的圖像或音頻,研究者還將原始圖像或音頻輸入到擴散模型中,同時通過連接擴散噪聲生成特征。這種方法在保留輸入內容的最大感知特征方面尤為有效,添加新內容或改變風格等指令編輯也是如此。

圖像生成評估

下圖展示了 Dreambench 上主題驅動圖像生成的評估結果和 MSCOCO 上的 FID 分數。本文方法實現了極具競爭力的零樣本性能,顯示了其對未知新任務的泛化能力。

wKgaomVsc6SAdPG5AAGrw4P79Wg155.png

音頻生成評估

表 5 展示了音頻處理任務的評估結果,即添加、刪除和替換音軌中的元素。從表中可以明顯看出,與之前的方法相比,本文方法表現出了卓越的性能。值得注意的是,在所有三個編輯任務中,它在所有指標 — 對數譜距離(LSD)、Kullback-Leibler(KL)發散和 Fréchet Dis- tance(FD)上都取得了最低得分。

wKgaomVsc6SAfoACAAIrPGvX02A094.png


原文標題:任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47820

    瀏覽量

    414960

原文標題:任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于NVIDIA GPU加速端點使用千問3.5 VLM開發原生模態智能體

    阿里巴巴推出了全新開源 千問3.5 系列,專為構建原生模態智能體而設計。該系列的首個模型是一款總參數為 397B、具備推理能力的原生視覺語言模型 (VLM),基于由混合專家模型 (M
    的頭像 發表于 03-04 16:37 ?304次閱讀

    格靈深瞳模態大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的模態表征方法相繼提出,過去單一模態搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、
    的頭像 發表于 11-02 15:56 ?1715次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態嵌入模型

    Embeddings模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態嵌入模型。該模型是首個通過單一模型支持
    的頭像 發表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態</b>嵌入模型

    米爾RK3576部署端側模態輪對話,6TOPS算力驅動30億參數LLM

    (imgenc),為后續圖片處理做好準備。 RK3576 平臺運行模態對話 Demo 的終端日志,顯示視覺與語言模型成功加載,包含模型版本、硬件配置及張量信息,完成
    發表于 09-05 17:25

    淺析模態標注對大模型應用落地的重要性與標注實例

    ?在人工智能邁向AGI通用智能的關鍵道路上,大模型正從單一的文本理解者,演進為能同時看、聽、讀、想的“多面手”。驅動這一進化的核心燃料,正是高質量的模態數據,而將原始數據轉化為“機器可讀教材
    的頭像 發表于 09-05 13:49 ?2262次閱讀

    基于米爾瑞芯微RK3576開發板的Qwen2-VL-3B模型NPU模態部署評測

    案例:支持圖像和文本交互 步驟 1:環境準備 步驟 2:模型的獲取、驗證與格式轉換 步驟 3:修改代碼并交叉編譯可執行文件并上傳到板子上 步驟 4:上傳文件到開發板 性能測試 Tips
    發表于 08-29 18:08

    中偉視界:解密GB28181流媒體平臺,模態AI的強大支撐

    GB28181流媒體平臺作為模態AI系統的基礎數據樞紐,解決源異構視頻資源的接入與處理問題,提供標準化數據格式,支持各類智能分析與應用場景。其廣泛的協議兼容性和
    的頭像 發表于 07-24 14:38 ?904次閱讀
    中偉視界:解密GB28181流媒體平臺,<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI的<b class='flag-5'>強大</b>支撐

    研華科技攜手創新奇智推出模態大模型AI一體機

    這是一款基于研華高性能邊緣計算平臺MIC-733,深度集成創新奇智視覺小模型與模態大模型的邊緣智能終端,通過創新的“視覺識別 + 深度語義理解”融合分析路徑,具備
    的頭像 發表于 07-17 17:14 ?948次閱讀
    研華科技攜手創新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型AI一體機

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    學習、大規模數據分析等前沿技術。DeepSeek-R1具備卓越的邏輯推理、模態分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復雜問題求解、跨
    發表于 07-16 15:29

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態大模型

    InternVL2.5-1B/8B/MPO,Huggingface推出的全球最小模態大模型SmloVLM-256M。為工業界提供離線部署模態
    的頭像 發表于 04-21 10:56 ?3151次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B<b class='flag-5'>視覺</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型

    一種模態駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成式模型為其提供一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略
    的頭像 發表于 03-24 15:57 ?1687次閱讀
    一種<b class='flag-5'>多</b><b class='flag-5'>模態</b>駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    全系智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    發表于 03-21 14:12 ?533次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型,重塑智能交互新體驗

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    智能模組產品已全面接入火山引擎豆包VLM(視覺語言)模態AI大模型。這一突破性進展表明,搭載移遠任意智能模組的終端設備,均可無縫融合
    的頭像 發表于 03-20 19:03 ?822次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大模型,重塑智能交互新體驗

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的模態人工智能模型,
    的頭像 發表于 03-17 15:32 ?8843次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語言模型)?詳細解析

    ?模態交互技術解析

    模態交互 模態交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音
    的頭像 發表于 03-17 15:12 ?4403次閱讀