機器學習多模態落地存在哪些挑戰

多模態機器學習，英文全稱 MultiModal Machine Learning (MMML)，旨在通過機器學習的方法實現處理和理解多源模態信息的能力。

當下，多模態技術有著相當廣泛的應用場景，如淘寶搜圖、AI字幕、AI虛擬數字人、仿人交互、智能助手、商品推薦和信息流廣告、視頻幀人臉幀的圖向量檢索、語音交互等等。

不過, 要說多模態技術真正實現了落地，似乎還太早，從多模態數據標注到跨模態轉化，多模態仍然存在一些待解決的挑戰。
?

多模態面臨的挑戰以及未來的可創新方向，天然的吸引著關注。畢竟不論是為了畢業還是申博亦或是未來的就業機會。論文都是繞不開的永恒話題，而沒有創新，就沒有好的論文。

面前擺放著多模態這盤“當紅辣子雞”，剩下的工作就是如何找創新點、get idea，寫好論文了。寫出好的論文，才是硬道理~

為了找到創新方向，大量精讀前沿論文是必不可少的一步。

但其實，精讀論文只是第一步。

后面更重要的是，通過精讀進行論文復現、從優秀的工作中找到靈感、為自己的工作提供營養……

更可怕的是，在第一步就被卡住。

不免感慨，如果有一位科研過硬的前輩指導，天下哪還有難讀的論文……

畢竟導師總是放養，師哥師姐也總是忙……

編輯：黃飛

閱讀全文

AI(298911) AI(298911)
機器學習(136440) 機器學習(136440)

基于人工智能的多模態機器人傳感系統

M-Bot由兩個全噴墨打印的柔性電子皮膚貼片組成，即e-skin-R（與機器人連接）和e-skin-H（與人體皮膚連接），e-skin-R由高性能多模態物理化學傳感器陣列組成，可以安裝在機器人手掌和手指上，e-skin-H由四個表面肌電信號（sEMG）電極陣列（通道）以及一對電刺激電極組成。

2022-07-10 11:53:33

2550

炬芯科技 2019 多模態交互技術開發者大會：AI多模態交互如何助力教育

賦能、語音賦能到視覺算法賦能、IP加速等多角度，共同探討多模態交互在教育上的落地情況。多模態交互技術賦能新智能硬件喜馬拉雅今年的用戶突破6億，擁有7000萬以上的主播，其中100萬以上是認證主播，在整個音頻行業的覆蓋率73%，每個用戶平均每天的播放時長超過

2019-12-24 11:46:43

14451

語音識別技術最新進展：視聽融合的多模態交互成為主要演進方向

多種模態（聲學、語言模型、視覺特征等）進行聯合建模，基于深度學習的多模態語音識別取得了新進展。 ? 多模態交互的原理及優勢 ? 多模態交互技術融合了多種輸入方式，包括語音、手勢、觸摸和眼動等，使用戶可以根據自己的喜好和習慣

2023-12-28 09:06:45

6613

機器學習的創新/開發和應用能力

機器學習的未來在工業領域采用機器學習機器學習和大數據工業人工智能生態系統

2020-12-16 07:47:35

機器學習的未來

機器學習的未來在工業領域采用機器學習機器學習和大數據

2021-01-27 06:02:18

機器開發人員面臨哪些軟件挑戰以及硬件挑戰？如何去應對這些挑戰？

2021-06-26 07:27:31

【「具身智能機器人系統」閱讀體驗】+數據在具身人工智能中的價值

熟練程度，但由于其多模態性質，訓練 EAI 模型需要更多的機器人數據。這些機器人數據包括各種傳感輸入和交互類型，不僅極具挑戰性，而且收集成本高昂。訓練 EAI 的第一個挑戰是訪問廣泛、高質量和多樣化

2024-12-24 00:33:31

【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

。多模態融合的創新與突破機器人控制技術的另一個重要突破在于多模態大模型的應用。相比于僅通過文字進行人機交互的傳統方法，現代機器人能夠融合視覺、聲音、定位等多模態輸入信息，為任務執行提供更加全面的感知

2024-12-29 23:04:07

【戰疫專題】第六期：突破口罩+護目鏡挑戰，多模態生物識別技術成趨勢

2020年，新型冠狀病毒席卷了整個中國，同時也在促進著產業的變革與生活變化。電子發燒友在此期間推出【戰疫專題】活動，持續為大家分享每期不同主題的相關資料。本期主題：突破口罩+護目鏡挑戰，多模態

2020-03-25 10:37:16

什么是機器學習? 機器學習基礎入門

本文旨在為硬件和嵌入式工程師提供機器學習(ML)的背景，它是什么，它是如何工作的，它為什么重要，以及 TinyML 是如何適應的機器學習是一個始終存在并經常被誤解的技術概念。數十年來，使用復雜

2022-06-21 11:06:37

如何應對機器人設計開發中的挑戰？

與智力開發等，并且隨著科技的發展，機器人的應用領域還在不斷擴展。但是機器人的快速發展也為該領域的研究與開發人員帶來了巨大的挑戰。機器人領域的著名科學家David Barrett博士（曾任iRobot

2019-07-31 07:17:18

如何選擇LTE系統測試方法，存在哪些挑戰？

TD-LTE、FDD-LTE和LTE-Advanced(LTE-A)無線技術使用了幾種不同的多種輸入多路輸出(MIMO)技術。鑒于MIMO系統的復雜性正在日益提高，因此相關的測試方法也將更具挑戰性。那么，如何選擇LTE系統測試方法，存在哪些挑戰？

2019-02-28 11:18:42

微型機器學習

人工智能 AI 正在加快速度從云端走向邊緣，進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小，面臨著許多挑戰，例如功耗、延時以及精度等問題，傳統的機器學習模型無法滿足要求，那么微型機器學習又如何呢？

2021-09-15 09:23:12

掃地機器人面臨的設計挑戰有哪些

掃地機器人已面世約23年了，隨著其智能和自動化程度日益提高，人們可以在其工作時專注于自己的事情。掃地機器人的參考設計和產品點擊此處瀏覽設計如今的掃地機器人上集成了非常多的功能，比如新的拖地功能和自動

2022-11-09 06:02:07

松靈新品丨全球首款多模態?ROS開發平臺LIMO來了，將聯合古月居打造精品課程精選資料分享

。為探索多場景交互學習的可行方案，領先的移動機器人底盤和軟硬件系統提供商松靈機器人，借助多年的機器人硬件結構創新經驗和軟件算法開發優勢，為科研教育用戶開創了全球首款集四種運動模態和高性能傳感器系統于

2021-08-30 08:39:33

深度學習存在哪些問題？

深度學習常用模型有哪些？深度學習常用軟件工具及平臺有哪些？深度學習存在哪些問題？

2021-10-14 08:20:47

盤點機器視覺三大落地成熟應用

` 機器視覺作為新一代的通用技術，在多個領域正式落地開花。而應用最為成果的案例莫非是醫療、金融和運維三大方面了。首先，在醫療領域，機器視覺被應用到提供輔助診療，癌癥檢測和機器人手術等方面，幫助醫生

2019-03-21 11:48:29

米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

“看圖說話+語音問答”的融合交互。五、結論與未來發展方向如果說 “大模型上云” 是 AI 的 “星辰大海”，那么 “多模態落地端側” 就是 AI 的 “柴米油鹽”—— 后者決定了智能技術能否真正

2025-09-05 17:25:10

部署基于嵌入的機器學習模型

的價值。這是機器學習社區目前面臨的主要挑戰之一。　　部署機器學習應用通常比部署傳統軟件應用程序更復雜，因為引入了一個額外的變化維度。雖然典型的軟件應用程序可以更改其代碼和數據，但是機器學習應用程序

2022-11-02 15:09:52

lABCIWQmultyWindows多模態窗口2010

lABCIWQmultyWindows多模態窗口2010。

2016-05-17 17:47:59

多尺度形態濾波模態混疊抑制方法

多尺度形態濾波模態混疊抑制方法_曹瑩

2017-01-07 18:21:31

存在信道噪聲和隨機丟包的多機器人協調控制_尹遜和

2017-01-08 11:20:20

雙擺雜技機器人DD2UD的多模態混合控制_但遠宏

2017-02-07 18:37:16

體驗MiniCPM-V 2.6 多模態能力

多模態組網

jf_23871869發布于 2025-01-20 13:40:48

自適應并行結構的多模態生物特征識別

2017-10-16 11:06:04

基于多模態特征數據的多標記遷移學習方法的早期阿爾茨海默病診斷

針對當前基于機器學習的早期阿爾茨海默病（AD）診斷中訓練樣本不足的問題，提出一種基于多模態特征數據的多標記遷移學習方法，并將其應用于早期阿爾茨海默病診斷。所提方法框架主要包括兩大模塊：多標記遷移學習

2017-12-14 11:22:37

多文化場景下的多模態情感識別

自動情感識別是一個非常具有挑戰性的課題，并且有著廣泛的應用價值．本文探討了在多文化場景下的多模態情感識別問題．我們從語音聲學和面部表情等模態分別提取了不同的情感特征。包括傳統的手工定制特征和基于深度

2017-12-18 14:47:31

基于LCS和LS-SVM的多機器人強化學習

本文提出了一種LCS和LS-SVM相結合的多機器人強化學習方法，LS-SVM獲得的最優學習策略作為LCS的初始規則集。LCS通過與環境的交互，能更快發現指導多機器人強化學習的規則，為強化學習系統

2018-01-09 14:43:49

機器學習和機器發現區別在哪？

機器學習現在可謂是炙手可熱。只要應用機器學習，就可以有效豐富數據和知識，促進有價值的任務自動化，包括感知、分類和數值預測等。而它的“兄弟”——機器發現，可用于發現照亮和引導人類的新知識。

2018-05-18 22:32:00

2392

人工智能時代，機器學習會面臨怎樣的挑戰?

?　　顯然，挑戰是存在的，一些業內精英也在這方面做具體的工作，邏輯推理、邏輯分析、通過監督機器學習的方式進行訓練和學習，讓它取得成功，這樣機器可以學習人類世界更多的常識和規則。這個不隨著時間的變化而

2018-09-13 11:25:02

4767

5G推動AIoT落地多模態AI芯成必然

繼去年5月在行業率先推出首款面向物聯網的AI芯片—雨燕（Swift）及其系統解決方案之后，1月2日，國內領先的人工智能企業云知聲在京召開新聞發布會，正式公布了其多模態AI芯片戰略與規劃。會上同步曝光

2019-01-03 15:59:12

1681

關于多模態機器學習綜述論文

因此，當研究問題或數據集包括多個這樣的模態時，其特征在于多模態。本文主要關注但不僅僅關注三種形式：自然語言既可以是書面的，也可以是口頭的; 視覺信號，通常用圖像或視頻表示; 和聲音信號，編碼聲音和口頭信息，如韻律和聲音表達。

2019-01-21 13:38:24

9421

機器學習存在哪些潛力與陷阱

機器學習的變革性作用，以及為何它現在如此重要，是因為我們來到了數據、運算能力以及算法復雜度的轉折點。

2019-07-03 16:27:59

1484

神經模態芯片如何商業化落地

神經模態芯片近幾年來的落地方向按照神經元規模可以分成兩類。

2019-08-09 18:46:25

2597

機器學習翻譯存在什么局限性

機器學習為企業提供了翻譯文檔的新機會，他們可以使用機器學習來翻譯營銷材料和其他文獻。

2019-12-03 16:26:51

4988

人工智能和機器學習對組織存在怎樣影響

只有人工智能/機器學習公司真正地理解潛在客戶的挑戰，才能夠從客戶角度出發創造出能夠真正賦能效率和有效性的產品。

2020-03-26 10:00:15

978

機器學習翻譯存在什么局限

機器學習為企業提供了翻譯文檔的新機會，他們可以使用機器學習來翻譯營銷材料和其他文獻。

2020-04-05 22:16:21

1638

5G云端智能機器人擁有多模態AI能力

云端機器人由云端大腦、神經網絡VBN和及機器人本體等組成。其中，云端大腦提供機器人所需要的智能視覺、智能聽覺、智能運動等多模態AI能力，通過遍布全球的移動通信安全高速網絡，將能力傳輸給遠端的機器人控制器和各種機器人、智能設備本體上。

2020-07-01 09:50:46

3618

AI全新應用場景技術趨勢多模態學習

新的 AI 技術發展趨勢有哪些？多模態學習技術一定是其中之一。

2020-07-18 09:19:12

2376

阿里云機器學習研究員對大規模機器學習實踐的見解

近年來，機器學習技術的發展歸因于我們有極其龐大的數據用來訓練算法。當企業需要落地大規模機器學習時，往往會面臨很多難題，如何解決這些問題？如何系統了解大規模機器學習落地的技巧？其適用

2020-07-31 16:22:12

1045

多模態生物識別系統的原理及局限性

隨著技術的發展，使用生物識別技術實施安全個人識別協議的挑戰正在增加，并且在世界上幾乎每個市場中對于準確的人類識別的需求都比以往更高。生物識別管理市場的并行發展已經確定，用于識別目的的單個硬件模態的使用可能不再是許多行業的最明智的選擇，那多模態生物識別系統有哪些優勢？

2020-10-09 15:30:39

3706

目前機器學習面臨的常見問題和挑戰

由于我們的主要任務是選擇一種學習算法，并對某些數據進行訓練，所以最可能出現的兩個問題不外乎是“壞算法”和“壞數據”，本文主要從壞數據出發，帶大家了解目前機器學習面臨的常見問題和挑戰，從而更好地學習機器學習理論。

2020-10-23 11:42:49

18042

機器學習的范圍和算法

什么是機器學習？機器學習是英文名稱MachineLearning（簡稱ML）的直譯。機器學習涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。

2020-11-12 10:19:12

1916

毫米波到底存在哪些缺點

電子發燒友網站提供《毫米波到底存在哪些缺點.pdf》資料免費下載

2020-11-26 02:22:00

318

Transformer模型的多模態學習應用

隨著Transformer在視覺中的崛起，Transformer在多模態中應用也是合情合理的事情，甚至以后可能會有更多的類似的paper。

2021-03-25 09:29:59

11785

基于語義耦合相關的判別式跨模態哈希特征表示學習算法

基于哈希的跨模態檢索以其存儲消耗低、査詢速度快等優點受到廣泛的關注。跨模態哈希學習的核心問題是如何對不同模態數據進行有效地共享語義空間嵌入學習。大多數算法在對多模態數據進行共享空間嵌入的過程中忽略了

2021-03-31 11:28:28

基于層次注意力機制的多模態圍堵情感識別模型

在連續維度情感識別任務中，每個模態內部凸顯情感表達的部分并不相同，不同模態對于情感狀態的影響程度也有差別。為此，通過學習各個模態特征并采用合理的融合方式，提出一種基于層次注意力機制的多模態維度情感

2021-04-01 11:20:51

多軸機器人和機床中的時序挑戰綜述

2021-05-29 14:08:19

當前機器學習面臨的落地挑戰

●當前機器學習落地挑戰● 近二十年來，機器學習已廣泛應用于數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略游戲

2021-06-17 11:14:16

4146

基于耦合字典學習與圖像正則化的跨模態檢索

2021-06-27 11:23:18

多模態MR和多特征融合的GBM自動分割算法

2021-06-27 11:45:54

簡述文本與圖像領域的多模態學習有關問題

來自：哈工大SCIR 本期導讀：近年來研究人員在計算機視覺和自然語言處理方向均取得了很大進展，因此融合了二者的多模態深度學習也越來越受到關注。本期主要討論結合文本和圖像的多模態任務，將從多模態預訓練

2021-08-26 16:29:52

7520

閃存在太空中存在哪些優缺點

Microchip 最近將其商用現貨（COTS）耐輻射技術擴展到閃存。但是，閃存在太空中存在哪些優缺點？

2022-04-28 16:54:47

2574

多模態圖像合成與編輯方法

本篇綜述通過對現有的多模態圖像合成與編輯方法的歸納總結，對該領域目前的挑戰和未來方向進行了探討和分析。

2022-08-23 09:12:19

1979

基于圖文多模態領域典型任務

圖文多模態領域典型任務如img-text retrieval、VQA、captioning、grounding等，目前的學術設定難度尚可。但是，一旦知識范圍擴展，到了open-ended

2022-09-01 17:14:47

3123

面向社交媒體的多模態屬性級情感分析

另一方面，相比于單一的文本數據，多模態數據包含了多種不同信息，這些信息之間往往一一對應、互為補充，如何對齊不同模態的內容并提出有效的多模態融合機制是一個十分棘手的問題。

2022-10-19 10:10:11

3025

基于多模態智慧感知決策的S230芯片

提到多模態融合感知，我們難免會覺得有些困惑 “模態”，可理解為“感官” 多模態即將多種感官融合不夠直觀？那今天我們就以一道競猜題開場請根據以下線索猜猜這是什么物品？

2022-11-03 11:59:06

1058

CMU最新《多模態機器學習的基礎和最新趨勢》綜述

開發具有智能能力的計算機智能體一直是人工智能的一個宏偉目標，如通過多模態經驗和數據進行理解、推理和學習，就像我們人類使用多種感官模式感知世界的方式一樣。

2022-12-07 14:43:03

1853

一個真實閑聊多模態數據集TikTalk

隨著大量預訓練語言模型在文本對話任務中的出色表現，以及多模態的發展，在對話中引入多模態信息已經引起了大量學者的關注。

2023-02-09 09:31:26

3236

中文多模態對話數據集

隨著大量預訓練語言模型在文本對話任務中的出色表現，以及多模態的發展，在對話中引入多模態信息已經引起了大量學者的關注。目前已經提出了各種各樣的多模態對話數據集，主要來自電影、電視劇、社交媒體平臺等

2023-02-22 11:03:01

2185

ImageBind：跨模態之王，將6種模態全部綁定！

最近，很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的模態對。因此，視頻 - 音頻嵌入無法直接用于圖像 - 文本任務，反之亦然。學習真正的聯合嵌入面臨的一個主要障礙是缺乏所有模態融合在一起的大量多模態數據。

2023-05-11 09:30:44

1973

如何利用LLM做多模態任務？

大型語言模型LLM（Large Language Model）具有很強的通用知識理解以及較強的邏輯推理能力，但其只能處理文本數據。雖然已經發布的GPT4具備圖片理解能力，但目前還未開放多模態輸入接口并且不會透露任何模型上技術細節。因此，現階段，如何利用LLM做一些多模態任務還是有一定的研究價值的。

2023-05-11 17:09:16

1571

多模態GPT：國內發布一款可以在線使用的多模態聊天機器人！

基于開源多模態模型 OpenFlamingo，作者使用公開數據集創建了各種視覺指令數據，包括視覺問答、圖像字幕、視覺推理、文本 OCR 和視覺對話。此外，還使用僅包含語言指令數據的語言模型組件進行了訓練。

2023-05-12 09:55:03

1724

邱錫鵬團隊提出具有內生跨模態能力的SpeechGPT，為多模態LLM指明方向

LLM 與通用人工智能（AGI）之間仍存在顯著差距。首先，大多數當前 LLM 只能感知和理解多模態內容，而不能自然而然地生成多模態內容。其次，像圖像和語音這樣的連續信號不能直接適應接收離散 token 的 LLM。

2023-05-22 14:38:06

1333

用圖像對齊所有模態，Meta開源多感官AI基礎模型，實現大一統

2023-05-26 15:45:07

1480

多模態大模型產業高峰論壇成功舉辦 ChatImg2.0、軟通天璇2.0 MaaS平臺重磅發布

5月30日，“多模態大模型產業高峰論壇”在軟通動力總部舉行。近百位專家學者、行業大咖和產業精英齊聚一堂，共同探討多模態大模型的產業機遇和未來發展。論壇上，元乘象 ChatImg2.0、軟通天璇2.0 MaaS平臺重磅發布。同時，進行了多項產業合作簽約，共同推動多模態大模型產業落地。

2023-05-31 10:14:43

1258

自動駕駛深度多模態目標檢測和語義分割:數據集、方法和挑戰

了許多解決深度多模態感知問題的方法。然而，對于網絡架構的設計，并沒有通用的指導方針，關于“融合什么”、“何時融合”和“如何融合”的問題仍然沒有定論。本文系統地總結了自動駕駛中深度多模態目標檢測和語義分割的方法，

2023-06-06 10:37:11

VisCPM：邁向多語言多模態大模型時代

隨著 GPT-4 和 Stable Diffusion 等模型多模態能力的突飛猛進，多模態大模型已經成為大模型邁向通用人工智能（AGI）目標的下一個前沿焦點。總體而言，面向圖像和文本的多模態生成能力

2023-07-10 10:05:01

1255

更強更通用：智源「悟道3.0」Emu多模態大模型開源，在多模態序列中「補全一切」

熱度。Flamingo 具備強大的多模態上下文少樣本學習能力。 Flamingo 走的技術路線是將大語言模型與一個預訓練視覺編碼器結合，并插入可學習的層來捕捉跨模態依賴，其采用圖文對、圖文交錯文檔、視頻文本對組成的多模態數據訓練，在少樣本上下文學習方面表現出強大能力。

2023-07-16 20:45:02

1370

機器人以構建藝術裝置存在哪些挑戰

機器人馴服者 Madeline Gannon：新平臺將大規模馴服機器

2023-08-01 15:00:18

1133

UniVL-DR: 多模態稠密向量檢索模型

for Multi-Modal Retrieval 背景介紹盡管當前主流搜索引擎主要面向文本數據，然而多媒體內容的增長一直是互聯網上最顯著趨勢之一，各種研究表明用戶更喜歡搜索結果中出現生動的多模態內容。因而，針對于多

2023-08-06 22:00:03

1796

基于Transformer多模態先導性工作

多模態（Multimodality）是指在信息處理、傳遞和表達中涉及多種不同的感知模態或信息來源。這些感知模態可以包括語言、視覺、聽覺、觸覺等，它們共同作用來傳遞更豐富、更全面的信息。在多模態系統中

2023-08-21 09:49:52

1518

基于多模態學習的虛假新聞檢測研究

目前，單流架構模型在視頻分類、情感分析、圖像生成等多模態領域中得以廣泛應用，單流模型具有結構簡單、容易實現、高準確率等優勢，在虛假新聞檢測領域中，是一個極具潛力的研究方向。

2023-09-11 16:26:30

3694

單片機中ADC采集都存在哪些誤差？

單片機中ADC采集都存在哪些誤差？

2023-09-18 16:31:07

3804

DreamLLM：多功能多模態大型語言模型，你的DreamLLM~

由于固有的模態缺口，如CLIP語義主要關注模態共享信息，往往忽略了可以增強多模態理解的模態特定知識。因此，這些研究并沒有充分認識到多模式創造和理解之間潛在的學習協同作用，只顯示出創造力的微小提高，并且在多模式理解方面仍然存在不足。

2023-09-25 17:26:43

1532

多模態大模型最全綜述來了！

其中最后一個表示監督信號是從圖像本身中挖掘出來的，流行的方法包括對比學習、非對比學習和masked image建模。在這些方法之外，文章也進一步討論了多模態融合、區域級和像素級圖像理解等類別的預訓練方法。

2023-09-26 16:42:17

3525

基于視覺的多模態觸覺感知系統

傳統的多模態/多任務觸覺感知系統通過集成多種傳感單元來達到多模態觸覺信息的解耦，但其往往導致系統結構的復雜性，以及需要應對來自不同刺激間的干擾。

2023-10-18 11:24:48

2013

北大&華為提出：多模態基礎大模型的高效微調

深度學習的大模型時代已經來臨,越來越多的大規模預訓練模型在文本、視覺和多模態領域展示出杰出的生成和推理能力。然而大模型巨大的參數量有兩個明顯缺點

2023-11-08 16:20:25

2318

探究編輯多模態大語言模型的可行性

不同于單模態模型編輯，多模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態模型編輯入手，將單模態模型編輯拓展到多模態模型編輯，主要從以下三個方面：可靠性（Reliability），穩定性（Locality）和泛化性（Generality）。

2023-11-09 14:53:22

1018

用語言對齊多模態信息，北大騰訊等提出LanguageBind，刷新多個榜單

目前的 VL 預訓練方法通常僅適用于視覺和語言模態，而現實世界中的應用場景往往包含更多的模態信息，如深度圖、熱圖像等。如何整合和分析不同模態的信息，并且能夠在多個模態之間建立準確的語義對應關系，成為了多模態領域的一個新的挑戰。

2023-11-23 15:46:30

1616

大模型+多模態的3種實現方法

我們知道，預訓練LLM已經取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態（包括圖像、語音、視頻模態）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態的信息，讓其變得更強大、更通用呢？本節將介紹“大模型+多模態”的3種實現方法。

2023-12-13 13:55:04

3109

人工智能領域多模態的概念和應用場景

隨著人工智能技術的不斷發展，多模態成為了一個備受關注的研究方向。多模態技術旨在將不同類型的數據和信息進行融合，以實現更加準確、高效的人工智能應用。本文將詳細介紹多模態的概念、研究內容和應用場景，并探討人工智能領域多模態的未來發展趨勢。

2023-12-15 14:28:44

13428

從Google多模態大模型看后續大模型應該具備哪些能力

前段時間Google推出Gemini多模態大模型，展示了不凡的對話能力和多模態能力，其表現究竟如何呢？

2023-12-28 11:19:52

2300

什么是多模態？多模態的難題是什么？

單模態大模型，通常大于100M～1B參數。具有較強的通用性，比如對圖片中任意物體進行分割，或者生成任意內容的圖片或聲音。極大降低了場景的定制成本。

2024-01-17 10:03:12

6919

機器人基于開源的多模態語言視覺大模型

ByteDance Research 基于開源的多模態語言視覺大模型 OpenFlamingo 開發了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。

2024-01-19 11:43:08

944

AI機器人迎來多模態模型

配備 GR00T 模型的機器人由于需要“吸收消化”外界的多模態信息，還要快速完成理解、決策、行動等一系列動作，因此對于算力的需求是巨量的。

2024-04-12 10:39:46

628

商湯科技與海通證券攜手發布金融行業首個多模態全棧式大模型

商湯科技與海通證券聯合研發并發布了金融行業內首個面向多業務場景的多模態全棧式大模型。雙方計劃將這一先進技術應用于智能問答、合規風控、代碼輔助以及辦公助手等關鍵業務領域，以實現大模型技術的全面落地。

2024-05-06 10:16:48

868

云知聲推出山海多模態大模型

在人工智能技術的浩瀚星海中，多模態交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創新之姿，推出了其匠心獨運的山海多模態大模型，正式宣告“Her時代”的帷幕緩緩拉開。

2024-08-27 15:20:21

844

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多模態大模型可以可以理解多種不同模態的輸入數據，并輸出相應反饋結果，例如圖像理解，語音識別，視覺問題等。

2024-10-18 09:39:38

2713

中科創達推動下一代多模態智能機器人創新

具身智能在業界被普遍認為即將掀起人工智能領域的全新浪潮。人形機器人作為具身智能的絕佳載體，隨著多模態大模型的迅猛發展，人形機器人的智能化程度將顯著提升，進而加速其產業化進程。2024 年極有希望成為

2024-11-15 11:03:48

1498

商湯日日新多模態大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態大模型，在權威綜合評測權威平臺OpenCompass的多模態評測中取得榜單第一。

2024-12-20 10:39:31

1573

2025年Next Token Prediction范式會統一多模態嗎

訓練方法與推理策略性能評測體系現存挑戰與未來方向綜述的完整目錄如下：多模態的 Tokenization 我們認為多模態的 Tokenization 是 MMNTP 的基石和最重要的部分，它將

2025-01-21 10:11:30

988

?多模態交互技術解析

多模態交互多模態交互（ Multimodal Interaction ）是指通過多種感官通道（如視覺、聽覺、觸覺等）或多種交互方式（如語音、手勢、觸控、眼動等）與計算機系統進行自然、協同的信息交互

2025-03-17 15:12:44

3955

淺析多模態標注對大模型應用落地的重要性與標注實例

?在人工智能邁向AGI通用智能的關鍵道路上，大模型正從單一的文本理解者，演進為能同時看、聽、讀、想的“多面手”。驅動這一進化的核心燃料，正是高質量的多模態數據，而將原始數據轉化為“機器可讀教材

2025-09-05 13:49:27

1266

給機器人裝上“全能心臟”：TAC-3000 Pro如何破解多場景落地難題？

且適應性強的控制器，成為機器人能否穩定落地于多樣場景的關鍵。多場景落地中的三大挑戰在實際部署中，機器人控制系統常面臨三大核心挑戰：算力焦慮：視覺識別、SLAM建圖、路徑規劃等AI任務對算力要求極高，傳統控制器難

2025-12-25 18:07:43

938

多模態感知大模型驅動的密閉空間自主勘探系統的應用與未來發展

? ? 多模態感知大模型驅動的密閉空間自主勘探系統 ? ?北京華盛恒輝多模態感知大模型驅動的密閉空間自主勘探系統，是融合多模態大模型與自主機器人技術的創新型方案。該系統整合視覺、激光雷達、聲學等多源

2025-12-29 11:27:56

120

已全部加載完成

搜索歷史

機器學習多模態落地存在哪些挑戰

評論