導讀
使用深度學習融合各種來源的信息。

多模態數據
我們對世界的體驗是多模態的 —— 我們看到物體,聽到聲音,感覺到質地,聞到氣味,嘗到味道。模態是指某件事發生或經歷的方式,當一個研究問題包含多個模態時,它就具有多模態的特征。為了讓人工智能在理解我們周圍的世界方面取得進展,它需要能夠同時解釋這些多模態的信號。
例如,圖像通常與標簽和文本解釋相關聯,文本包含圖像,以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。
多模態深度學習
雖然結合不同的模態或信息類型來提高效果從直觀上看是一項很有吸引力的任務,但在實踐中,如何結合不同的噪聲水平和模態之間的沖突是一個挑戰。此外,模型對預測結果有不同的定量影響。在實踐中最常見的方法是將不同輸入的高級嵌入連接起來,然后應用softmax。

多模態深度學習的例子,其中使用不同類型的神經網絡提取特征
這種方法的問題是,它將給予所有子網絡/模式同等的重要性,這在現實情況中是非常不可能的。

所有的模態對預測都有相同的貢獻
對網絡進行加權組合
我們采用子網絡的加權組合,以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。 我們的優化問題變成-

對每個子網絡給出Theta權值后的損失函數。

將權值附加到子網后預測輸出。
把所有的都用起來!
準確性和可解釋性我們在兩個現實多模態數據集上得到了SOTA: Multimodal Corpus of Sentiment Intensity(MOSI) 數據集 —— 有417個標注過的視頻,每毫秒標注的音頻特征。共有2199個標注數據點,其中情緒強度定義為從strongly negative到strongly positive,線性尺度從- 3到+3。
模態包括:
1. 文本 2. 音頻
3. 語言

每種模態對情緒預測的貢獻量 Transcription Start Site Prediction(TSS)數據集 —— Transcription是基因表達的第一步,在這一步中,特定的DNA片段被復制到RNA (mRNA)中。Transcription起始位點是transcription開始的位置。DNA片段的不同部分具有不同的特性,從而影響其存在。
我們將TSS分為三個部分:
上游DNA
下游DNA
TSS位置
我們取得了前所未有的改善,比之前的最先進的結果3%。使用TATA box的下游DNA區域對這一過程影響最大。

責任編輯:lq
-
人工智能
+關注
關注
1817文章
50098瀏覽量
265433 -
數據集
+關注
關注
4文章
1236瀏覽量
26201 -
深度學習
+關注
關注
73文章
5599瀏覽量
124400
原文標題:多模態深度學習:用深度學習的方式融合各種信息
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
機器學習和深度學習中需避免的 7 個常見錯誤與局限性
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)
如何深度學習機器視覺的應用場景
融合AI的OpenHarmony應用軟件開發:ai學習自律輔助軟件
微軟Visual Studio 2026 發布!AI 深度融合、性能提升
如何在機器視覺中部署深度學習神經網絡
深度學習對工業物聯網有哪些幫助
自動駕駛中Transformer大模型會取代深度學習嗎?
基于多傳感器融合的切割深度動態補償與晶圓 TTV 協同控制
平頭哥半導體受邀出席電子信息產教融合大會
飛騰+天津大學,飛騰產教融合案例獲 “2024年度電子信息產教融合典型案例”
使用深度學習融合各種來源的信息
評論