国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌多模態(tài)大模型PaLI研究神經(jīng)網(wǎng)絡(luò)

3D視覺工坊 ? 來源:機(jī)器之心 ? 作者:Xi Chen ? 2022-10-09 14:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者丨Xi Chen等

來源丨機(jī)器之心

編輯丨張倩

語言和視覺任務(wù)的建模中,更大的神經(jīng)網(wǎng)絡(luò)模型能獲得更好的結(jié)果,幾乎已經(jīng)是共識(shí)。在語言方面,T5、GPT-3、Megatron-Turing、GLAM、Chinchilla 和 PaLM 等模型顯示出了在大文本數(shù)據(jù)上訓(xùn)練大型 transformer 的明顯優(yōu)勢(shì)。視覺方面,CNN、視覺 transformer 和其他模型都從大模型中取得了很好的結(jié)果。language-and-vision 建模也是類似的情況,如 SimVLM、Florence、CoCa、GIT、BEiT 和 Flamingo。

在這篇論文中,來自谷歌的研究者通過一個(gè)名為 PaLI (Pathways Language and Image)的模型來延續(xù)這一方向的研究。

PaLI 使用單獨(dú) “Image-and-text to text” 接口執(zhí)行很多圖像、語言以及 “圖像 + 語言” 任務(wù)。PaLI 的關(guān)鍵結(jié)構(gòu)之一是重復(fù)使用大型單模態(tài) backbone 進(jìn)行語言和視覺建模,以遷移現(xiàn)有能力并降低訓(xùn)練成本。

在語言方面,作者復(fù)用有 13B 參數(shù)的 mT5-XXL。mT5-XXL 已經(jīng)把語言理解和泛化能力一體打包。作者通過實(shí)驗(yàn)證明這些功能可以維護(hù)并擴(kuò)展到多模態(tài)情況。

在視覺方面,除復(fù)用 2B 參數(shù) ViT-G 模型外,作者還訓(xùn)練了擁有 4B 參數(shù)的模型 ViT-e(“enormous”)。ViT-e 在圖像任務(wù)上表現(xiàn)出很好的性能(ImageNet 上準(zhǔn)確率達(dá)到 90.9%;ObjectNet 準(zhǔn)確率達(dá)到 84.9%)。

作者發(fā)現(xiàn)了聯(lián)合 scaling 視覺和語言組件的好處,視覺提供了更好的投入回報(bào)(每個(gè)參數(shù) / FLOP 帶來的準(zhǔn)確度提升)。實(shí)驗(yàn)結(jié)果表明,最大的 PaLI 模型——PaLI-17B 在兩種任務(wù)模式下表現(xiàn)相對(duì)平衡,ViT-e 模型約占總參數(shù)的 25%。而先前的大規(guī)模視覺和語言建模工作,情況并非總是如此(Wang 等人,2022a;Alayrac 等人,2022),因?yàn)橐曈X和語言 backbone 之間的先驗(yàn)量表并不匹配。

作者通過將多個(gè)圖像和 (或) 語言任務(wù)轉(zhuǎn)換為廣義的類似 VQA 的任務(wù),實(shí)現(xiàn)它們之間的知識(shí)共享。使用 “image+query to answer” 來構(gòu)建所有任務(wù),其中檢索和回答都表示為文本標(biāo)記。這使得 PaLI 能夠使用跨任務(wù)的遷移學(xué)習(xí),并在廣泛的視覺和語言問題中增強(qiáng) language-and-image 理解能力:圖像描述、視覺問答、場景文本理解等(如圖 1 所示)。

為了訓(xùn)練 PaLI-17B,作者構(gòu)建了全新的大容量 image-and-language 數(shù)據(jù)集 WebLI,包含 10B 的圖文對(duì)數(shù)據(jù),WebLI 數(shù)據(jù)集包含 100 多種語言的文本。通過訓(xùn)練模型用多種語言執(zhí)行多模態(tài)任務(wù),這大大增加了任務(wù)的多樣性,并測試了模型在跨任務(wù)和跨語言之間有效擴(kuò)展的能力。作者也提供了數(shù)據(jù)卡來介紹有關(guān) WebLI 及其構(gòu)造的信息。

PaLI-17B 在多個(gè) benchmark 上都達(dá)到了 SOTA,表現(xiàn)優(yōu)于某些強(qiáng)大的模型(見表 1)。

具體來說,PaLI 在 COCO 數(shù)據(jù)集 benchmark 上的表現(xiàn)優(yōu)于多數(shù)新舊模型,在 Karpaty 分割上的得分為 149.1。PaLI 在 VQAv2 上使用類似 Flamingo 的開放詞匯文本生成的設(shè)置達(dá)到 84.3% 的最新 SOTA,該結(jié)果甚至優(yōu)于在固定詞匯分類環(huán)境中評(píng)估的模型,例如 CoCa、SimVLM、BEiT-3。作者的工作為未來的多模態(tài)模型提供了 scaling 路線圖。Model scaling 對(duì)于多語言環(huán)境中的語言圖像理解特別重要。作者的結(jié)果支持這樣一個(gè)結(jié)論:與其他替代方案相比,scaling 每個(gè)模式的組件會(huì)產(chǎn)生更好的性能。

這篇文章在知乎上引發(fā)了一些討論。有人感嘆說,「剛要匯報(bào) beit3,隨便一刷知乎,又被超了」(引自知乎用戶 @走遍山水路)。還有人認(rèn)為,論震撼程度,PaLI 比不上 BEiT-3,「畢竟 model scaling 這事大家已經(jīng)比較麻了」。但「谷歌把這個(gè)大家伙做出來了,還達(dá)到了一系列新 SOTA,并且零樣本都已經(jīng)做得很突出,還是非常令人敬佩」(引自知乎用戶 @霜清老人)。

以下是論文細(xì)節(jié)。

模型架構(gòu)

作者使用 PaLI 的目的是執(zhí)行單模態(tài)(語言、視覺)和多模態(tài)(語言和視覺)任務(wù)。這些任務(wù)中的許多任務(wù)最好由不同的模型處理。如圖像分類及許多 VQA 需要從固定集合中預(yù)測元素,而 language-only 任務(wù)和圖像描述需要開放詞匯文本生成。作者通過使用所有任務(wù)所需的通用接口來解決該問題:模型接受圖像和文本字符串作為輸入,并生成文本作為輸出。在預(yù)訓(xùn)練和微調(diào)時(shí)使用相同的接口。由于所有任務(wù)都使用相同的模型執(zhí)行,即沒有任務(wù)特定的參數(shù),因此使用基于文本的提示指導(dǎo)模型需要執(zhí)行的任務(wù)。

圖 2 展示了模型架構(gòu)的高階示意圖。其核心是一個(gè)文本 encoder-decoder transformer。為了將視覺作為輸入,向文本編碼器提供視覺“tokens”:視覺 transformer 將圖像作為輸入,并輸出相關(guān)特征。通過交叉注意力將視覺 token 傳遞到 encoder-decoder 模型之前,不會(huì)將池化應(yīng)用于視覺 transformer 的輸出。

作者重復(fù)使用之前訓(xùn)練過的單模態(tài)模型。對(duì)于文本 encoder-decoder,重復(fù)使用預(yù)訓(xùn)練的 mT5(Xue 等,2021)模型,而對(duì)于圖像編碼,則重復(fù)使用大型 vanilla ViT 模型(Dosovitskiy 等,2021; Zhai 等,20222a)。

實(shí)驗(yàn)結(jié)果

作者在三個(gè)純英文圖像的 benchmark 上評(píng)估了 PaLI 模型的變體,結(jié)果如表 4 所示。

作者對(duì)四個(gè)僅英文視覺問答(VQA)benchmark 進(jìn)行評(píng)估,結(jié)果見表 6。

作者將 mT5-XXL 和 PaLI-17B 在一系列語言理解任務(wù) benchmark 進(jìn)行比較,對(duì)比結(jié)果如表 8 所示。

作者使用 224x224 分辨率(在高分辨率預(yù)微調(diào)之前)對(duì) PaLI 模型在 Imagenet 和 Imagenet OOD 數(shù)據(jù)集上進(jìn)行評(píng)估,評(píng)估結(jié)果如表 9 所示。

審核編輯:郭婷


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6254

    瀏覽量

    111405
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107779
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5185

原文標(biāo)題:谷歌多模態(tài)大模型PaLI:采用參數(shù)量為4B的ViT-e,效果超過BEiT-3

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    面向嵌入式部署的神經(jīng)網(wǎng)絡(luò)優(yōu)化:模型壓縮深度解析

    1.為什么需要神經(jīng)網(wǎng)絡(luò)模型壓縮? 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決復(fù)雜機(jī)器學(xué)習(xí)問題的強(qiáng)大工具。然而,這種能力往往伴隨著模型規(guī)模和計(jì)算復(fù)雜度的增加。當(dāng)輸入維度較大(例如長時(shí)序窗口、高分辨率特征空間)
    的頭像 發(fā)表于 02-24 15:37 ?4779次閱讀
    面向嵌入式部署的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>優(yōu)化:<b class='flag-5'>模型</b>壓縮深度解析

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識(shí)

    日常生活中的智能應(yīng)用都離不開深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?330次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識(shí)

    亞馬遜云科技上線Amazon Nova模態(tài)嵌入模型

    Embeddings模態(tài)嵌入模型現(xiàn)已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應(yīng)用打造的頂尖模態(tài)
    的頭像 發(fā)表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>嵌入<b class='flag-5'>模型</b>

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個(gè)功能,每個(gè)功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實(shí)踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會(huì)在構(gòu)建高準(zhǔn)確率輕量級(jí)CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計(jì)理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1224次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時(shí)間連續(xù)性與動(dòng)態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    神經(jīng)網(wǎng)絡(luò)的并行計(jì)算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計(jì)算方式面臨著巨大的挑戰(zhàn),如計(jì)算速度慢、訓(xùn)練時(shí)間長等
    的頭像 發(fā)表于 09-17 13:31 ?1129次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行計(jì)算與加速技術(shù)

    基于米爾瑞芯微RK3576開發(fā)板的Qwen2-VL-3B模型NPU模態(tài)部署評(píng)測

    關(guān)鍵詞:瑞芯微 RK3576、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、端側(cè)小語言模型(SLM)、模態(tài) LLM、邊緣 AI 部署、開發(fā)板、RKLLM隨著大語言
    發(fā)表于 08-29 18:08

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對(duì)整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3472次閱讀

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對(duì)無刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個(gè)以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),借助
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用

    摘要:針對(duì)傳統(tǒng)專家系統(tǒng)不能進(jìn)行自學(xué)習(xí)、自適應(yīng)的問題,本文提出了基于種經(jīng)網(wǎng)絡(luò)專家系統(tǒng)的并步電機(jī)故障診斷方法。本文將小波神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點(diǎn),很大程度上降低了對(duì)電機(jī)
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計(jì)中的仿真研究

    ,在一定程度上擴(kuò)展了轉(zhuǎn)速估計(jì)范圍。 純分享帖,需要者可點(diǎn)擊附件免費(fèi)獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計(jì)中的仿真研究.pdf【免責(zé)聲明】本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)
    發(fā)表于 06-16 21:54

    商湯日日新SenseNova融合模態(tài)模型 國內(nèi)首家獲得最高評(píng)級(jí)的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI模態(tài)模型首輪評(píng)估。 商湯日日新SenseNova融合模態(tài)
    的頭像 發(fā)表于 06-11 11:57 ?1419次閱讀

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個(gè)神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者M(jìn)ATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型的權(quán)重和偏置文件以TXT文件格式導(dǎo)出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe
    的頭像 發(fā)表于 06-03 15:51 ?1215次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析