国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個(gè)線性注意力Transformer大模型!1750億參數(shù),速度和精度更優(yōu)

CVer ? 來(lái)源:機(jī)器之心 ? 2023-07-31 15:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPT 等大型語(yǔ)言模型(LLM)的成功離不開(kāi) Softmax 注意力機(jī)制,但這一機(jī)制也存在著成本高等一些缺點(diǎn)。

近日,上海人工智能實(shí)驗(yàn)室和 OpenNLPLab 的一個(gè)研究團(tuán)隊(duì)提出了一種新的大型語(yǔ)言模型 TransNormerLLM,其中完全拋棄了基于 Softmax 的注意力機(jī)制,而是使用了新提出的線性注意力。據(jù)介紹,TransNormerLLM 是首個(gè)基于線性注意力的大型語(yǔ)言模型(LLM),其在準(zhǔn)確度和效率方面的表現(xiàn)優(yōu)于傳統(tǒng)的基于 Softmax 注意力的模型。研究者也將發(fā)布其預(yù)訓(xùn)練模型的開(kāi)源版本。

97997bce-2ef2-11ee-815d-dac502259ad0.png

論文:https://arxiv.org/abs/2307.14995

模型:https://github.com/OpenNLPLab/TransnormerLLM

大型語(yǔ)言模型已經(jīng)為自然語(yǔ)言處理(NLP)領(lǐng)域帶來(lái)了變革。它們能出色地處理許多不同類型的任務(wù),提升了在計(jì)算框架中使用人類語(yǔ)言進(jìn)行理解、生成和交互的能力。之前語(yǔ)言建模的發(fā)展主要圍繞 Transformer 架構(gòu),其中堪稱支柱的模型包括基本的 Transformer、GPT 系列、BERT 和 BART 等開(kāi)創(chuàng)性的模型。Transformer 架構(gòu)的成功立足于 softmax 注意力機(jī)制,該機(jī)制可以識(shí)別出數(shù)據(jù)驅(qū)動(dòng)的模型方案中輸入 token 之間的依賴關(guān)系,其還能感知全局位置,讓模型能有效處理自然語(yǔ)言的長(zhǎng)程動(dòng)態(tài)情況。

即便如此,傳統(tǒng)的 Transformer 依然存在局限。首要的一點(diǎn),它們有著對(duì)于序列長(zhǎng)度的二次時(shí)間復(fù)雜度,這會(huì)限制它們的可擴(kuò)展性并拖累訓(xùn)練和推理階段的計(jì)算資源和時(shí)間效率。為了將這種二次時(shí)間復(fù)雜性簡(jiǎn)化至線性復(fù)雜性,已經(jīng)有不少研究者提出了多種不同的序列建模方法。但是,這些方法卻難以用于 LLM,原因有二:1) 它們?cè)谡Z(yǔ)言建模任務(wù)上的表現(xiàn)往往不如人意;2) 它們?cè)谡鎸?shí)世界場(chǎng)景中并沒(méi)有展現(xiàn)出速度優(yōu)勢(shì)。

這篇論文提出的 TransNormerLLM 是首個(gè)基于線性注意力的 LLM,其在準(zhǔn)確度和效率方面都優(yōu)于傳統(tǒng)的 softmax 注意力。TransNormerLLM 的構(gòu)建基于之前的線性注意力架構(gòu) TransNormer,同時(shí)也做了一些修改讓性能更優(yōu)。TransNormerLLM 中關(guān)鍵性的改進(jìn)包括位置嵌入、線性注意力加速、門控機(jī)制、張量歸一化和推理加速。

其中值得格外注意的一項(xiàng)改進(jìn)是將 TransNormer 的 DiagAttention 替換成線性注意力,從而可提升全局的互動(dòng)性能。研究者還引入了帶指數(shù)衰減的 LRPE 來(lái)解決 dilution 問(wèn)題。此外,研究者還引入了 Lightning Attention(閃電注意力)這種全新技術(shù),并表示其可以將線性注意力在訓(xùn)練時(shí)的速度提升兩倍,并且其還能通過(guò)感知 IO 將內(nèi)存用量減少 4 倍。不僅如此,他們還簡(jiǎn)化了 GLU 和歸一化方法,而后者將整體的速度提升了 20%。他們還提出了一種穩(wěn)健的推理算法,可以在不同的序列長(zhǎng)度下保證數(shù)值穩(wěn)定和恒定的推理速度,由此能提升模型在訓(xùn)練和推理階段的效率。

為了驗(yàn)證 TransNormerLLM 的效果,研究者精心收集了一個(gè)大型語(yǔ)料庫(kù),其大小超過(guò) 6TB,token 數(shù)更是超過(guò) 2 萬(wàn)億。為了確保數(shù)據(jù)的質(zhì)量,他們還開(kāi)發(fā)了一種用于過(guò)濾所收集語(yǔ)料庫(kù)的自清理(self-cleaning)策略。如表 1 所示,研究者對(duì)原始 TransNormer 模型進(jìn)行了擴(kuò)展,得到了參數(shù)量從 3.85 億到 1750 億的多個(gè) TransNormerLLM 模型。然后他們基于新的大型語(yǔ)料庫(kù)進(jìn)行了全面實(shí)驗(yàn)和控制變量研究,結(jié)果表明新方法的性能優(yōu)于基于 softmax 注意力的方法并且還有更快的訓(xùn)練和推理速度。

97a652a4-2ef2-11ee-815d-dac502259ad0.png

表 1:TransNormerLLM 模型的多種變體

為了促進(jìn) LLM 領(lǐng)域的研究,上海人工智能實(shí)驗(yàn)室和 OpenNLPLab 的這些研究者也將開(kāi)源自己的預(yù)訓(xùn)練模型,他們表示這是為了「讓研究者和實(shí)踐者基于我們的成果構(gòu)建應(yīng)用以及探索用于 LLM 的高效 transformer 結(jié)構(gòu)」。

TransNormerLLM

架構(gòu)改進(jìn)

下面將簡(jiǎn)單介紹 TransNormerLLM 的各個(gè)模塊以及研究者提出的一些改進(jìn)措施。

改進(jìn)一:位置編碼

TransNormer 中的較低層使用了 DiagAttention 來(lái)避免 dilution 問(wèn)題。但是,這會(huì)導(dǎo)致 token 之間缺乏全局互動(dòng)能力。為了解決這個(gè)問(wèn)題,研究者為 TransNormerLLM 使用了帶指數(shù)衰減的 LRPE(線性化相對(duì)位置編碼),從而可在較低層保留完整的注意力。研究者把這種方法稱為 LRPE-d。

改進(jìn)二:門控機(jī)制

門控可以增強(qiáng)模型的性能并使訓(xùn)練過(guò)程平滑。研究者為 TransNormerLLM 使用了來(lái)自論文《Transformer quality in linear time》的 Flash 方法并在 token 混合中使用了門控式線性注意力(GLA)的結(jié)構(gòu)。

為了進(jìn)一步提升模型速度,他們還提出了 Simple GLU(SGLU),其去除了原始 GLU 結(jié)構(gòu)的激活函數(shù),因?yàn)殚T本身就能引入非線性。

改進(jìn)三:張量歸一化

研究者使用了 TransNormer 中引入的 NormAttention。在 TransNormerLLM 中,他們使用一種新的簡(jiǎn)單歸一化函數(shù) SimpleRMSNorm(簡(jiǎn)寫(xiě)為 SRMSNorm)替換了 RMSNorm。

整體結(jié)構(gòu)

圖 1 展示了 TransNormerLLM 的整體結(jié)構(gòu)。

97e756b4-2ef2-11ee-815d-dac502259ad0.png

圖 1:新提出模型的整體架構(gòu)

在該結(jié)構(gòu)中,輸入 X 的更新通過(guò)兩個(gè)連續(xù)步驟完成:首先,其通過(guò)使用了 SRMSNorm 歸一化的門控式線性注意力(GLA)模塊。然后,再次通過(guò)使用了 SRMSNorm 歸一化的簡(jiǎn)單門控式線性單元(SGLU)模塊。這種整體架構(gòu)有助于提升模型的性能表現(xiàn)。下方給出了這個(gè)整體流程的偽代碼:

97ed3976-2ef2-11ee-815d-dac502259ad0.png

訓(xùn)練優(yōu)化

閃電注意力

為了加快注意力計(jì)算速度,研究者引入了閃電注意力(Lightning Attention)算法,這能讓新提出的線性注意力更適合 IO(輸入和輸出)處理。

算法 1 展示了閃電注意力的前向通過(guò)的實(shí)現(xiàn)細(xì)節(jié),算法 2 則是后向通過(guò)的。研究者表示,他們還有一個(gè)可以更快計(jì)算梯度的實(shí)現(xiàn)版本,這會(huì)在未來(lái)發(fā)布。

9803e0b8-2ef2-11ee-815d-dac502259ad0.png

98613bd2-2ef2-11ee-815d-dac502259ad0.png

模型并行化

為了在計(jì)算機(jī)集群上分散所有模型參數(shù)、梯度和優(yōu)化器狀態(tài)張量,研究者使用了全分片數(shù)據(jù)并行(FSDP/Fully Sharded Data Parallel)。這種策略性分區(qū)方法可減少對(duì)每個(gè) GPU 的內(nèi)存占用,從而優(yōu)化了內(nèi)存利用率。為了進(jìn)一步提高效率,他們使用了激活檢查點(diǎn)(Activation Checkpointing),這可減少后向通過(guò)過(guò)程中緩存在內(nèi)存中的激活數(shù)量。相反,當(dāng)計(jì)算這些梯度時(shí),這些梯度會(huì)被移除并重新計(jì)算。該技術(shù)有助于提升計(jì)算效率和節(jié)省資源。此外,為了在減少 GPU 內(nèi)存消耗的同時(shí)加快計(jì)算速度,研究者還使用了自動(dòng)混合精度(AMP)。

除了上述成果外,研究者還更進(jìn)一步通過(guò)對(duì)線性 transformer 執(zhí)行模型并行化而進(jìn)行了系統(tǒng)工程優(yōu)化,其靈感很大程度上來(lái)自于英偉達(dá)的 Megatron-LM 模型并行化,在傳統(tǒng)的 Transformer 模型中,每個(gè) transformer 層都有一個(gè)自注意力模塊,其后跟著一個(gè)兩層多層感知器(MLP)模塊。當(dāng)使用 Megatron-LM 模型并行性時(shí),是在這兩個(gè)模塊上獨(dú)立使用。類似地,TransNormerLLM 結(jié)構(gòu)也是由兩個(gè)主要模塊構(gòu)成:SGLU 和 GLA;這兩者的模型并行化分開(kāi)執(zhí)行。

穩(wěn)健推理

這讓 TransNormerLLM 能以 RNN 的形式執(zhí)行推理。算法 3 給出了這個(gè)過(guò)程的細(xì)節(jié)。但其中存在數(shù)值精度問(wèn)題。

986974a0-2ef2-11ee-815d-dac502259ad0.png

為了避免這些問(wèn)題,研究者提出了穩(wěn)健推理算法,見(jiàn)算法 4。

9885e6a8-2ef2-11ee-815d-dac502259ad0.png

原推理算法和穩(wěn)健推理算法得到的結(jié)果是一樣的。

語(yǔ)料庫(kù)

研究者從互聯(lián)網(wǎng)收集了大量可公開(kāi)使用的文本,總大小超過(guò) 700TB。收集到的數(shù)據(jù)經(jīng)由他們的數(shù)據(jù)預(yù)處理程序進(jìn)行處理,如圖 2 所示,留下 6TB 的干凈語(yǔ)料庫(kù),其中包含大約 2 萬(wàn)億 token。為了提供更好的透明度,幫助用戶更好理解,他們對(duì)數(shù)據(jù)源進(jìn)行了分門別類。表 2 給出了具體的類別情況。

98adce0c-2ef2-11ee-815d-dac502259ad0.png

圖 2:數(shù)據(jù)預(yù)處理流程

98b4ebba-2ef2-11ee-815d-dac502259ad0.png

表 2:語(yǔ)料庫(kù)統(tǒng)計(jì)數(shù)據(jù)

實(shí)驗(yàn)

研究者在 Metaseq 框架中使用 PyTorch 和 Trition 實(shí)現(xiàn)了 TransNormerLLM。模型的訓(xùn)練使用了 Adam 優(yōu)化器,F(xiàn)SDP 也被用于高效地將模型擴(kuò)展到 NVIDIA A100 80G 集群。他們也適當(dāng)?shù)厥褂昧四P筒⑿屑夹g(shù)來(lái)優(yōu)化性能。

架構(gòu)消融實(shí)驗(yàn)

98dff3c8-2ef2-11ee-815d-dac502259ad0.png

表 3:Transformer vs TransNormerLLM。在相同的配置下,當(dāng)模型參數(shù)數(shù)量為 385M 和 1B 時(shí),TransNormerLLM 的性能比 Transformer 分別好 5% 和 9%。

990048f8-2ef2-11ee-815d-dac502259ad0.png

表 4:TransNormer vs TransNormerLLM。TransNormerLLM 的實(shí)驗(yàn)結(jié)果是最好的。

9911405e-2ef2-11ee-815d-dac502259ad0.png

表 5:位置編碼組合使用 LRPE+LRPE-d 得到的結(jié)果最優(yōu)。

993472cc-2ef2-11ee-815d-dac502259ad0.png

表 6:衰減溫度方面的消融實(shí)驗(yàn)結(jié)果。結(jié)果表明新方法更優(yōu)。

994ee63e-2ef2-11ee-815d-dac502259ad0.png

表 7:門控機(jī)制方面的消融實(shí)驗(yàn)結(jié)果。使用該門控機(jī)制的模型表現(xiàn)更好。

996e0e4c-2ef2-11ee-815d-dac502259ad0.png

表 8:GLA 激活函數(shù)的消融實(shí)驗(yàn)結(jié)果。用不同激活函數(shù)得到結(jié)果差不多。

9977845e-2ef2-11ee-815d-dac502259ad0.png

表 9:GLU 激活函數(shù)的消融實(shí)驗(yàn)結(jié)果。去除激活函數(shù)對(duì)結(jié)果沒(méi)有負(fù)面影響。

9992c232-2ef2-11ee-815d-dac502259ad0.png

表 10:歸一化函數(shù)。使用以下歸一化函數(shù)的結(jié)果差異不大。

99b740da-2ef2-11ee-815d-dac502259ad0.png

圖 3:對(duì) SRMSNorm 實(shí)現(xiàn)的性能評(píng)估

99c82bde-2ef2-11ee-815d-dac502259ad0.png

圖 4:線性注意力和閃電注意力之間的內(nèi)存和速度比較

99f63f60-2ef2-11ee-815d-dac502259ad0.png

圖 5:推理時(shí)間和內(nèi)存占用情況

系統(tǒng)優(yōu)化

9a00c6ec-2ef2-11ee-815d-dac502259ad0.png

表 11:模型并行性性能

9a207eb0-2ef2-11ee-815d-dac502259ad0.png

表 12:訓(xùn)練不同大小的模型的效率

9a4bce62-2ef2-11ee-815d-dac502259ad0.png

表 13:訓(xùn)練 Transformer 和 TransNormerLLM 的最大上下文長(zhǎng)度

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 線性
    +關(guān)注

    關(guān)注

    0

    文章

    219

    瀏覽量

    26276
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11312
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6937
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3650

    瀏覽量

    5183

原文標(biāo)題:放棄Softmax!首個(gè)線性注意力Transformer大模型!1750億參數(shù),速度和精度更優(yōu)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    算法工程師需要具備哪些技能?

    ResNet、VGG)。RNN/LSTM:序列建模(如時(shí)間序列預(yù)測(cè)、NLP中的文本生成)。Transformer:自注意力機(jī)制(如BERT、GPT)。 模型調(diào)優(yōu)正則化:L1/L2正則化防止過(guò)擬合。超
    發(fā)表于 02-27 10:53

    Transformer 入門:從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對(duì)角線折疊紙張。 在 Transformer 中的應(yīng)用:計(jì)算注意力分?jǐn)?shù)
    發(fā)表于 02-10 16:33

    DeepSeek開(kāi)源Engram:讓大模型擁有"過(guò)目不忘"的類腦記憶

    Transformer效率瓶頸的關(guān)鍵鑰匙。 傳統(tǒng)Transformer的"記憶困境" 當(dāng)前大語(yǔ)言模型面臨三大結(jié)構(gòu)性問(wèn)題:注意力計(jì)算的O(n2)復(fù)雜度在長(zhǎng)序列下成為瓶頸;所有知識(shí)隱式存儲(chǔ)
    的頭像 發(fā)表于 01-14 16:07 ?289次閱讀
    DeepSeek開(kāi)源Engram:讓大<b class='flag-5'>模型</b>擁有&quot;過(guò)目不忘&quot;的類腦記憶

    從數(shù)據(jù)到模型:如何預(yù)測(cè)細(xì)節(jié)距鍵合的剪切

    略低于面積的線性增長(zhǎng)。 二、模型的應(yīng)用:雙向預(yù)測(cè)與工藝評(píng)估 這個(gè)經(jīng)驗(yàn)公式為工藝工程提供了強(qiáng)大的實(shí)用工具,主要在兩個(gè)方向上發(fā)揮作用: 正向預(yù)測(cè)剪切:如果通過(guò)破壞性分析(如KOH腐蝕)已知某工藝條件下鍵合
    發(fā)表于 01-08 09:45

    自然場(chǎng)景下注意力如何耳周腦電可靠監(jiān)測(cè)

    HUIYING自然聽(tīng)覺(jué)注意力概述聽(tīng)覺(jué)注意力是大腦在復(fù)雜聽(tīng)覺(jué)場(chǎng)景中選擇相關(guān)信息、抑制無(wú)關(guān)信息的重要認(rèn)知功能。傳統(tǒng)研究多在實(shí)驗(yàn)室內(nèi)使用笨重設(shè)備與人工刺激進(jìn)行,限制了其生態(tài)效度。本研究采用語(yǔ)音包絡(luò)跟蹤、被
    的頭像 發(fā)表于 12-05 18:03 ?3953次閱讀
    自然場(chǎng)景下<b class='flag-5'>注意力</b>如何耳周腦電可靠監(jiān)測(cè)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+第二章 實(shí)現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該模型將計(jì)算資源集中在對(duì)任務(wù)真正具有價(jià)值的關(guān)注焦點(diǎn),使用于大規(guī)模并行處理任務(wù),專為在GPU上進(jìn)行處理而設(shè)計(jì)。 Transformer 模型的核心思想是自
    發(fā)表于 09-12 17:30

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾千個(gè)詞到幾萬(wàn)個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開(kāi)始
    的頭像 發(fā)表于 09-10 09:28 ?4804次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算驅(qū)動(dòng)30參數(shù)LLM

    。 從技術(shù)內(nèi)核看,它通過(guò) “視覺(jué)編碼器 + LLM + 對(duì)話管家” 的模塊化設(shè)計(jì),平衡了推理性能與開(kāi)發(fā)靈活性:W4A16 量化方案讓 30 參數(shù)模型適配 6 TOPS 算,KV-Cache 動(dòng)態(tài)
    發(fā)表于 09-05 17:25

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】+看視頻+看書(shū)籍+國(guó)產(chǎn)開(kāi)源大模型DeepSeekV3技術(shù)詳解--1

    大小的潛在向量 (Latent Vector) c_t 中。同時(shí),為了保證對(duì)近期上下文的精確感知,它依然會(huì)實(shí)時(shí)計(jì)算當(dāng)前 token 的 K 和 V。 最終,注意力機(jī)制的計(jì)算將同時(shí)作用于“壓縮的歷史
    發(fā)表于 08-23 15:20

    商湯大裝置躋身中國(guó)大模型推理算廠商第一梯隊(duì)

    近日,IDC發(fā)布首個(gè)《2025中國(guó)大模型推理算市場(chǎng)分析報(bào)告》。
    的頭像 發(fā)表于 08-14 09:29 ?4919次閱讀

    自動(dòng)駕駛中Transformer模型會(huì)取代深度學(xué)習(xí)嗎?

    持續(xù)討論。特別是在自動(dòng)駕駛領(lǐng)域,部分廠商開(kāi)始嘗試將多模態(tài)大模型(MLLM)引入到感知、規(guī)劃與決策系統(tǒng),引發(fā)了“傳統(tǒng)深度學(xué)習(xí)是否已過(guò)時(shí)”的激烈爭(zhēng)論。然而,從技術(shù)原理、算成本、安全需求與實(shí)際落地路徑等維度來(lái)看,Transformer
    的頭像 發(fā)表于 08-13 09:15 ?4184次閱讀
    自動(dòng)駕駛中<b class='flag-5'>Transformer</b>大<b class='flag-5'>模型</b>會(huì)取代深度學(xué)習(xí)嗎?

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】第三章:探索 DeepSeek - V3 技術(shù)架構(gòu)的奧秘

    一、模型架構(gòu) 在閱讀第三章關(guān)于 DeepSeek 的模型架構(gòu)部分時(shí),我仿佛打開(kāi)了一扇通往人工智能核心構(gòu)造的大門。從架構(gòu)圖中,能清晰看到 Transformer 塊、前饋神經(jīng)網(wǎng)絡(luò)、注意力
    發(fā)表于 07-20 15:07

    華為助力中國(guó)石油發(fā)布3000參數(shù)昆侖大模型

    昆侖大模型完成備案,成為中國(guó)能源化工行業(yè)首個(gè)通過(guò)備案的大模型,到2024年11月發(fā)布700參數(shù)昆侖大
    的頭像 發(fā)表于 05-29 09:19 ?1097次閱讀
    華為助力中國(guó)石油發(fā)布3000<b class='flag-5'>億</b><b class='flag-5'>參數(shù)</b>昆侖大<b class='flag-5'>模型</b>

    經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

    ADHD是常見(jiàn)神經(jīng)行為障礙,癥狀包括注意力不集中、多動(dòng)和沖動(dòng),兒童和青少年患病率為5%-7.2%,成人在1%-10%,男孩多于女孩,成年后部分癥狀會(huì)持續(xù),引發(fā)多種并發(fā)癥,給個(gè)人、家庭和社會(huì)帶來(lái)
    的頭像 發(fā)表于 04-22 19:49 ?143次閱讀
    經(jīng)顱電刺激適應(yīng)癥之tDCS治療<b class='flag-5'>注意力</b>缺陷ADHD

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    支持生成式任務(wù)。 多模態(tài)融合 :通過(guò)跨模態(tài)注意力機(jī)制、投影層(如CLIP將圖像文本映射到同一空間)或適配器
    的頭像 發(fā)表于 03-17 15:32 ?8844次閱讀
    ?VLM(視覺(jué)語(yǔ)言<b class='flag-5'>模型</b>)?詳細(xì)解析