国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

有關語義匹配和推理

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-14 09:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

先把論文放出來:Enhanced LSTM for Natural Language Inference,說實話這篇論文不算新了,但是在語義相似度方至今仍流傳著他的傳說,因此我還是把這篇論文拿著讀了起來。近期也是看了很多文章,但是終究不如讀論文來的過癮,大部分博客對這篇論文的模型核心做了很多介紹,但各個操作的出發點和一些獨到的見解卻寫的不多,這次我會在介紹ESIM的過程中討論一下。

當然,還是建議大家好好品讀原論文,更有味道。

另外給點代碼,看論文不清楚的看看論文也挺好:

https://blog.csdn.net/wcy23580/article/details/84990923。

https://github.com/weekcup/ESIM。

有關語義匹配和推理

一般地,向量召回主要用的表征模型,但是表征模型沒有用到交互特征,因此匹配的準確率上肯定比不過交互模型,所以一般工程上用表征模型召回,然后用交互模型來做精排,這樣能保證整個搜索系統的效果更加穩定可靠(看到沒,準召分離的思路又來了),而交互模型這塊,比較可靠的基線,應該就要數ESIM了。

ESIM里,我比較欣賞的是這幾點:

LSTM抽取上下文信息。Tree-LSTM的嘗試也為信息抽取帶來啟發。

把Decomposable attention作為交互特征的思路有機組合起來了。

多種交互形式的特征concat起來。

當然具體閱讀后,我還提煉了一些新的idea,在文末。有了這些思路,先讓我們來看看具體的模型,其實論文的行文里討論了很多思路,我們先來看整體論文思路,然后再來提煉里面的獨到之處。

模型整體

論文的模型其實沒有想象中的困難,在很早就把整篇論文給到了:

輸入層是embedding+LSTM的組合。

Local Inference Modeling層,用的Decomposable Attention來體現兩者的交互型。

Inference composition層則把上面一層的結果進行多種組合計算,得到多種特征,說白了就是比較。

輸出層就不多說了,大家都懂的。

輸入層

一般的輸入層只會是簡單的word2vector,但這里其實加了一個LSTM,還是雙向的,就是用來獲取各路信息。來看看代碼,這個還是比較清晰的:

i1=Input(shape=(SentenceLen,),dtype='float32') i2=Input(shape=(SentenceLen,),dtype='float32') x1=Embedding([CONFIG])(i1) x2=Embedding([CONFIG])(i2) x1=Bidirectional(LSTM(300,return_sequences=True))(x1) x2=Bidirectional(LSTM(300,return_sequences=True))(x2)

Local Inference Modeling

中文翻譯應該是局部推理層,我的理解這一層是用于抽取局部信息的,作者用的方法應該來源于這篇論文:A Decomposable Attention Model for Natural Language Inference,這里其實是一個計算交互特征的過程,即一一分析兩個句子之間每個位置的相似度,最簡單的方式就是點乘,而這篇論文就是使用的這個最簡單的方式:

然后再把權重分散到各個位置,其實形態就很像softmax了:

這個其實就是做了一個交叉,計算整個句子的權重,然后用類似softmax的形式整上,非常討巧,相信ESIM的成功很大程度上就和這個有關。

而這并沒結束,作者進行了進一步的強化,對比Decomposable Attention前后的變化,進行了組合。

Inference Composition

推理層應該是進入最終預測之前的最后一層了。這一層的操作同樣沒那么簡單,大部分人可能flatten、maxpool、avgpool之類的就直接全連接了,但是這里并不是,而是做了一系列的再提取和再處理,最終才完成預測向量的:

作者是真的把信息抽取和特征的組合做到了極致,對上面構造的兩個組合特征再進行了一次特征提取,用的依舊是熟悉的Bilstm,值得注意的是他操作的維度,來看一個ESIM的開源代碼吧:

classInferenceCompositionLayer(object): """ Layertocomposethelocalinferenceinformation. """ def__init__(self,hidden_units,max_length=100,dropout=0.5, activation='tanh',sequences=True): self.hidden_units=hidden_units self.max_length=max_length self.dropout=dropout self.activation=activation self.sequences=sequences def__call__(self,input): composition=Bidirectional(LSTM(self.hidden_units, activation=self.activation, return_sequences=self.sequences, recurrent_dropout=self.dropout, dropout=self.dropout))(input) reduction=TimeDistributed(Dense(self.hidden_units, kernel_initializer='he_normal', activation='relu'))(composition) returnDropout(self.dropout)(reduction)

這里用到另一個我沒見過的keras層,即TimeDistributed,有興趣可以了解下。

此后,非常精髓的使用avg-pool和max-pool的組合,有關池化,max和avg一直打得火熱,沒有人能給出非常穩定的結論,因此作者就用了兩者的組合:

啟示

整篇文章其實沒有構造出非常高端的結構,只是一些非常樸素的操作,但是綜合起來成了現在也非常推薦用的基線,是有很多有借鑒意義的東西的,我這里一一列舉,大家可以直接在里面選擇需要的來用。

BiLSTM似乎還挺好用的。當然私以為CNN其實也可以嘗試的。

花式concat,多種信息抽取方式進行組合,小孩子才做選擇,大人全都要。

attention的使用,其實有出處A Decomposable Attention Model for Natural Language Inference,思想其實是兩者一一對比得到交互矩陣,利用該交互矩陣構造類似softmax的權重,為各自的關鍵信息進行加權,重點提取。

信息的對比來自于可以來自減和乘,減直接計算兩者的差距,類似歐氏距離,乘的使用則來源于余弦距離,既然要對比特征,那就把這兩個用到極致。

avg和max哪個好,別爭了,都用,哪個比較重要交給后面的全連接層來決定吧。

我的這篇文章里面沒有講tree-lstm,主要是因為我們平時比較難用到,原因是這個樹不好構建,需要依賴依存句法,但是的確是一個挺有意思的思想,只有真的去讀論文的人才能知道。

參考資料

論文原文:Enhanced LSTM for Natural Language Inference

論文解讀:https://blog.csdn.net/wcy23580/article/details/84990923

keras版本代碼:https://github.com/weekcup/ESIM/blob/master/src/model.py

依舊推薦大家直接去讀論文,文章對他為什么做這些操作有很明確的思想,其實在我看來這些思想比操作本身還要重要,畢竟思想是需要啟發的,在這些思想的指導下,我在思考解決方案的時候就能有參考,方案可以借鑒,但是這個思想的實現并不局限在一個方法上。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52112
  • 代碼
    +關注

    關注

    30

    文章

    4968

    瀏覽量

    73988
  • eSIM
    +關注

    關注

    3

    文章

    281

    瀏覽量

    28302

原文標題:【語義相似度】ESIM:語義相似度領域小模型的尊嚴

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    曦望發布新一代推理GPU芯片,單位Token推理成本降低90%

    電子發燒友網報道 1月27日,國產GPU廠商曦望(Sunrise)重磅發布新一代推理GPU芯片——啟望S3。這是曦望在近一年累計完成約30億元戰略融資后的首次集中公開亮相。2025年,曦望芯片交付量
    的頭像 發表于 01-28 17:38 ?8678次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發表于 01-19 15:33 ?497次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    基于NVIDIA Alpamayo構建具備推理能力的輔助駕駛汽車

    輔助駕駛研究領域正經歷一場快速變革。視覺-語言-動作推理模型(Reasoning VLA) 的出現正重塑該領域,這些模型為輔助駕駛決策賦予了類人的思維能力。這類模型可視為在語義空間中運行的隱式世界
    的頭像 發表于 01-14 09:41 ?2057次閱讀
    基于NVIDIA Alpamayo構建具備<b class='flag-5'>推理</b>能力的輔助駕駛汽車

    C語言中除數為0屬于什么錯誤

    0 的錯誤,以及援引數組元素時下標溢出等。 靜態錯誤又可以分為語法錯誤和靜態語義錯誤。語法錯誤指有關語言結構上的錯誤,如單詞拼寫錯誤、表達式中缺少操作數、括號不匹配等。靜態語義錯誤指
    發表于 12-08 06:38

    Progress-Think框架賦能機器人首次實現語義進展推理

    在視覺語言導航(VLN)中,機器人長期缺乏一種關鍵能力:它能持續前進,卻無法判斷自己的任務推進到了哪一步。導航在空間中不斷展開,畫面節節推進,但模型并不知道自己在自然語言指令里處于什么階段,因此容易漂移、兜圈,或做出難以解釋的決策。我們認為,引入語義進展推理,是破解長程導
    的頭像 發表于 12-03 09:27 ?355次閱讀
    Progress-Think框架賦能機器人首次實現<b class='flag-5'>語義</b>進展<b class='flag-5'>推理</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現這一目標,其構建了多維度的核心實現路徑:一方面,針對需
    的頭像 發表于 10-21 11:04 ?1177次閱讀

    微店關鍵詞搜索接口核心突破:動態權重算法與語義引擎的實戰落地

    本文詳解微店搜索接口從基礎匹配到智能推薦的技術進階路徑,涵蓋動態權重、語義理解與行為閉環三大創新,助力商家提升搜索轉化率、商品曝光與用戶留存,實現技術驅動的業績增長。
    的頭像 發表于 10-15 14:38 ?439次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數據工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發表于 09-23 15:19 ?1278次閱讀

    華為亮相2025金融AI推理應用落地與發展論壇

    近日,2025金融AI推理應用落地與發展論壇在上海舉行。中國銀聯執行副總裁涂曉軍、華為數字金融軍團CEO曹沖出席本次論壇并發表致辭。論壇上,華為公司副總裁、數據存儲產品線總裁周躍峰博士發布AI推理
    的頭像 發表于 08-15 09:45 ?1229次閱讀

    請問如何在RK3588上使用npu,用onnx模型來推理

    請問如何在瑞芯微 RK3588上使用npu,用onnx模型來推理。官網上介紹說要把ONNX模型轉換成RKNN模型。但是我并不想這么干,請問有什么辦法嗎?
    發表于 08-09 00:51

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的推理引擎能力,融合了自然語言處理(NLP)、深度
    發表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發表于 07-03 19:43

    使用MicroPython部署中的ocrrec_image.py推理得到的輸出結果很差,如何解決呢?

    使用在線平臺訓練OCR識別任務,測試結果表現很好。 期待結果和實際結果 實際的推理結果很差,推理不出任何信息。
    發表于 04-29 06:54

    詳解 LLM 推理模型的現狀

    2025年,如何提升大型語言模型(LLM)的推理能力成了最熱門的話題之一,大量優化推理能力的新策略開始出現,包括擴展推理時間計算、運用強化學習、開展監督微調和進行提煉等。本文將深入探討LLM
    的頭像 發表于 04-03 12:09 ?1618次閱讀
    詳解 LLM <b class='flag-5'>推理</b>模型的現狀

    新品 | Module LLM Kit,離線大語言模型推理模塊套裝

    ●●●PART.01產品簡介ModuleLLMKit是一款專注于離線AI推理與數據通信接口應用的智能模塊套件,整合了ModuleLLM與Module13.2LLMMate模塊,滿足多場景下的離線AI
    的頭像 發表于 03-28 18:49 ?1217次閱讀
    新品 | Module LLM Kit,離線大語言模型<b class='flag-5'>推理</b>模塊套裝