国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于文本匹配的破城長矛

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-31 17:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

搜索也好,檢索式對話也好,文本是一個很難繞開的話題,雖然語義是一個重要因素,用語義相似度直接梭,但是用戶的感知可不是如此,很多用戶的感知更多是文本層面的相似要高于語義相似,或者說,遇到語義相似和文本相似的時候會更優先接受文本相似,畢竟文本使用戶能直接看到的,當然語義相似度雖好,但是對于沒有什么標注數據的情況,也是束手無策吧。

所以,即使語義相似度如火如荼地發展著,文本層面的匹配依舊是項目實踐中不可避免的關注點。

cqr&ctr概念

cqr和ctr的概念還是比較清晰明確的。

給定query和title,現在計算cqr和ctr。

講完了,就是這么簡單,其實就是看兩者交集占query的占比和占title的占比,就是對應的cqr和ctr。

當然,由于這種計算會把所有詞的重要性考慮進去,例如“怎么做作業”分別和“怎樣做作業”、“怎么做手機”,兩個的相似度就一樣了,此時就要考慮到給每個詞加點權重,這樣能更好地描述,這就是一個優化的實用版本,加權

給定query,有對應的權重和title,以及對應權重,現在計算cqr和ctr:

想到可能會有人問到權重怎么來,這里我就要把我的歷史文章放出來了,之前是專門講過詞權重的問題的:NLP.TM[20] | 詞權重問題

這個應該就是我自己平時用的版本了,而且屢試不爽。

而如果是要分析兩個句子綜合、無偏的相似度,只要相乘就好了:

細品

可以看到,這個東西很簡單,就是一個基于統計計算的工具,但是我依然想仔細討論一下這個東西。

首先,有關相似度,其實我們很容易想到這個計算方法:

就是比較著名的jaccard相似度,當然還有一個更加出名的方法,那就是BM25(更為常見,此處就不贅述了)。但是我并沒有選擇,為什么呢,其實核心就是1個點:

query和title的長度信息。

jaccard距離雖然能比較綜合、無偏向性地計算兩者的相似度,但問題是,當query和title長度計算差距很大的時候,計算準確性就會受到影響,而分成兩個指標,則能夠充分表現兩者的相似性,當然具體用哪種其實還是要看具體場景的,有的時候這種無偏向性對效果優化還是有用的,但是有的時候其實會影響最終效果。

來看個例子,query是“我昨天新買的手機,今天怎么就不能開機了”,title是“手機不能開機”,這里可以,ctr無疑就是1,當然cqr就比較低了,但是我們可以用ctr作為后續的排序特征或者過濾條件。

優缺點

感覺有些東西想說但是沒說出來,直接總結一下這個方案的優缺點吧,以便大家進行方案選擇吧,這個優點,是相對于常見的語義相似度模型而言的。

首先說優點:

能夠體現文本層面的相似度,在一些領域下體驗比較好。

性能比語義相似度模型好很,所以是一個簡單輕快的模型。

無監督,詞權重的話用語料就可以訓練了。

效果穩定可追蹤。

當然,還是有缺點的。

文本層面的匹配無法體現語義,同義詞、說法之類的無法體現。

對切詞敏感,類似“充不進去電”和“充電”就完全匹配不上。

應用

有這些有缺點,其實我們就可以考慮這個相似度該怎么用了:

用于過濾一些肯定不對的答案。

無標注數據下,這個指標可以作為排序的指標,對啟動項目挺重要的。

作為排序特征,保證結果在文本層面還是比較接近的。

當然,在一個比較完整的搜索或者是檢索式對話的系統里,其實這種文本相似度類的特征還是非常有收益的,結合語義相似度還是會有一些比較穩定的收益。

小結

東西其實不難,卻是非常實用的技能,但是在應用的過程中能夠想到的人其實很少,但有用的東西我們學起來也挺好。

原文標題:【文本匹配】cqr&ctr:文本匹配的破城長矛

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14667
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23281

原文標題:【文本匹配】cqr&ctr:文本匹配的破城長矛

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    云漢芯與RECOM達成戰略合作

    近日,云漢芯(股票代碼:301563)與全球知名創新型全棧電源解決方案提供商RECOM達成合作,成為RECOM大中華區首家線上代理平臺!雙方以“芯電共融,智驅未來”為主題,隆重舉行合作簽約儀式。
    的頭像 發表于 02-06 14:40 ?478次閱讀

    Linux Shell文本處理神器合集:15個工具+實戰例子,效率直接翻倍

    在 Linux 系統中,文本是數據交互的 “通用語言”—— 日志文件、配置文件、數據報表、程序輸出幾乎都以文本形式存在。手動編輯文本不僅繁瑣,還容易出錯,而掌握 Shell 文本處理工
    的頭像 發表于 02-03 15:42 ?1528次閱讀
    Linux Shell<b class='flag-5'>文本</b>處理神器合集:15個工具+實戰例子,效率直接翻倍

    詳解DBC的Signal與JSON文本結合

    為了優化CAN數據發送與接收的操作流程,更改以前手動輸入狀態對應數據的模式,采用下拉列表選擇內容,但這需要用到超出DBC原有承載能力的信息。因此,將JSON與其結合,采用JSON格式文本寫入Signal的Comment屬性,將Comment屬性的字符串通過JSON文本拓展
    的頭像 發表于 01-06 10:57 ?302次閱讀
    詳解DBC的Signal與JSON<b class='flag-5'>文本</b>結合

    頻譜分析儀與電壓探頭匹配指南

    如何實現頻譜分析儀與電壓探頭的精準匹配?核心邏輯可概括為“三對齊一適配”——參數對齊、接口對齊、設置對齊+場景適配,最終目標是規避信號反射、衰減與失真問題,確保測量數據(幅度、頻率、波形)的準確性
    的頭像 發表于 12-29 14:51 ?288次閱讀
    頻譜分析儀與電壓探頭<b class='flag-5'>匹配</b>指南

    關于一款SQ805加熱壁機無法啟動的維修

    壁機故障,開機指示燈全亮,復位正常,然后按選擇也正常再按啟動沒有反映,無法啟動。拆開檢查電源正常,溫度傳感器正常,就是無法進入工作狀態,把控制電路板單獨拆下來,發現控制芯片與按鍵以及LED在一塊板
    發表于 11-03 14:40

    激光焊接技術在焊接壁機底座工藝中的應用

    壁機底座作為承載高速電機與刀組的關鍵結構件,其焊接質量直接影響整機運行的穩定性、噪音控制及使用壽命。面對食品接觸級不銹鋼材料的加工要求以及復雜曲面結構的密封挑戰,激光焊接技術憑借其高精度、低變形
    的頭像 發表于 10-20 16:26 ?559次閱讀
    激光焊接技術在焊接<b class='flag-5'>破</b>壁機底座工藝中的應用

    科普:無源晶振的電容匹配與問題

    匹配電容并不是絕對的或者固定值,無源晶振的匹配電容一般最好選擇兩個一樣電容,在很多的方案設計中一般常用的電容有12pF、15pF、22pPF、33pF等,大致都是一個20pF量級。
    的頭像 發表于 08-29 11:27 ?2039次閱讀
    科普:無源晶振的電容<b class='flag-5'>匹配</b>與問題

    洲明科技一體化光顯解決方案落地深圳大悅

    近日,備受矚目的灣區首座大悅項目——深圳大悅盛大啟幕,以42萬人次的驚人客流量、近2000萬元的首日銷售額(不含Apple與汽車品類),一躍登頂大眾點評購物熱門榜TOP1,刷新深圳商業開業熱度紀錄。
    的頭像 發表于 07-30 10:26 ?970次閱讀

    飛書富文本組件庫RichTextVista開源

    近日,飛書正式將其自研的富文本組件庫 RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony 三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態提供了更高效的富文本解決方案。
    的頭像 發表于 07-16 16:47 ?1011次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態提供了
    的頭像 發表于 07-11 15:20 ?645次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應用富<b class='flag-5'>文本</b>渲染體驗

    雙工不匹配如何修復它

    修復雙工不匹配問題可通過以下步驟進行: 檢查并統一雙工設置:使用show interfaces(Cisco設備)或display interface brief(華為設備)等命令查看接口的雙工狀態
    的頭像 發表于 07-02 09:46 ?626次閱讀

    科學集團與海康威視達成戰略合作

    近日,科學(廣州)投資集團有限公司(以下簡稱“科學集團”)與海康威視舉行戰略合作協議簽署儀式??茖W集團黨委副書記、總經理林曉鋒,??低暩呒壐笨偛谩鴥葼I銷中心總經理郭旭東出席簽約儀式??茖W
    的頭像 發表于 05-26 17:20 ?1162次閱讀

    基于LockAI視覺識別模塊:C++多模板匹配

    多模板匹配是一種在圖像中同時尋找多個模板的技術。通過對每個模板逐一進行匹配,找到與輸入圖像最相似的區域,并標記出匹配度最高的結果。本實驗提供了一個簡單的多模板匹配案例,并將其封裝為一個
    的頭像 發表于 05-14 14:37 ?1625次閱讀
    基于LockAI視覺識別模塊:C++多模板<b class='flag-5'>匹配</b>

    蔚來與未來科學集團計劃共建100座綠色能源換電站

    近日,蔚來與北京未來科學發展集團有限公司(下稱“未來科學集團”)在北京簽署戰略合作協議,將圍繞新能源汽車創新、服務生態構建及綠色能源換電網絡建設展開深度合作。
    的頭像 發表于 03-27 16:10 ?896次閱讀

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監控攝像頭或執行機器學習任務。在這些場景中,圖像中經常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉換,以便通過程序分析文本
    的頭像 發表于 03-25 09:30 ?984次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!