国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

fastText有兩大用途——文本分類和Word Embedding

深度學習自然語言處理 ? 來源:SimpleAI ? 作者:SimpleAI ? 2021-03-05 15:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天我們來看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 開源了 Word2Vec,2016 年剛就職于 FaceBook 就開源了 fastText,全都掀起了軒然大波。

fastText 模型有兩篇相關論文:

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

截至目前為止,第一篇有 1500 多引用量,第二篇有 2700 多引用量。

從這兩篇文的標題我們可以看出來 fastText 有兩大用途——文本分類和Word Embedding。

由于 fastText 模型比較簡單,所以我們可以把兩篇論文放在一起看。

1. Introduction

fastText 提供了簡單而高效的文本分類和 Word Embedding 方法,分類精度比肩深度學習而且速度快上幾個數量級。

舉個例子:使用標準的 CPU 可以在十分鐘的時間里訓練超過 10 億個單詞,在不到一分鐘的時間里可以將 50 萬個句子分到 31 萬個類別中。

可以看到 fastText 的速度有多驚人。

2. fastText

fastText 之所以能做到速度快效果好主要是兩個原因:N-Gram 和 Hierarchical softmax。由于 Hierarchical softmax 在 Word2Vec 中已經介紹過了,所以我們只介紹一下 N-gram。

2.1 N-gram

N-gram 是一種基于統計語言模型的算法,常用于 NLP 領域。其思想在于將文本內容按照字節順序進行大小為 N 的滑動窗口操作,從而形成了長度為 N 的字節片段序列,其片段我們稱為 gram。

以“谷歌是家好公司” 為例子:

二元 Bi-gram 特征為:谷歌 歌是 是家 家好 好公 公司

三元 Tri-gram 特征為:谷歌是 歌是家 是家好 家好公 好公司

當然,我們可以用字粒度也可以用詞粒度。

例如:谷歌 是 家 好 公司二元 Bi-gram 特征為:谷歌是 是家 家好 好公司三元 Tri-gram 特征為:谷歌是家 是家好 家好公司

N-gram 產生的特征只是作為文本特征的候選集,后面還可以通過信息熵、卡方統計、IDF 等文本特征選擇方式篩選出比較重要的特征。

2.2 Embedding Model

這邊值得注意的是,fastText 是一個庫,而不是一個算法。類似于 Word2Vec 也只是一個工具,Skip-Gram 和 CBOW 才是其中的算法。

?

fastText is a library for efficient learning of word representations and sentence classification.

fastText 在 Skip-Gram 的基礎上實現 Word Embedding,具體來說:fastText 通過 Skip-Gram 訓練了字符級別 N-gram 的 Embedding,然后通過將其相加得到詞向量。

舉個例子:對于 “where” 這個單詞來說,它的 Tri-gram 為:“”。由于字符串首尾會有符號,所以這里用 < 表示前綴, > 表示后綴。textFast 是對 這些 Tri-gram 進行訓練,然后將這 5 個 tri-gram 的向量求和來表示 “where” 的詞向量。

這樣做主要有兩個好處:

低頻詞生成的 Embedding 效果會更好,因為它們的 N-gram 可以和其它詞共享而不用擔心詞頻過低無法得到充分的訓練;

對于訓練詞庫之外的單詞(比如拼錯了),仍然可以通過對它們字符級的 N-gram 向量求和來構建它們的詞向量。

為了節省內存空間,我們使用 HashMap 將 N-gram 映射到 1 到 K,所以單詞的除了存儲自己在單詞表的 Index 外,還存儲了其包含的 N-gram 的哈希索引

2.3 Classification Model

一般來說,速度快的模型其結構都會比較簡單,fastText 也不例外,其架構圖如下圖所示:

2279e3e0-7c22-11eb-8b86-12bb97331649.png

fastText Architecture

其中, 為一個句子的 N-gram 特征。

我們看到這個架構是不是感覺似曾相似?

fastText 與 Word2Vec 的 CBOW 架構是非常相似的,但與 CBOW 不同的是:fastText 輸入不僅是多個單詞 Embedding 向量,還將字符級別的 N-gram 向量作為額外的特征,其預測是也不是單詞,而是 Label(fastText 主要用于文本分類,所以預測的是分類標簽)。

3. Experiment

我們簡單看下 fastText 的兩個實驗——Embedding 和文本分類;

3.1 Embeddng

sisg 是 fastText 用于 Embedding 的模型,實驗效果如下:

3.2 Classification

分類實驗的精度 fastText 比 char-CNN、 char-RCNN 要好,但比 VDCNN 要差。(但這里注意:fastText 僅僅使用 10 個隱藏層節點 ,訓練了 5 次 epochs。)

在速度上 fastText 快了幾個數量級。(此處注意:CNN 和 VDCNN 用的都是 Tesla K40 的 GPU,而 fastText 用的是 CPU)

下面是標簽預測的結果,兩個模型都使用 CPU 并開了 20 個線程:

4. Conclusion

一句話總結:fastText 是一個用于文本分類和 Embedding 計算的工具庫,主要通過 N-gram 和 Hierarchical softmax 保證算法的速度和精度。

關于 Hierarchical softmax 為什么會使 fastText 速度那么快?而在 Word2Vec 中沒有看到類似的效果?

我覺得是因為 fastText 的標簽數量相比 Word2Vec 來說要少很多,所以速度會變的非常快。其次 Hierarchical softmax 是必要的,如果不同的話速度會慢非常多。

另外,fastText 可能沒有什么創新,但他卻異常火爆,可能有多個原因,其中包括開源了高質量的 fastText,類似 Work2Vec,當然也會有 Mikolov 大佬和 Facebook 的背書。

總的來說,fastText 還是一個極具競爭力的一個工具包。

5. Reference

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98062
  • 文本分類
    +關注

    關注

    0

    文章

    18

    瀏覽量

    7468
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124398

原文標題:fastText:極快的文本分類工具

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    “中國智造出海”與“物理AI落地”兩大核心主題將繼續解鎖全新產業機遇

    初步展現這兩大趨勢的CES余溫未散,而巴展(MWC)與嵌入式世界(EW)將上演其協同推進發展的新動力
    的頭像 發表于 02-27 11:56 ?142次閱讀
    “中國智造出海”與“物理AI落地”<b class='flag-5'>兩大</b>核心主題將繼續解鎖全新產業機遇

    兩大半導體巨頭,關廠!

    近日,市場傳出兩大半導體廠商關廠的消息,一是三星年內將關閉一座8英寸晶圓廠,二是安靠將關閉日本函館封裝廠。
    的頭像 發表于 01-16 17:39 ?1070次閱讀

    博世中國一舉斬獲兩大重要獎項

    12月11日,中國歐盟商會 2025 年可持續商業獎頒獎典禮在上海舉行。博世中國憑借在綠色制造及社區共創兩大領域的持續深耕,一舉斬獲兩大重要獎項。
    的頭像 發表于 12-22 15:06 ?558次閱讀

    曦智科技榮登2025VENTURE50兩大榜單

    2025年12月4日,由清科控股、投資界發起的 2025VENTURE50 榜單最終揭曉。曦智科技憑借卓越的創新實力與高成長性,榮登 “風云50” 與 “硬科技50” 兩大榜單,收獲來自資本市場與產業領域的雙重認可!
    的頭像 發表于 12-11 17:51 ?1257次閱讀

    潤和軟件榮獲ESG領域兩大獎項

    近日,ESG領域兩大獎項評選結果分別揭曉,江蘇潤和軟件股份有限公司(證券簡稱:潤和軟件,證券代碼:300339)憑借在環境、社會和公司治理(ESG)領域的深入實踐及突出表現,榮膺2025年度財聯社
    的頭像 發表于 11-26 15:25 ?395次閱讀

    pdf轉換成word文檔格式亂了

    ,不是文檔結構,當軟件試圖把排版映射回可編輯的 word 元素時,必須猜測各部分關系,這些猜測可能錯尤其是多欄、混合字體或掃描圖片的復雜頁面.下面講為什么格式會出問題,先檢查什么,以及用簡單方法如何得到更整潔的 word 文件
    的頭像 發表于 11-22 10:04 ?1088次閱讀

    華寶新能美學曲面光伏瓦亮相兩大行業盛會

    近日,便攜光儲全球領導者和首家全場景家庭綠電企業華寶新能攜美學曲面光伏瓦,同步亮相上海CADE建筑設計博覽會與北京住博會兩大行業盛會,美學曲面光伏瓦憑借“能源美學 + 技術突破”的雙重創新贏得眾多關注,成為兩大展會綠色能源展區的焦點,為光伏建筑一體化(BIPV)行業發展注
    的頭像 發表于 11-17 14:36 ?317次閱讀

    英創立亮相香港兩大電子展會

    2025年10月,英創立攜前沿電子制造技術與PCB、PCBA一站式解決方案,亮相香港兩大電子展會。歷經數日的精彩展示與深度交流,2025貿發局香港秋季電子產品展、環球資源秋季電子展已圓滿收官,我們滿載成果與信任,感恩每一位伙伴的蒞臨與支持!
    的頭像 發表于 10-23 11:50 ?843次閱讀

    水晶光電榮登2025年度浙江省兩大榜單

    近日,浙江省經信廳公布2025年度"浙江省制造精品"和"浙江省優秀工業新產品"名單,水晶光電自主研發的高端攝像頭藍寶石保護器件與合式折疊光路微棱鏡分別榮登兩大榜單。
    的頭像 發表于 08-20 17:47 ?2440次閱讀

    新思科技與TeraSignal在光網絡領域達成兩大里程碑

    新思科技與TeraSignal在光網絡領域達成兩大里程碑,展示了基于線性光學技術的PCIe 6.x和112 Gbps以太網的無縫互操作性。
    的頭像 發表于 08-15 15:42 ?1037次閱讀
    新思科技與TeraSignal在光網絡領域達成<b class='flag-5'>兩大</b>里程碑

    西門子EDA產品組合新增兩大解決方案

    西門子數字化工業軟件日前宣布為其電子設計自動化 (EDA) 產品組合新增兩大解決方案,助力半導體設計團隊攻克 2.5D/3D 集成電路 (IC) 設計與制造的復雜挑戰。
    的頭像 發表于 07-14 16:43 ?3259次閱讀

    飛虹半導體兩大行業盛會圓滿落幕

    4月,作為國內深耕于IGBT、MOS管的廠家代表,飛虹半導體成功參加了第104屆中國電子展(深圳)以及慕尼黑上海電子展,兩大行業盛會圓滿落幕。
    的頭像 發表于 04-29 11:39 ?988次閱讀

    天合儲能Elementa金剛2榮獲兩大國際權威機構認證

    近日,天合儲能Elementa 金剛2以其卓越的安全性、可靠性和可融資性,同時獲得DNV和UL Solutions兩大國際權威機構的認證。Elementa 金剛2針對海外不同的儲能需求提供4MWh和5MWh種配置方案,其創新設計和卓越性能獲得評審機構高度認可。
    的頭像 發表于 04-27 15:48 ?764次閱讀

    電裝發布環境與安心兩大領域的戰略成果

    近日,電裝于「第二十一屆上海國際汽車工業展覽會」新聞發布會上,圍繞“環境”與“安心”兩大領域,展示在電動化、智能化與可持續發展領域的創新成果,彰顯長期深耕中國市場、持續推動可持續出行的戰略承諾與行動。
    的頭像 發表于 04-27 11:11 ?947次閱讀

    《AI Agent 應用與項目實戰》閱讀心得3——RAG架構與部署本地知識庫

    分析模型在不同類型數據上的表現,來優化文本分割策略和檢索參數,使系統在保持響應速度的同時,能夠提供更準確的查詢結果。 經過對第6-7章的深入學習,我對RAG技術在工程實踐中的應用了更系統的認識。這一
    發表于 03-07 19:49