国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP中文自然語言處理數據集、平臺和工具整理

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-05 09:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

資源整理了文本分類、實體識別&詞性標注、搜索匹配、推薦系統、指代消歧、百科數據、預訓練詞向量or模型、中文完形填空等大量數據集,中文數據集平臺和NLP工具等。

本文內容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分類

新聞分類

今日頭條中文新聞(短文本)分類數據集:https://github.com/fateleak/toutiao-text-classfication-dataset

數據規模:共38萬條,分布于15個分類中。

采集時間:2018年05月。

以0.7 0.15 0.15做分割 。

清華新聞分類語料:

根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成。

數據量:74萬篇新聞文檔(2.19 GB)

小數據實驗可以篩選類別:體育, 財經, 房產, 家居, 教育, 科技, 時尚, 時政, 游戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗:https://github.com/gaussic/text-classification-cnn-rnn

中科大新聞分類語料庫:http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點/評論 傾向性分析

實體識別&詞性標注

微博實體識別

https://github.com/hltcoe/golden-horse

boson數據

包含6種實體類型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日報數據集

人名、地名、組織名三種實體類型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微軟亞洲研究院數據集

5 萬多條中文命名實體識別標注數據(包括地點、機構、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四個數據集,包含繁體中文和簡體中文,下面是簡體中文分詞數據。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手機搜索排序

OPPO手機搜索排序query-title語義匹配數據集。

鏈接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取碼:7p3n

網頁搜索結果評價(SogouE)

用戶查詢及相關URL列表

https://www.sogou.com/labs/resource/e.php

推薦系統

百科數據

維基百科

維基百科會定時將語料庫打包發布:

數據處理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得鏈接:https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

預訓練:(詞向量or模型)

BERT

開源代碼:https://github.com/google-research/bert

模型下載:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開源代碼:https://github.com/allenai/bilm-tf

預訓練的模型:https://allennlp.org/elmo

騰訊詞向量

騰訊AI實驗室公開的中文詞向量數據集包含800多萬中文詞匯,其中每個詞對應一個200維的向量。

下載地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百種預訓練中文詞向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空數據集

https://github.com/ymcui/Chinese-RC-Dataset

中華古詩詞數據庫

最全中華古詩詞數據集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險行業語料庫

https://github.com/Samurais/insuranceqa-corpus-zh

漢語拆字字典

英文可以做char embedding,中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文數據集平臺

搜狗實驗室

搜狗實驗室提供了一些高質量的中文文本數據集,時間比較早,多為2012年以前的數據。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與信息檢索共享平臺

http://www.nlpir.org/?action-category-catid-28

中文語料小數據

包含了中文命名實體識別、中文關系識別、中文閱讀理解等一些小量數據。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科數據集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分詞、詞性標注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分詞:https://github.com/yanyiwu/cppjieba

責任編輯:xj

原文標題:最全中文自然語言處理數據集、平臺和工具整理

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94777
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14667
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13989
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:最全中文自然語言處理數據集、平臺和工具整理

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    MinGW-w64工具壓縮包的下載

    (即你之前需要的MinGW免安裝包)。 信息解讀 文件屬性:這是Windows平臺的GNU編譯工具(包含mingw32-make等工具),用于編譯你的RA0E1工程; 當前狀態:下載
    發表于 02-07 04:59

    自然語言處理NLP的概念和工作原理

    自然語言處理 (NLP) 是人工智能 (AI) 的一個分支,它會教計算機如何理解口頭和書面形式的人類語言自然語言
    的頭像 發表于 01-29 14:01 ?370次閱讀
    <b class='flag-5'>自然語言</b><b class='flag-5'>處理</b><b class='flag-5'>NLP</b>的概念和工作原理

    云知聲論文入選自然語言處理頂會EMNLP 2025

    近日,自然語言處理NLP)領域國際權威會議 ——2025 年計算語言學與自然語言處理國際會議(
    的頭像 發表于 11-10 17:30 ?805次閱讀
    云知聲論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會EMNLP 2025

    HarmonyOSAI編程自然語言代碼生成

    安裝CodeGenie后,在下方對話框內,輸入代碼需求描述,將根據描述智能生成代碼,生成內容可一鍵復制或一鍵插入至編輯區當前光標位置。 提問示例 使用ArkTs語言寫一段代碼,在頁面中間部分
    發表于 09-05 16:58

    小白學大模型:國外主流大模型匯總

    數據科學AttentionIsAllYouNeed(2017)https://arxiv.org/abs/1706.03762由GoogleBrain的團隊撰寫,它徹底改變了自然語言處理NL
    的頭像 發表于 08-27 14:06 ?961次閱讀
    小白學大模型:國外主流大模型匯總

    【HZ-T536開發板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發板上搭建 MCP 服務器,自然語言輕松控板

    引言:為什么需要 “自然語言控板”? 痛點引入 :嵌入式開發中,開發者常需通過 SSH 等工具登錄開發板,手動輸入復雜的 Linux 命令(如ls -l、gpio readall、ifconfig等
    發表于 08-23 13:10

    請問AICube所需的目標檢測數據標注可以使用什么工具

    請問AICube所需的目標檢測數據標注可以使用什么工具? 我使用labelimg進行標注,標注后的數據改好文件名后導入不進去。一直卡在
    發表于 08-11 08:07

    云訓練平臺數據過大無法下載數據至本地怎么解決?

    起因是現在平臺限制了圖片數量,想要本地訓練下載數據時發現只會跳出網絡異常的錯誤,請問這有什么解決辦法?
    發表于 07-22 06:03

    milvus向量數據庫的主要特性和應用場景

    Milvus 是一個開源的向量數據庫,專門為處理和分析大規模向量數據而設計。它適用于需要高效存儲、檢索和管理向量數據的應用場景,如機器學習、人工智能、計算機視覺和
    的頭像 發表于 07-04 11:36 ?1075次閱讀
    milvus向量<b class='flag-5'>數據</b>庫的主要特性和應用場景

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1290次閱讀
    Transformer架構概述

    各大廠商與新興企業推出的 EDA Copilot 工具

    當前EDA(電子設計自動化)領域正經歷AI驅動的智能化轉型,各大廠商與新興企業推出的EDA Copilot工具通過自然語言交互、自動化設計優化等技術,顯著提升芯片設計效率。以下是基于最新行業
    的頭像 發表于 06-06 09:34 ?2826次閱讀

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計算語言學年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發表于 05-26 14:15 ?1316次閱讀
    云知聲四篇論文入選<b class='flag-5'>自然語言</b><b class='flag-5'>處理</b>頂會ACL 2025

    【「零基礎開發AI Agent」閱讀體驗】總體預覽及入門篇

    ,相關術語有計算機編程,數據庫,向量數據庫等概念,然后是大模型的相關概念,比如自然語言處理、提示詞工程、思維鏈和思維樹以及ReAct、多模態等內容。 然后是業務流程對AiAgent的開
    發表于 04-20 21:53

    自然語言處理的發展歷程和應用場景

    你是否曾經對著手機說:“嘿,Siri,今天天氣怎么樣?”或者在出國旅行時,打開翻譯軟件,對著菜單說:“請把這道菜翻譯成英文”。
    的頭像 發表于 04-17 11:40 ?1327次閱讀

    自然語言提示原型在英特爾Vision大會上首次亮相

    在英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業由AI驅動的洞察和效率提速。
    的頭像 發表于 04-09 09:30 ?964次閱讀