国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊AI實驗室是如何構建的?有什么特點

悟空智能科技 ? 2018-12-01 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣布,正式開源一個大規模、高質量的中文詞向量數據集。該數據集包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質量預測、醫療實體識別等自然語言處理方向的業務應用方面,騰訊內部效果提升顯著。

數據集特點

總體來講,騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞匯,其中每個詞對應一個200維的向量。

具體方面,騰訊自稱,該數據集著重在3方面進行了提升:

1. 覆蓋率(Coverage):

該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數據包含一些最近一兩年出現的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性(Accuracy):

由于采用了更大規模的訓練數據和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關系,如下列相似詞檢索結果所示:

在開源前,騰訊內部經歷了多次測評,認為該數據集相比于現有的公開數據,在相似度和相關度指標上均達到了更高的分值。

數據集構建經驗

那么這樣的數據集,騰訊AI實驗室是如何構建的呢?

他們圍繞3方面分享了構建及優化經驗:

1. 語料采集:

訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的互聯網網頁和小說語料。

大規模多來源語料的組合,使得所生成的詞向量數據能夠涵蓋多種類型的詞匯。

而采用新聞數據和最新網頁數據對新詞建模,也使得詞向量數據的新鮮度大為提升。

2. 詞庫構建:

除了引入維基百科和百度百科的部分詞條之外,還實現了Shi等人于2010年提出的語義擴展算法,可從海量的網頁數據中自動發現新詞——根據詞匯模式和超文本標記模式,在發現新詞的同時計算新詞之間的語義相似度。

3. 訓練算法:

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。

DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG),在文本窗口中詞對共現關系的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。

意義

最后,表揚一下鵝廠的開源之舉。

目前針對英語環境,工業界和學術界已發布了一些高質量的詞向量數據,并得到了廣泛的使用和驗證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學基于GloVe算法、Facebook基于fastText項目發布的數據等。

然而,目前公開可下載的中文詞向量數據還比較少,并且數據的詞匯覆蓋率有所不足,特別是缺乏很多短語和網絡新詞。

所以有資源有能力的騰訊,還有心做這樣的事情,對業界實屬利好。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301407
  • 騰訊
    +關注

    關注

    7

    文章

    1684

    瀏覽量

    50918

原文標題:資源 | 騰訊開源800萬中文詞的NLP數據集

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    禮來與NVIDIA宣布成立AI聯合創新實驗室以應對藥物研發挑戰

    NVIDIA 與禮來公司在今日共同宣布,將合作成立一家開創性的 AI 聯合創新實驗室,致力于運用 AI 技術解決制藥行業長期面臨的諸多挑戰。
    的頭像 發表于 01-20 09:44 ?486次閱讀

    3年10億,攜手攻堅:“AI計算開放架構聯合實驗室”協同創新計劃正式啟動

    在剛剛結束的光合組織2025人工智能創新大會(HAIC2025)上,一項項助力中國AI產業發展、推動產業底層協同等的關鍵舉措逐一發布,包括30余家生態企業聯合發起的“AI計算開放架構聯合實驗室”首批
    發表于 12-21 16:15 ?1932次閱讀
    3年10億,攜手攻堅:“<b class='flag-5'>AI</b>計算開放架構聯合<b class='flag-5'>實驗室</b>”協同創新計劃正式啟動

    江波龍與華曦達聯合創新實驗室揭牌,共建AI存儲創新生態

    切入點,旨在構建覆蓋端側AI設備與智能家庭場景的技術驗證體系。實驗室秉承開源協作理念,致力于解決存儲與AI終端適配中的關鍵痛點,形成從聯合調試、場景驗證到可靠性評估的全流程
    的頭像 發表于 12-05 13:36 ?1399次閱讀
    江波龍與華曦達聯合創新<b class='flag-5'>實驗室</b>揭牌,共建<b class='flag-5'>AI</b>存儲創新生態

    廣凌智慧實驗室管理系統技術亮點與功能介紹

    廣凌智慧實驗室管理系統以“AI+物聯網”為核心,通過危險源動態管控、智能巡檢、安全準入、資源調度、數據決策五大核心功能,構建了覆蓋實驗室全生命周期的智能化治理生態。
    的頭像 發表于 12-03 10:55 ?392次閱讀
    廣凌智慧<b class='flag-5'>實驗室</b>管理系統技術亮點與功能介紹

    強強聯合:之江實驗室與沐曦股份共建智算集群聯合實驗室

    2025年10月22日, 之江實驗室與沐曦集成電路(上海)股份有限公司(以下簡稱“沐曦股份”)正式簽署合作協議,共同組建“智算集群聯合實驗室”,攜手推進人工智能算力基礎設施創新發展 。之江實驗室
    的頭像 發表于 10-23 10:50 ?1367次閱讀

    Solidigm 成立AI中央實驗室,配備高性能、大密度存儲測試集群

    實驗室匯聚AI與存儲專業技術,為Solidigm合作者提供研究和優化存儲對AI工作負載影響的平臺。 2025年10月9日,北京 ——企業數據存儲領域領導者 Solidigm正式揭幕其 AI
    的頭像 發表于 10-10 17:03 ?789次閱讀

    CTI華測檢測與戴納科技簽署戰略合作,共建AI驅動黑燈實驗室

    基地完成戰略簽約,雙方將合作打造AI驅動黑燈實驗室,攻克關鍵技術瓶頸,共同推動檢測認證實驗室向全面數智化及自動化升級。 CTI華測檢測集團總裁申屠獻忠在簽約儀式上表示:"本次合作是華測集團面向未來、
    的頭像 發表于 08-28 09:48 ?540次閱讀
    CTI華測檢測與戴納科技簽署戰略合作,共建<b class='flag-5'>AI</b>驅動黑燈<b class='flag-5'>實驗室</b>

    麥捷科技與光明實驗室開啟AI物理交互新紀元

    麥捷科技與人工智能與數字經濟廣東省實驗室(深圳)(以下簡稱“光明實驗室”)“微型驅動關節與仿生靈巧手” 聯合實驗室揭牌儀式暨合作啟動會在深圳市光明區科潤大廈B 座7 樓活動廳隆重舉行。此次活動匯聚了雙方領導、高校專家代表,共同見
    的頭像 發表于 08-27 11:27 ?1446次閱讀

    高德地圖與通義實驗室達成深度合作

    AI原生浪潮推動下,阿里巴巴集團旗下高德地圖與通義實驗室宣布達成深度合作,并在近日發布的高德地圖2025版本中落地多項共建成果。
    的頭像 發表于 08-15 17:23 ?1622次閱讀

    Grameenphone參與愛立信與AWS Gen-AI實驗室項目

    愛立信×AWS 「Gen-AI實驗室」旨在推動運營商在OSS/BSS中的AI應用突破。通過結構化、結果導向的協作方式,實驗室將愛立信在OSS/BSS產品組合和行業專業知識方面的深厚積累
    的頭像 發表于 07-16 10:49 ?1.6w次閱讀

    華為智算實驗室方案加速構建AI4S新質生產力

    為科學發現的核心引擎。在這場全球科研范式重構的浪潮中,國家實驗室對基礎設施的訴求已發生本質性嬗變——全棧自主創新、數據主權保障、多模態算力融合正取代單純的算力規模,成為AI for Science落地的戰略支點。華為以“智算實驗室
    的頭像 發表于 07-05 17:53 ?1855次閱讀
    華為智算<b class='flag-5'>實驗室</b>方案加速<b class='flag-5'>構建</b><b class='flag-5'>AI</b>4S新質生產力

    晶科儲能檢測中心獲萊茵目擊實驗室資質

    目擊實驗室資質后,晶科儲能在國際檢測認證領域的又一里程碑,標志著其實驗室測試能力全面覆蓋歐美核心市場標準,為全球產品合規準入構建“雙通道”認證引擎。
    的頭像 發表于 06-19 16:25 ?970次閱讀

    實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

    實驗室是國家科技創新體系的重要組成部分,是國家組織高水平基礎研究和應用基礎研究、聚集和培養優秀科學家、開展學術交流的重要基地。近年來,各高校、研究院所、科創園區、高新產業園區相關企業的實驗室呈現爆發
    的頭像 發表于 04-10 10:41 ?924次閱讀
    <b class='flag-5'>實驗室</b>安全管理成焦點,漢威科技賦能<b class='flag-5'>實驗室</b>安全升級

    蘇州地鐵與科沃斯成立AI清潔機器人聯合實驗室

    為積極響應“人工智能+”與“交通強國”雙國家戰略,近日,蘇州軌道交通城市運維服務有限公司與科沃斯商用機器人有限公司正式簽署合作協議,共建“AI清潔機器人聯合實驗室”,運維公司總經理谷亞軍與科沃斯機器人商用事業部副總經理高翔共同為實驗室
    的頭像 發表于 03-26 16:36 ?1188次閱讀

    達實智能“AI+物聯網”開放實驗室啟動

    近日,“AI+物聯網”開放實驗室于達實智能大廈正式啟動。開放實驗室項目由深圳市科學技術協會、南山區科學技術協會作為指導單位;深圳達實智能股份有限公司為發起單位,首批9家共建單位入駐。
    的頭像 發表于 03-19 16:43 ?1067次閱讀