国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學習自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了助力大模型研究,復旦大學自然語言處理實驗室開源了中文圖書數據集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域。

當前很多研究表明,高質量數據對于訓練大規模語言模型具有至關重要的作用。圖書中的內容在質量、專業水準、可靠性等方面遠高于互聯網數據。OpenAI在訓練GPT 3時,也使用了大量圖書資源。但是目前還缺乏大規模的中文圖書開放集合。此外,由于絕大多數電子書籍的保存方式為PDF格式,從其中抽取文本內容也需要分析工具支持。復旦大學自然語言處理實驗室結合此前自主開發的相關PDF分析工具,開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室,自2019年起,自研了PDF處理工具DocAI,針對非掃描件PDF,具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準確率100%,結構分析準確率95%。DocAI智能文檔解析系統支持對DOC、PDF等常見電子文檔進行智能解析,對文檔中的標題、段落、表格等半結構化數據進行結構化分析還原。該應用場景具有文件類型多,格式復雜,兼容性要求高等特點,特別是對于跨頁表格,多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結合DocAI工具以及搜索引擎,復旦大學自然語言處理實驗室從互聯網中篩選了大量中文圖書資源鏈接,并構造了內容抽取算法,助力廣大學者NLP大模型研究,同時也在實踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    4207

    瀏覽量

    46142
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14667
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發表于 02-19 13:43

    月之暗面全新開源旗艦模型Kimi K2.5上線模力方舟

    模力方舟平臺現已上線來自月之暗面(Moonshot AI)發布的全新開源旗艦模型Kimi K2.5。
    的頭像 發表于 01-29 10:20 ?881次閱讀
    月之暗面全新<b class='flag-5'>開源</b>旗艦<b class='flag-5'>模型</b>Kimi <b class='flag-5'>K</b>2.5上線模力方舟

    “明牌”對局,自變量開源模型超越pi0

    “明牌”對局,自變量開源模型超越pi0
    的頭像 發表于 01-10 12:00 ?5590次閱讀
    “明牌”對局,自變量<b class='flag-5'>開源</b><b class='flag-5'>模型</b>超越pi0

    融智興科技:RFID圖書管理標簽技術解析與智慧圖書館應用

    融智興科技推出高頻RFID圖書管理標簽系列產品。該標簽專為圖書和檔案管理設計,支持高效識別和數據處理。
    的頭像 發表于 12-18 17:23 ?967次閱讀
    融智興科技:RFID<b class='flag-5'>圖書</b>管理標簽技術解析與智慧<b class='flag-5'>圖書</b>館應用

    人工智能AI必備的5款開源軟件推薦!

    在技術浪潮洶涌的當下,越來越多的企業與開發者開始意識到:“開源”已經不只是一個口號,而是創新的源泉。 從算法研究到智能應用落地,無數項目的起點,都是一個個免費的開源工具。今天,我們就來盤點五款在智能
    的頭像 發表于 11-19 15:35 ?657次閱讀
    人工智能AI<b class='flag-5'>必備</b>的5款<b class='flag-5'>開源</b>軟件推薦!

    NVIDIA開源Audio2Face模型及SDK

    NVIDIA 現已開源 Audio2Face 模型與 SDK,讓所有游戲和 3D 應用開發者都可以構建并部署帶有先進動畫的高精度角色。NVIDIA 開源 Audio2Face 的訓練框架,任何人都可以針對特定用例對現有
    的頭像 發表于 10-21 11:11 ?827次閱讀
    NVIDIA<b class='flag-5'>開源</b>Audio2Face<b class='flag-5'>模型</b>及SDK

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個用于優化和部署人工智能(AI)模型,提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transf
    的頭像 發表于 09-20 11:17 ?1242次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    開放原子開源基金會發布150余個開源項目應用案例

    近日,在2025開放原子開源生態大會開幕式上,開放原子開源基金會發布了150余個開源項目應用案例,涵蓋中國南方電網、中國移動、京東集團、安貞醫院、南京郵電大學、螞蟻密算等100余家單位
    的頭像 發表于 07-28 17:10 ?1178次閱讀

    萬億參數!元腦企智一體機率先支持Kimi K2大模型

    應用大模型提供高處理性能和完善的軟件工具平臺支持。 ? Kimi K2是月之暗面推出的開源萬億參數大模型,創新使用了MuonClip優化器進行訓練,大幅提升了
    的頭像 發表于 07-22 09:27 ?560次閱讀
    萬億參數!元腦企智一體機率先支持Kimi <b class='flag-5'>K</b>2大<b class='flag-5'>模型</b>

    瑞金醫院攜手華為開源RuiPath病理模型

    近日,由上海交通大學醫學院附屬瑞金醫院(以下簡稱“瑞金醫院”)主辦、華為技術有限公司協辦的“瑞金醫院RuiPath病理模型開源及成果發布會”在上海舉行。瑞金醫院聯合華為開源RuiPath病理
    的頭像 發表于 07-02 14:57 ?997次閱讀

    華為正式開源盤古7B稠密和72B混合專家模型

    [中國,深圳,2025年6月30日] 今日,華為正式宣布開源盤古70億參數的稠密模型、盤古Pro MoE 720億參數的混合專家模型和基于昇騰的模型推理技術。 此舉是華為踐行昇騰生態戰
    的頭像 發表于 06-30 11:19 ?1336次閱讀

    RFID在圖書館自動化中的應用

    RFID在圖書館自動化中的優勢高效率:RFID可以快速批量讀取圖書信息,大幅縮短借還書時間,提高圖書館管理效率。準確性:RFID減少了人工操作的錯誤率,提高了圖書管理的準確性和可靠性。
    的頭像 發表于 05-27 17:15 ?711次閱讀
    RFID在<b class='flag-5'>圖書</b>館自動化中的應用

    ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術手冊

    電子發燒友網站提供《ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術手冊.pdf》資料免費下載
    發表于 05-13 16:40 ?0次下載

    上新:小米首個推理大模型開源 馬斯克:下周推出Grok 3.5

    似乎國內外AI競爭日趨白熱化,就在阿里巴巴發布Qwen3(通義千問3)之后,引發業界廣泛關注;很多大廠在跟進,大模型不斷上新: 阿里巴巴開源新一代通義千問模型Qwen3 4月29日凌晨4點,阿里巴巴
    的頭像 發表于 04-30 16:08 ?1328次閱讀

    英偉達GROOT N1 全球首個開源人形機器人基礎模型

    英偉達GROOT N1 全球首個開源人形機器人基礎大模型
    的頭像 發表于 03-20 11:05 ?2141次閱讀