近日,上海人工智能實驗室發布聯合語言資料數據聯盟會員單位,共同發布“生萬權”1.0多模式詞典訓練語言資料開源。
“書生·萬卷”1.0將集中語言資料數據聯盟會員們豐富的內容積累和上海人工智能實驗室的數據處理能力等優勢,為學術界及產業界提供高品質的大規模模型多模態事前訓練語言資料。開放源代碼提供2tb以上的數據,多種融合,精細處理,價值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分數據集。其中,文本數據來自網頁,百科全書,書籍,專利,教材,考試題等,數據總量超過5億個,數據大小也超過1tb,涵蓋科技,文學,媒體,教育,法律等多個領域。
圖像和文字數據主要來自公開網頁,經過處理形成圖像和文字交叉的文件。總數字超過2200萬個,數據大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。
視頻數據主要是中國中央電視臺(cctv)和上海文廣集團提供,新聞、電影、電視等多種類型的節目,包括視頻,視頻文件總數超過1000個,數據大小超過900gb,內容是軍事、文藝、體育、自然、知識、影像藝術等領域覆蓋著。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
人工智能
+關注
關注
1817文章
50098瀏覽量
265363 -
源代碼
+關注
關注
96文章
2953瀏覽量
70321 -
模型
+關注
關注
1文章
3752瀏覽量
52109
發布評論請先 登錄
相關推薦
熱點推薦
壁仞科技與階躍星辰及上海儀電智算服務成立人工智能聯合實驗室
2月2日,壁仞科技(06082.HK)與上海儀電旗下智算服務、階躍星辰攜手打造的人工智能聯合實驗室正式揭牌。人工智能聯合實驗室積極響應國家“
華為聯合崖州灣國家實驗室發布農業育種智能基座
11月11日,在2025年植物表型組學國際研討會上,崖州灣國家實驗室與華為共同發布面向農業育種領域的智能基座——“繁|未來農業智能樞紐”。通過構建多
強強聯合:之江實驗室與沐曦股份共建智算集群聯合實驗室
2025年10月22日, 之江實驗室與沐曦集成電路(上海)股份有限公司(以下簡稱“沐曦股份”)正式簽署合作協議,共同組建“智算集群聯合實驗室”,攜手推進人工智能算力基礎設施創新發展 。
華為發布行業智算中心解決方案
華為全聯接大會2025期間,在以“人工智能”+科學技術——行業智算中心賦能千行萬業智能化躍升為主題的科技論壇上,來自中國信息協會、鵬城實驗室、上海人工智能
AI看點:OpenAI啟動員工百億美元售股 上海人工智能實驗室開源新模型 濟南大數據局與華為簽署合作協議
)。 上海人工智能實驗室開源新模型 日前,上海人工智能實驗室開源通用多模態大模型書生·萬象3.5
挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器
和生態體系帶到使用者身邊 ,讓我們在技術學習和使用上不再受制于人。
三、多模態實驗,解鎖AI全流程
它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能
發表于 08-07 14:30
挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!
和生態體系帶到使用者身邊 ,讓我們在技術學習和使用上不再受制于人。
三、多模態實驗,解鎖AI全流程
它嵌入了2D視覺、深度視覺、機械手臂、語音識別、嵌入式傳感器等多種類AI模塊,涵蓋人工智能
發表于 08-07 14:23
上海貝嶺躋身國家認可實驗室行列
近日,上海貝嶺股份有限公司檢測中心可靠性實驗室正式通過中國合格評定國家認可委員會(CNAS)的嚴格評審,獲得CNAS認可實驗室資質證書(注冊號:CNAS L23589)。這標志著上海貝
華清遠見AI人工智能專業實驗室建設方案,虛實融合,以產業應用驅動高校教學實訓變革!
在人工智能技術迭代提速的當下,高校教學正面臨著技術落地與人才培養的雙重挑戰。作為高校教師,我們常常會遇到這樣的困境:課本知識跟不上技術發展速度,實驗室硬件難以支撐復雜項目實訓,產教融合缺乏實際落地
華清遠見AI人工智能專業實驗室建設方案,以產業應用驅動高校教學實訓變革!
在人工智能技術迭代提速的當下,高校教學正面臨著技術落地與人才培養的雙重挑戰。作為高校教師,我們常常會遇到這樣的困境:課本知識跟不上技術發展速度,實驗室硬件難以支撐復雜項目實訓,產教融合缺乏實際落地
浦公山實驗室正式啟動!
6月21日浦公山實驗室在軟件園三期正式啟動浦公山實驗室面向我國信創技術及產業生態,由集美區人工智能產業聯盟主要成員單位共同組建,旨在打造覆蓋通用計算與數據安全的自主可控人工智能產業軟硬
東軟與同濟大學共建未來車載人工智能聯合實驗室
4月26日,由 東軟集團和同濟大學共同建立的未來車載人工智能聯合實驗室正式落成 。在同濟大學充滿科技與人文的校園里,雙方以“聚勢領航 AI啟智途”為主題舉辦揭牌儀式,標志著這一產學研深度融合的創新
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態大模型
熟悉愛芯通元NPU的網友很清楚,從去年開始我們在端側多模態大模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的多模態大模MiniCPM V 2.0,
上海人工智能實驗室發布多模態語料
評論