11月27日,浪潮信息發(fā)布"源2.0"基礎(chǔ)大模型,并宣布全面開源。源2.0基礎(chǔ)大模型包括1026億、518億、21億等三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進(jìn)的能力。
當(dāng)前,大模型技術(shù)正在推動(dòng)生成式人工智能產(chǎn)業(yè)迅猛發(fā)展,而基礎(chǔ)大模型的關(guān)鍵能力則是大模型在行業(yè)和應(yīng)用落地能力表現(xiàn)的核心支撐,但基礎(chǔ)大模型的發(fā)展也面臨著在算法、數(shù)據(jù)和算力等方面的諸多挑戰(zhàn)。源2.0基礎(chǔ)大模型則針對(duì)性地提出了新的改進(jìn)方法并獲得了能力的提升。
算法方面,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu):局部注意力過(guò)濾增強(qiáng)機(jī)制(LFA:Localized Filtering-based Attention)。LFA通過(guò)先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征,對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確、更人性,提升了模型的自然語(yǔ)言表達(dá)能力,進(jìn)而提升了模型精度。

數(shù)據(jù)方面,源2.0通過(guò)使用中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語(yǔ)料內(nèi)容占比,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。為了獲取中文數(shù)學(xué)數(shù)據(jù),我們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到了約10GB的數(shù)學(xué)數(shù)據(jù),投入巨大,收益較小。為了更高效地獲得相對(duì)匱乏的高質(zhì)量中文數(shù)學(xué)及代碼數(shù)據(jù)集,源2.0采用了基于大模型的數(shù)據(jù)生產(chǎn)及過(guò)濾方法,在保證數(shù)據(jù)的多樣性的同時(shí)也在每一個(gè)類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學(xué)與代碼預(yù)訓(xùn)練數(shù)據(jù)。

算力方面,源2.0采用了非均勻流水并行的方法,綜合運(yùn)用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問(wèn)題,該方法顯著降低了大模型對(duì)芯片間P2P帶寬的需求,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法。

源2.0作為千億級(jí)基礎(chǔ)大模型,在業(yè)界公開的評(píng)測(cè)上進(jìn)行了代碼生成、數(shù)學(xué)問(wèn)題求解、事實(shí)問(wèn)答方面的能力測(cè)試,測(cè)試結(jié)果顯示,源2.0在多項(xiàng)模型評(píng)測(cè)中,展示出了較為先進(jìn)的能力表現(xiàn)。

源2.0采用全面開源策略,全系列模型參數(shù)和代碼均可免費(fèi)下載使用。
審核編輯:湯梓紅
-
半導(dǎo)體
+關(guān)注
關(guān)注
339文章
30774瀏覽量
264460 -
浪潮
+關(guān)注
關(guān)注
1文章
476瀏覽量
25427 -
大模型
+關(guān)注
關(guān)注
2文章
3659瀏覽量
5196
發(fā)布評(píng)論請(qǐng)先 登錄
百度正式發(fā)布并開源新一代文檔解析模型PaddleOCR-VL-1.5
今日看點(diǎn):小米正式發(fā)布并開源新模型 MiMo-V2-Flash;磷酸鐵鋰開啟漲價(jià)潮
商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO
成都匯陽(yáng)投資關(guān)于大模型白熱化,應(yīng)用加速分化
浪潮信息發(fā)布"元腦SD200"超節(jié)點(diǎn),面向萬(wàn)億參數(shù)大模型創(chuàng)新設(shè)計(jì)
OpenAI發(fā)布2款開源模型
萬(wàn)億參數(shù)!元腦企智一體機(jī)率先支持Kimi K2大模型
【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開源大語(yǔ)言模型部署
飛利信與浪潮信息達(dá)成戰(zhàn)略合作
上新:小米首個(gè)推理大模型開源 馬斯克:下周推出Grok 3.5
ShiMeta信息發(fā)布軟件接入DeepSeek大模型,AI助理正式上線——您的智能信發(fā)顧問(wèn)!
首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
筑基"AI+人才"培養(yǎng),浪潮信息攜手元腦伙伴拓爾思推出智慧教育新平臺(tái)
天瞳威視與浪潮信息達(dá)成戰(zhàn)略合作,推進(jìn)高階智駕車載計(jì)算系統(tǒng)創(chuàng)新
浪潮軟件率先推出政務(wù)服務(wù)大模型,重塑全場(chǎng)景應(yīng)用
浪潮信息發(fā)布源2.0基礎(chǔ)大模型,千億參數(shù)全面開源
評(píng)論