国产一道精品视频一区二区三区,日韩精品一区二区三区在线观看 ,亚洲国产成人久久一区

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）大模型，又稱為預(yù)訓(xùn)練模型、基礎(chǔ)模型等，大模型通常是在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練，學(xué)習(xí)出一種特征和規(guī)則。近期火爆的ChatGPT，便是基于GPT大模型的一個(gè)自然語言處理工具。

從參數(shù)規(guī)模上看，AI大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段，參數(shù)量實(shí)現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看，AI大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù)，逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。

AI大模型的發(fā)展歷程

AI大模型的發(fā)展，還要從2017年Vaswani等提出Transformer架構(gòu)說起，Transformer架構(gòu)的提出奠定了當(dāng)前大模型領(lǐng)域主流的算法架構(gòu)基礎(chǔ)。

2018年，谷歌提出了大規(guī)模預(yù)訓(xùn)練語言模型BERT，該模型是基于Transformer的雙向深層預(yù)訓(xùn)練模型，其參數(shù)首次超過3億規(guī)模；同年，OpenAI提出了生成式預(yù)訓(xùn)練Transformer模型GPT，大大地推動(dòng)了自然語言處理領(lǐng)域的發(fā)展。此后，基于BERT的改進(jìn)模型、ELNet、RoBERTa、T5等大量新式預(yù)訓(xùn)練語言模型不斷涌現(xiàn)，預(yù)訓(xùn)練技術(shù)在自然語言處理領(lǐng)域蓬勃發(fā)展。

2019年，OpenAI繼續(xù)推出15億參數(shù)的GPT-2，能夠生成連貫的文本段落，做到初步的閱讀理解、機(jī)器翻譯等。緊接著，英偉達(dá)推出了83億參數(shù)的Megatron-LM，谷歌推出了110億參數(shù)的T5，微軟推出了170億參數(shù)的圖靈Turing-NLG。

2020年，OpenAI推出了超大規(guī)模語言訓(xùn)練模型GPT-3，參數(shù)達(dá)到1750億，在兩年左右的時(shí)間實(shí)現(xiàn)了模型規(guī)模從億級到上千億級的突破，并能夠?qū)崿F(xiàn)作詩、聊天、生成代碼等功能。此后，微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的MegatronTuring自然語言生成模型（MT-NLG）。

2021年1月，谷歌推出的Switch Transformer模型以高達(dá)1.6萬億的參數(shù)量成為史上首個(gè)萬億級語言模型；到2022年一大批大模型涌現(xiàn)，比如Stability AI發(fā)布的文字到圖像的創(chuàng)新模型Diffusion，以及OpenAI推出的ChatGPT。

在國內(nèi)，大模型研究發(fā)展迅速。2021年，商湯發(fā)布了書生（INTERN）大模型，擁有100億的參數(shù)量；2021年4月，華為云聯(lián)合循環(huán)智能發(fā)布盤古NLP超大規(guī)模預(yù)訓(xùn)練語言模型，參數(shù)規(guī)模達(dá)1000億，聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型，參數(shù)規(guī)模達(dá)2000億。

同年4月，阿里達(dá)摩院發(fā)布270億參數(shù)的中文預(yù)訓(xùn)練語言模型PLUG，聯(lián)合清華大學(xué)發(fā)布參數(shù)規(guī)模達(dá)到 1000億的中文多模態(tài)預(yù)訓(xùn)練模型M6；7月，百度推出ERNIE 3.0知識增強(qiáng)大模型，參數(shù)規(guī)模達(dá)到百億；10月，浪潮信息發(fā)布約2500億的超大規(guī)模預(yù)訓(xùn)練模型“源 1.0”；12月，百度推出ERNIE 3.0 Titan模型，參數(shù)規(guī)模達(dá)2600億。

2022 年，基于清華大學(xué)、阿里達(dá)摩院等研究成果以及超算基礎(chǔ)實(shí)現(xiàn)的“腦級人工智能模型”八卦爐（BAGUALU）完成建立，其模型參數(shù)規(guī)模突破了174萬億個(gè)。可以看到，目前大模型參數(shù)規(guī)模最高已經(jīng)達(dá)到百萬億級別。

大模型研究的重要意義

當(dāng)前人工智能正處在可以用到好用的落地階段，但目前仍處于商業(yè)落地早期，主要面臨著場景需求碎片化、人力研發(fā)和應(yīng)用計(jì)算成本高、長尾場景數(shù)據(jù)較少導(dǎo)致模型訓(xùn)練精度不夠、模型算法從實(shí)驗(yàn)室場景到真實(shí)場景效果差距大等行業(yè)痛點(diǎn)。

大模型具備大規(guī)模和預(yù)訓(xùn)練的特點(diǎn)，一方面有良好的通用性、泛化性，能夠解決傳統(tǒng)AI應(yīng)用中門檻高、部署難的問題，另一方面可以作為技術(shù)底座，支撐智能化產(chǎn)品及應(yīng)用落地。

過去很多年，雖然各大科技公司不斷推出較大規(guī)模的模型，然而直到去年生成式AI逐漸走向商業(yè)化，以及去年底今年初OpenAI推出的ChatGPT爆火，AI大模型才真正迎來發(fā)展的轉(zhuǎn)折點(diǎn)。美國國家工程院外籍院士、北京智源人工智能研究院理事張宏江此前表示，ChatGPT和AIGC，技術(shù)爆火背后，代表著人工智能（AI）大模型進(jìn)入一個(gè)新的技術(shù)范式，也是第三波AI浪潮經(jīng)過十幾年發(fā)展之后一個(gè)非常重要的拐點(diǎn)。

張宏江認(rèn)為，它其實(shí)代表著從以前各自研發(fā)專用小模型到研發(fā)超大規(guī)模通用智能模型的一個(gè)范式轉(zhuǎn)變。這個(gè)轉(zhuǎn)變的重要意義在于：通過這種比較先進(jìn)的算法架構(gòu)，盡可能多的數(shù)據(jù)，匯集大量算力，集約化的訓(xùn)練達(dá)模式，從而供大量用戶使用。

大模型的發(fā)展很可能會(huì)改變信息產(chǎn)業(yè)的格局，改變以前作坊式AI開發(fā)模式，把AI應(yīng)用帶入基于互聯(lián)網(wǎng)、云計(jì)算的大規(guī)模智能云階段。

小結(jié)

雖然過去十幾年人工智能技術(shù)發(fā)展迅速，然而在近幾年卻遇到了一些技術(shù)瓶頸和商業(yè)化難題。而大模型的發(fā)展和普及，尤其是通過大模型+微調(diào)的新技術(shù)開發(fā)范式，人工智能將能夠更好的在各種場景中實(shí)現(xiàn)應(yīng)用，當(dāng)然大模型的訓(xùn)練和推理對算力等也提出了很高的要求，因此大模型的研究最終能夠如何推進(jìn)人工智能產(chǎn)業(yè)的發(fā)展，還需要產(chǎn)業(yè)鏈各環(huán)節(jié)的共同努力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴