久久精品女人18国产毛片,国产精品自线一区二区三区,久久成人国产精品青青

作者簡介：黃玉棟，北郵博士，研究方向時(shí)敏確定性網(wǎng)絡(luò)與網(wǎng)絡(luò)智能

當(dāng)前，生成式人工智能被認(rèn)為是21世紀(jì)最重要的技術(shù)突破之一，其為人類社會(huì)帶來了工作范式的轉(zhuǎn)變，極大地提高了人類生產(chǎn)力。比如，2022年12月ChatGPT橫空出世，以火箭般的流行速度短短五天吸引了超過100萬用戶，兩個(gè)月后月活用戶達(dá)到1億，其為代表的對(duì)話系統(tǒng)達(dá)到接近人類水平，不僅能幫助人類完成寫郵件、寫代碼、撰寫報(bào)告、生成圖像、生成視頻等工作，甚至在AlphaCode程序設(shè)計(jì)競賽中擊敗了45.7%的程序員，通用人工智能被認(rèn)為有望重塑或取代當(dāng)前80%的人類工作。

2023年1月，生物界首次實(shí)現(xiàn)從零合成全新蛋白，2023年2月，Meta開源LlaMA模型，2023年3月，谷歌打造出PaLM-E具身智能機(jī)器人，此外，生成式人工智能已被全面用于分子結(jié)構(gòu)預(yù)測、芯片設(shè)計(jì)、蛋白質(zhì)生成、通信信道預(yù)測等生物、醫(yī)療、材料、機(jī)器人、信息科學(xué)領(lǐng)域。

那么，生成式人工智能可否用于網(wǎng)絡(luò)領(lǐng)域？有哪些場景和關(guān)鍵技術(shù)？跟以前的智能有什么區(qū)別？前沿進(jìn)展如何？怎么實(shí)現(xiàn)？這是大家關(guān)心和熱議的話題。本文作為科普入門資料，將以通俗易懂的方式，以基于Transformer架構(gòu)的大模型技術(shù)為主線，分析“網(wǎng)絡(luò)大模型”的核心原理、關(guān)鍵技術(shù)、場景應(yīng)用和發(fā)展趨勢。

什么是網(wǎng)絡(luò)大模型技術(shù)？

本文將適配網(wǎng)絡(luò)領(lǐng)域的大模型技術(shù)稱為“網(wǎng)絡(luò)大模型“技術(shù)，即“Large Foundation Models for Networking”。其中，基礎(chǔ)模型有很多種，比如Transformer，Diffusion Models, GAN,以及它們的衍生改進(jìn)版本，不同基礎(chǔ)模型服務(wù)于不同的模態(tài)（即輸入數(shù)據(jù)）和任務(wù)場景。縱然模型千變?nèi)f化，其本質(zhì)卻始終如一。本文將網(wǎng)絡(luò)大模型的主要能力分為兩種，第一種是基于世界知識(shí)的“預(yù)測”能力，第二種是泛化的序列“決策”能力。接下來首先介紹第一種能力。

基于世界知識(shí)的預(yù)測能力

什么是預(yù)測？

回顧一個(gè)經(jīng)典的例子，給你三組數(shù)據(jù)，第一組x=1,y=1.05,第二組x=2,y=4.17, 第三組x=4,y=15.99，請(qǐng)猜一下x=3時(shí)，y應(yīng)該等于多少。

人們通過分析，可以得出數(shù)據(jù)滿足y=x*x的規(guī)律，因此x=3時(shí)，y大約等于9。這就是一個(gè)最簡單的預(yù)測的過程，可以被描述為y=F(x)，其中F是一個(gè)函數(shù)。但真實(shí)問題中很多輸入輸出關(guān)系是非線性的復(fù)雜映射，需要用海量數(shù)據(jù)來擬合，因此有了神經(jīng)網(wǎng)絡(luò)的概念，并用一個(gè)損失函數(shù)來最小化預(yù)測的誤差。

比如例子中實(shí)際采集的數(shù)據(jù)是x=3時(shí)，y=9.01,那么輸出9就存在一定的誤差。一個(gè)神經(jīng)網(wǎng)絡(luò)模型包含輸入層、隱藏層和輸出層，訓(xùn)練的過程就是不斷的輸入x=3,讓模型調(diào)整隱藏層計(jì)算權(quán)重去猜y=9.8，y=9.5，直到猜到了y=9,就認(rèn)為模型學(xué)會(huì)了映射關(guān)系，訓(xùn)練停止。然后推理的過程就是輸入x=3，模型直接輸出y=9。

總結(jié)一下，本質(zhì)上模型是用來預(yù)測輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的非線性關(guān)系的，包括訓(xùn)練和推理兩個(gè)步驟，有效數(shù)據(jù)量越多，模型的預(yù)測精度通常越高。其次，模型并不能脫離數(shù)據(jù)集“憑空產(chǎn)生結(jié)果”，要先在訓(xùn)練過程中通過已知的輸入-輸出對(duì)來學(xué)習(xí)，即監(jiān)督學(xué)習(xí)。

此外，模型學(xué)習(xí)的是產(chǎn)生結(jié)果的概率，而非結(jié)果本身。雖然在示例中輸入和輸出只是簡單的數(shù)字，但在實(shí)際應(yīng)用中，輸入輸出可能是文本、圖像、拓?fù)洹⒁曨l等。針對(duì)不同的輸入數(shù)據(jù)結(jié)構(gòu)和特征，神經(jīng)網(wǎng)絡(luò)模型被不斷改進(jìn)，例如，用于圖像處理的卷積神經(jīng)網(wǎng)絡(luò)（CNN）和用于處理拓?fù)涞膱D神經(jīng)網(wǎng)絡(luò)（GNN）等，在此按下不表。

Transformer的基本原理

Transformer是一種在2017年被提出的廣泛用于自然語言處理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，即用來預(yù)測詞與詞之間的映射關(guān)系。舉個(gè)問答的例子，如下圖所示，輸入問題是“五月一日是什么節(jié)日？”我們希望輸出回答是“五月一日是勞動(dòng)節(jié)”。

那怎么讓計(jì)算機(jī)理解語言和文字？首先，需要將每個(gè)詞作為一個(gè)最小處理單元，即token，然后把這些token轉(zhuǎn)換為向量，即embeddings。比如假設(shè)“月”字用向量[1,0,0,0]表示，“日”字用向量[0,1,0,0]表示。有了向量以后就可以進(jìn)行矩陣運(yùn)算，就可以被計(jì)算機(jī)所“理解”了。然后，Transformer里提出了一個(gè)attention注意力機(jī)制，用來計(jì)算一個(gè)輸入文本序列中每個(gè)詞與其他詞的相關(guān)性，并通過位置編碼來表明序列中詞的位置信息，也就是先看一下前面幾個(gè)詞是“五月一日是”，然后開始猜下一個(gè)詞概率最大可能是“勞”，再下一個(gè)詞是“動(dòng)”，再下一個(gè)詞是“節(jié)”。

Transformer的結(jié)構(gòu)優(yōu)勢在于具有特別好的可擴(kuò)展性，比如以前的自然語言處理模型很難捕捉長距離依賴，也就是句子長了就丟失了上下文關(guān)系信息，再比如attention能夠并行計(jì)算，大大提高了訓(xùn)練的速度。

此外，以前是每個(gè)任務(wù)都需要單獨(dú)訓(xùn)練一個(gè)模型，而Transformer架構(gòu)非常通用，能很好地適應(yīng)機(jī)器翻譯、文本生成、問答系統(tǒng)等各種任務(wù)，這使得模型可以輕松地?cái)U(kuò)展到更大規(guī)模，并實(shí)現(xiàn)“one model for all”的效果。

基于世界知識(shí)的“大”模型

如果故事到這里結(jié)束，Transformer僅僅只會(huì)停留在自然語言處理領(lǐng)域。然而接下來，OpenAI大力出奇跡，開啟了大模型新紀(jì)元。試想一下，如果把所有已知的詞都作為token，那世界知識(shí)能否被編碼成能被計(jì)算機(jī)“理解”的詞典？神經(jīng)網(wǎng)絡(luò)模型能否誕生出類似人腦的理解能力甚至超越人類的智能？2018年OpenAI發(fā)布了首個(gè)GPT（Generative Pre-trained Transformer）模型，并提出了無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)的訓(xùn)練方法。

最開始GPT-1具有1.17億個(gè)模型參數(shù)，預(yù)訓(xùn)練數(shù)據(jù)量約為5GB,到2020年，GPT-3的模型參數(shù)量達(dá)到了驚人的1750億，預(yù)訓(xùn)練數(shù)據(jù)量增長到了45TB。在“大”模型背后，Scaling Law縮放法則指出，通過在更多數(shù)據(jù)上訓(xùn)練更大的模型，模型性能將不斷提升。且模型達(dá)到一定的臨界規(guī)模后，表現(xiàn)出了一些開發(fā)者最開始未能預(yù)測的、更復(fù)雜的能力特性，即“涌現(xiàn)”的能力。另外，GPT背后還有大量的工程考慮，比如基于任務(wù)的模型微調(diào)、提示詞工程、人類意圖對(duì)齊等等。

網(wǎng)絡(luò)大模型

網(wǎng)絡(luò)大模型的主要應(yīng)用

現(xiàn)今，開源和閉源的基礎(chǔ)大模型已經(jīng)觸手可及，將大模型適配網(wǎng)絡(luò)應(yīng)用的研究更是如火如荼。接下來，本文將從網(wǎng)絡(luò)領(lǐng)域已有數(shù)據(jù)的角度把大模型應(yīng)用分為六類，并簡要分析前沿研究進(jìn)展。

網(wǎng)絡(luò)知識(shí)問答：網(wǎng)絡(luò)知識(shí)也屬于世界知識(shí)，網(wǎng)絡(luò)知識(shí)題庫是很好的已有的高質(zhì)量任務(wù)數(shù)據(jù)集，因此，一個(gè)直白的做法是，用多選題等方法對(duì)各種基礎(chǔ)模型進(jìn)行測評(píng)，查看其是否掌握、掌握了多少的網(wǎng)絡(luò)領(lǐng)域知識(shí)，以及探討如何通過微調(diào)、提示詞等方法釋放基礎(chǔ)模型在網(wǎng)絡(luò)領(lǐng)域的能力。

比如文獻(xiàn) ^[1]^ 中構(gòu)建了包含一萬條問答題的TeleQnA數(shù)據(jù)集來評(píng)估大語言模型對(duì)電信領(lǐng)域知識(shí)的掌握程度，文獻(xiàn) ^[2]^ 中，包含5732個(gè)多選題的NetEval數(shù)據(jù)集被用來評(píng)估比較了26種開源的大語言模型。此外，問答的能力還可被廣泛用于運(yùn)營商智能客服、以及網(wǎng)絡(luò)從業(yè)人員的教育培訓(xùn)。

網(wǎng)絡(luò)代碼生成：另一個(gè)直白的做法是用大模型來生成網(wǎng)絡(luò)領(lǐng)域的工程代碼，比如Python腳本以及linux命令行。此外，通過調(diào)用各種代碼庫，還能直接生成用于網(wǎng)絡(luò)拓?fù)洹⒕W(wǎng)絡(luò)算法等的基礎(chǔ)代碼。圖是網(wǎng)絡(luò)中十分標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)，文獻(xiàn) ^[3]^ 中提出用大語言模型生成的代碼分析和管理網(wǎng)絡(luò)拓?fù)鋱D，比如添加鏈路或者節(jié)點(diǎn)地址分類。文獻(xiàn) ^[4]^ 還提出了利用大語言模型來復(fù)現(xiàn)網(wǎng)絡(luò)研究論文的代碼的想法，并在小規(guī)模的實(shí)驗(yàn)中證明了可行性。

網(wǎng)絡(luò)協(xié)議分析：網(wǎng)絡(luò)協(xié)議是網(wǎng)絡(luò)設(shè)備研發(fā)和網(wǎng)絡(luò)系統(tǒng)運(yùn)行的基礎(chǔ)，面對(duì)海量的錯(cuò)綜復(fù)雜的RFC文檔，亟需自動(dòng)化的協(xié)議理解能力。然而，不同于普通的文本，協(xié)議中包含了規(guī)則、狀態(tài)、通信流、數(shù)據(jù)流圖、消息結(jié)構(gòu)等協(xié)議實(shí)體，給模型推理的準(zhǔn)確度帶來很大的挑戰(zhàn)。文獻(xiàn) ^[5]^ 利用zero-shot和few-shot等方法評(píng)估了GPT-3.5-turbo從RFC文檔中提取有限狀態(tài)機(jī)的能力。

此外，當(dāng)前的協(xié)議設(shè)計(jì)流程極其緩慢，且涉及復(fù)雜的交互過程和配置參數(shù)，比如MAC協(xié)議，必須針對(duì)具體目的和場景進(jìn)行定制，例如提高吞吐量、降低功耗、保證公平性等。特別是在異構(gòu)網(wǎng)絡(luò)部署場景下，每個(gè)無線接入網(wǎng)，例如5G-NR、Wi-Fi、藍(lán)牙、Zigbee，甚至衛(wèi)星接入網(wǎng)，都有自己的協(xié)議和屬性，例如考慮容量、延遲、覆蓋程度、安全性、功耗和成本等屬性。考慮到未來網(wǎng)絡(luò)更加復(fù)雜和多樣化的設(shè)置，每個(gè)設(shè)備上也許能部署一個(gè)網(wǎng)絡(luò)協(xié)議大模型，通過自適應(yīng)環(huán)境來自動(dòng)生成合適的協(xié)議，并將人類從繁重的協(xié)議設(shè)計(jì)工作中解放出來。

網(wǎng)絡(luò)配置生成：網(wǎng)絡(luò)中有大量異構(gòu)設(shè)備，例如交換機(jī)、路由器和中間件。由于廠商和設(shè)備型號(hào)各有不同，需要大量專業(yè)人員來學(xué)習(xí)設(shè)備手冊(cè)和用戶手冊(cè)、收集合適的命令、驗(yàn)證配置模板、以及將模板參數(shù)映射到控制器數(shù)據(jù)庫。在此過程中，即使是單個(gè)ACL配置錯(cuò)誤也可能導(dǎo)致網(wǎng)絡(luò)中斷。

考慮到不斷增長的異構(gòu)云網(wǎng)絡(luò)以及大量需要管理的計(jì)算和存儲(chǔ)設(shè)備，統(tǒng)一的自然語言配置界面對(duì)于簡化配置過程和實(shí)現(xiàn)自配置網(wǎng)絡(luò)至關(guān)重要。異構(gòu)的網(wǎng)絡(luò)配置數(shù)據(jù)包括低級(jí)別的ACL規(guī)則、CLI命令行，以及封裝的YANG Model、XML、JSON等數(shù)據(jù)格式規(guī)范，文獻(xiàn) ^[6]^ 中基于BERT模型實(shí)現(xiàn)了異構(gòu)廠商設(shè)備的自動(dòng)化管理，即直接從各類設(shè)備手冊(cè)中學(xué)習(xí)并生成統(tǒng)一的網(wǎng)絡(luò)配置數(shù)據(jù)模型。

網(wǎng)絡(luò)流量生成：網(wǎng)絡(luò)流量集對(duì)于網(wǎng)絡(luò)仿真、網(wǎng)絡(luò)測量、攻擊探測、異常流量檢測、逆向協(xié)議解析等任務(wù)至關(guān)重要，然而常常真實(shí)的流量因?yàn)殡[私問題無法獲得，而手動(dòng)構(gòu)造的流量集（比如泊松分布）又在保真度和多樣化方面有很大的欠缺。生成式AI具有很好的“泛化”能力，即能夠?qū)W到已有數(shù)據(jù)分布并生成相似分布的數(shù)據(jù)，可以被用來生成具有不同特征（比如特定IP地址段、端口分布、不同協(xié)議類型、包大小分布、到達(dá)間隔、持續(xù)時(shí)間、流分布）的網(wǎng)絡(luò)流量集，文獻(xiàn) ^[7],[8],[9]^ 分別基于Transformer，GAN，和Diffusion Models架構(gòu)實(shí)現(xiàn)了上述目標(biāo)。

網(wǎng)絡(luò)診斷報(bào)告：故障排查對(duì)于網(wǎng)絡(luò)運(yùn)營商來說是一項(xiàng)繁瑣而繁重的工作。特別是在大規(guī)模廣域網(wǎng)絡(luò)中，需要跨地域的不同部門之間的協(xié)調(diào)，而網(wǎng)絡(luò)用戶仍會(huì)遭受突然的網(wǎng)絡(luò)故障或性能下降，并面臨數(shù)億美元的經(jīng)濟(jì)損失。通過將大語言模型集成到網(wǎng)絡(luò)診斷系統(tǒng)中，大語言模型能夠根據(jù)網(wǎng)絡(luò)狀態(tài)信息生成故障報(bào)告，加速故障定位，并根據(jù)報(bào)告分析和歷史運(yùn)行數(shù)據(jù)給出合理的處理建議。

雖然網(wǎng)絡(luò)系統(tǒng)中有大量的Log日志、操作記錄和告警報(bào)錯(cuò)信息，但這些非結(jié)構(gòu)化的數(shù)據(jù)很難被直接用于訓(xùn)練。最近，文獻(xiàn) ^[10]^ 設(shè)計(jì)了從用戶到工作流（workflow）到數(shù)據(jù)的對(duì)話式網(wǎng)絡(luò)診斷系統(tǒng)，能夠?qū)⒂脩粢鈭D映射到工作模板，并從網(wǎng)絡(luò)底層獲取網(wǎng)絡(luò)狀態(tài)信息來填充模板作為診斷反饋答案。此外，產(chǎn)業(yè)界中也有比如Juniper提出了Marvis虛擬網(wǎng)絡(luò)助手 ^[11]^ 來實(shí)現(xiàn)網(wǎng)絡(luò)自動(dòng)化運(yùn)維管理。

網(wǎng)絡(luò)大模型的關(guān)鍵技術(shù)

實(shí)現(xiàn)以上應(yīng)用并非易事，從相關(guān)文獻(xiàn)可以看到，由于網(wǎng)絡(luò)領(lǐng)域存在區(qū)別于純文本的規(guī)則、公式、協(xié)議、約束、數(shù)學(xué)、符號(hào)，直接使用基礎(chǔ)模型效果往往差強(qiáng)人意，需要很多額外的工程工作。

首先，部分網(wǎng)絡(luò)領(lǐng)域知識(shí)可能未被基礎(chǔ)模型學(xué)到，容易導(dǎo)致模型產(chǎn)生“幻覺”，比如某些網(wǎng)絡(luò)領(lǐng)域?qū)Ｓ忻~和協(xié)議規(guī)則，需要通過微調(diào)的方式，比如參數(shù)高效的部分微調(diào)方式和LoRA低秩矩陣，來增強(qiáng)模型對(duì)網(wǎng)絡(luò)知識(shí)的理解。微調(diào)的哲學(xué)在于既要為模型引入網(wǎng)絡(luò)領(lǐng)域知識(shí)，又要保留模型原本學(xué)到的世界知識(shí)。

其次，用戶意圖模糊會(huì)導(dǎo)致輸入不準(zhǔn)確，且許多網(wǎng)絡(luò)任務(wù)很難用簡單的語言進(jìn)行表述，因此，需要基于提示詞工程，比如zero-shot, few-shot, 思維鏈，以及RAG檢索增強(qiáng)技術(shù)，來構(gòu)合適的prompt和網(wǎng)絡(luò)任務(wù)基準(zhǔn)測試集；比如思維鏈可以鼓勵(lì)大模型采用逐步的推理過程來將復(fù)雜的問題拆解為多個(gè)簡單子問題，以及通過上傳相關(guān)技術(shù)文檔供模型檢索來縮小任務(wù)范圍并提高推理精度。除了推理精度和推理速度，為了量化網(wǎng)絡(luò)大模型的能力，相關(guān)的網(wǎng)絡(luò)任務(wù)層面的屬性和指標(biāo)，比如回答正確率，任務(wù)完成度，生成結(jié)果與最優(yōu)結(jié)果之間的數(shù)學(xué)距離，也待被提出和研究。

另外，考慮到網(wǎng)絡(luò)領(lǐng)域存在大量難以被直接用于訓(xùn)練的非結(jié)構(gòu)化數(shù)據(jù)，引入Agent技術(shù)是一個(gè)當(dāng)前的熱門方向，即通過API等方式，將大語言模型與網(wǎng)絡(luò)工具（仿真軟件、監(jiān)測系統(tǒng)、安全工具、控制器、求解器、搜索引擎）做集成，讓網(wǎng)絡(luò)大模型學(xué)會(huì)使用網(wǎng)絡(luò)工具，彌補(bǔ)模型在規(guī)劃、計(jì)算、求解等方面的短板，最終實(shí)現(xiàn)“網(wǎng)絡(luò)具身智能”。更多技術(shù)細(xì)節(jié)可參考文獻(xiàn) ^[12]^ 。下一篇將介紹網(wǎng)絡(luò)大模型的第二種能力，即泛化的序列“決策”能力。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
213

文章
31079

瀏覽量
222258
網(wǎng)絡(luò)

網(wǎng)絡(luò)

+關(guān)注

關(guān)注
14

文章
8265

瀏覽量
94757
人工智能

人工智能

+關(guān)注

關(guān)注
1817

文章
50098

瀏覽量
265380
大模型

大模型

+關(guān)注

關(guān)注
2

文章
3650

瀏覽量
5183

原文標(biāo)題：秒懂網(wǎng)絡(luò)大模型之基于世界知識(shí)的預(yù)測能力

文章出處：【微信號(hào)：SDNLAB，微信公眾號(hào)：SDNLAB】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

什么是網(wǎng)絡(luò)大模型技術(shù)

評(píng)論