国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為網絡管理員導航生成式 AI

NVIDIA英偉達 ? 來源:未知 ? 2023-06-19 19:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

眾所周知,人工智能正在改變世界。對于網絡管理員而言,人工智能可以以一些令人驚嘆的方式改善日常運營:

  • 重復性任務的自動化:這包括監控、故障排除和升級,可以節省時間,同時降低人為錯誤的風險。

  • 網絡安全:人工智能可以幫助實時檢測和應對安全威脅。例如,NVIDIA Morpheus 使網絡安全開發者能夠創建經過優化的實時數據 AI 流水線。

  • 拓撲優化:借助合適的遙測技術,人工智能可以分析流量模式并提出更改建議,從而優化網絡性能。

  • 主動式網絡規劃:人工智能可以使用同樣的高級網絡遙測技術來評估趨勢,以預測潛在問題,并在問題發生之前提出更改建議,從而避免問題的發生。

然而,人工智能無法取代經驗豐富的網絡管理員的專業知識。人工智能旨在增強您的能力,就像一個虛擬助理一樣。因此,人工智能可能會成為您最好的朋友,但生成式 AI 是一種新的數據中心工作負載,它帶來了新的范式轉變:NVIDIA 集合通信庫(NCCL)。

數據中心的演變

網絡管理員不得不處理許多其他近期更改:

  • 如何配置網絡

  • 如何監控和管理網絡

  • 如何設計網絡

  • 網絡上的協議和工作負載

不久前,我們可能已經通過特定網絡命令行界面(CLI)的專業水平來衡量新網絡管理員的價值。隨著混合云計算和 DevOps 的出現,從 CLI 到 API 的轉變也在不斷發展。

甚至您監控和管理網絡的方式也發生了變化。您已經從使用 SNMP 和 NetFlow 在數據中心輪詢設備的工具轉向了新的基于交換機的遙測模型,在該模型中,交換機會主動以流式傳輸提供基于流的診斷詳細信息。

您可以實操將新的工作負載引入數據中心,其中許多數據中心都有獨特的網絡需求。您已經看到傳統數據庫被數據分析和大數據集群所取代。

現在,當被要求構建人工智能集群時,人們很容易認為人工智能只是一個規模更大、速度更快的大數據應用程序。但人工智能是不同的,如果沒有合適的工具,人工智能可能會很難實現。

生成式 AI 和 NCCL 的影響

您是一家大型企業的網絡管理員。您的 CTO 參加了 GTC 2023,并了解了生成式 AI 他們希望通過構建像 ChatGPT 這樣的大型語言模型來響應最終用戶,并與最終用戶進行交互,從而改變業務運營方式。該模型必須經過訓練。這需要一個大型人工智能訓練集群,許多 GPU 加速的服務器通過高速網絡連接。

這個人工智能訓練集群帶來了許多新的挑戰:

  • 網絡流量模式和流量特性發生了顯著變化,而傳統 ECMP 表現不佳。

  • AI 集群參考設計需要用于計算/ GPU 、存儲甚至帶內管理的專用網絡。

  • 網絡流量是異構的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。

  • 人工智能集群必須能夠適應在一臺服務器上、多臺服務器上運行作業,甚至是在一臺計算機上同時運行多個作業。

  • 網絡配置發生變化,參數可優化 RoCE 和 GPU 直接通信。

  • 人工智能作業必須在多次迭代中具有一致且可預測的作業完成時間。

  • 具有更高帶寬交換機的新型扁平化拓撲。

  • 需要學習的新縮寫詞:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。

  • 新的監控工具:他們如何知道 AI 和 NCCL 是否表現良好?

那么,什么是 NCCL?以下是教科書般的答案:

NVIDIA Collective Communication Library(NCCL)實現了針對 NVIDIA GPU 和網絡優化的多 GPU 和多節點通信原語。NCCL 提供了諸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及點對點發送和接收之類的例程,這些例程經過優化,可通過節點內的 PCIe 和 NVLink 高速互連以及節點間的 NVIDIA 網絡實現高帶寬和低延遲。

資料來源:

NVIDIA Collective Communication Library (NCCL)


對于網絡管理員,NCCL 負責控制全新 AI 集群的流量模式。這意味著您需要針對 NCCL 進行優化的網絡設計、針對 NCCL 優化的網絡監控工具以及針對 NCCL 優化的以太網交換機。

NCCL 是實現 AI 集群上運行的工作負載的高性能、一致性和可預測性的關鍵。NCCL 也是一個交匯點:網絡管理員和數據科學家都必須講出并理解它。當他們都能流利地講出它時,NCCL 可以成為這些具有不同所需技能的專業人士之間的共同語言。

鑒于 NCCL 的重要性,合適的網絡可以決定和突破 AI 集群的性能。人工智能集群有一些獨特的要求:

  • 抗噪能力強

  • 對故障具有彈性

  • 導軌優化拓撲

  • 無損網絡轉發

  • 性能隔離

  • 無阻塞網絡架構

那么,接下來是什么呢?

您的工作是防止網絡減緩人工智能集群的速度,但人工智能網絡需要什么?高帶寬、低延遲和高彈性是必要的,但還不夠。您將如何選擇合適的基礎設施?

  • 基于產品手冊?并不完全。

  • 根據供應商告訴您的?有點冒險,因為他們想賣給您一些東西。

  • 基于數據科學家們所要求的?他們不是網絡專家,所以大多數人都不知道。

  • 基于經驗豐富的網絡管理員的建議?很有可能他們認為是 CPU,而不是 GPU,并且需求已經發生了變化。

人工智能的網絡可能很難。“沒有人會因為購買 X 而被解雇”這句格言與摩爾定律一樣過時,因為人工智能的 X 因素與通用計算不同。即使是擁有專門的人工智能工程團隊來預先測試集群性能的大型 IT 供應商,當性能隨著更多用戶的添加和多個作業的同時運行而急劇下降時,也會經常感到驚訝。

保證人工智能集群性能的最佳方法是遵循 NVIDIA 發布的人工智能參考架構之一,并使用具有人工智能可見性功能的基礎設施來驗證您的人工智能集群的健康狀況和供給情況。

無論您的人工智能集群使用以太網還是 InfiniBand,NVIDIA 都會為您提供所需的工具、支持和培訓,以使您成功并成為人工智能網絡專家。

掃描下方二維碼查看更多有關 NVIDIA 集合通信庫(NCCL)的信息。

921c3bec-0e8f-11ee-962d-dac502259ad0.png


9238495e-0e8f-11ee-962d-dac502259ad0.gif ?

更多精彩內容 使用 NVIDIA Spectrum-X 網絡平臺加速生成式 AI 工作負載
使用 NVIDIA Cumulus Linux 實現數據中心網絡自動化
借助 NVIDIA WJH 更快地診斷網絡問題
COMPUTEX2023 | NVIDIA 推出面向超大規模生成式 AI 的加速以太網平臺


原文標題:為網絡管理員導航生成式 AI

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4087

    瀏覽量

    99198

原文標題:為網絡管理員導航生成式 AI

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    生成AI賦能虛擬調試——fe.screen-sim的架構價值

    生成AI賦能虛擬調試——fe.screen-sim的架構價值
    的頭像 發表于 12-04 14:59 ?984次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>賦能虛擬調試——fe.screen-sim的架構價值

    為什么網絡需要DHCP服務器?

    DHCP是一種網絡協議,全稱為動態主機配置協議(Dynamic Host Configuration Protocol)。它被用于在計算機網絡中自動分配IP地址和其他網絡配置信息給客戶端設備。DHCP的主要目標是簡化
    的頭像 發表于 09-29 11:22 ?2083次閱讀
    為什么<b class='flag-5'>網絡</b>需要DHCP服務器?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    當今社會,AI已經發展很迅速了,但是你了解AI的發展歷程嗎?本章作者將為我們打開AI的發展歷程以及需求和挑戰的面紗。 從2017年開始生成
    發表于 09-12 16:07

    智能體化AI生成AI的區別

    生成 AI 的核心是“生成內容” —— 比如用大模型寫報告,是對輸入指令的被動響應。而智能體化 AI(Agentic
    的頭像 發表于 08-25 17:24 ?1647次閱讀

    生成 AI 重塑自動駕駛仿真:4D 場景生成技術的突破與實踐

    生成AI驅動的4D場景技術正解決傳統方法效率低、覆蓋不足等痛點,如何通過NeRF、3D高斯潑濺等技術實現高保真動態建模?高效生成極端天氣等長尾場景?本文
    的頭像 發表于 08-06 11:20 ?5162次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> 重塑自動駕駛仿真:4D 場景<b class='flag-5'>生成</b>技術的突破與實踐

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    ,以“全流量采集 + AI根因診斷 + 預測性運維”核心支柱,推動企業網絡運維模式從傳統的“被動響應”向“主動防御”和“故障自愈”的智能化方向躍遷。 三大核心能力:AI推理引擎重塑
    發表于 07-16 15:29

    邊緣生成AI面臨哪些工程挑戰?

    內就吸引了超過100萬用戶)在市場上迅速崛起并被廣泛采用。而手機用戶則經常使用語音搜索功能。這些應用有什么共同點呢?它們都依賴于云端來處理AI工作負載。盡管云端生成
    的頭像 發表于 06-25 10:44 ?1147次閱讀
    邊緣<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>面臨哪些工程挑戰?

    生成AI爆發,企業還沒AI革命做好準備

    當前,生成AI(GenAI)的能力正以約每六個月翻倍的速度迭代,但多數企業的應用進展仍停留在緩慢的線性增長中,甚至還在觀望。這種差距導致企業逐漸落后,無法釋放AI帶來的巨大商業價值。
    的頭像 發表于 06-18 23:10 ?771次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>爆發,企業還沒<b class='flag-5'>為</b><b class='flag-5'>AI</b>革命做好準備

    谷歌新一代生成AI媒體模型登陸Vertex AI平臺

    我們在 Vertex AI 上推出新一代生成 AI 媒體模型: Imagen 4、Veo 3 和 Lyria 2。
    的頭像 發表于 06-18 09:56 ?1100次閱讀

    麻煩管理員幫忙注銷一下這個賬號

    我想要注銷jf_00115938這個賬號,不想用這個平臺,出于隱私保護,麻煩管理員幫忙注銷一下。
    發表于 06-10 08:51

    Dify攜手亞馬遜云科技加速全球企業生成AI應用規模化落地

    科技遍布全球的基礎設施與亞馬遜云科技Marketplace,Dify將產品迅速推廣至全球,汽車、制造、零售快消、醫療健康和游戲等多個行業逾百家企業提供服務,助力企業釋放生成AI創新
    的頭像 發表于 06-07 16:00 ?874次閱讀

    從Gartner報告看Atlassian在生成AI領域的創新路徑與實踐價值

    Atlassian入選Gartner 2025生成AI技術"新興領導者"!其核心AI產品Rovo依托Teamwork Graph,支持從團隊知識庫中提取情境化的個性答案與洞察
    的頭像 發表于 06-05 15:59 ?1145次閱讀
    從Gartner報告看Atlassian在<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>領域的創新路徑與實踐價值

    2025設備管理新范式:生成AI在故障知識庫中的創新應用

    生成 AI 提供了全新的解決方案,引領設備管理進入“健康治理”新紀元。傳統設備管理深陷知識困局,知識沉淀遭遇“三重斷點”,而
    的頭像 發表于 03-31 10:44 ?1305次閱讀
    2025設備<b class='flag-5'>管理</b>新范式:<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>在故障知識庫中的創新應用

    適用于數據中心和AI時代的800G網絡

    數據中心依賴數千甚至上萬個GPU集群進行高性能計算,對帶寬、延遲和數據交換效率提出極高要求。 AI云:以生成AI核心的云平臺,
    發表于 03-25 17:35

    聲智APP通過北京市生成人工智能服務登記

    近日,聲智APP已正式通過北京市第二批生成人工智能服務登記,成為《生成人工智能服務管理暫行辦法》(以下簡稱《辦法》)實施以來,北京市累計
    的頭像 發表于 03-19 16:33 ?957次閱讀