粉嫩98久久综合国产一区,欧美视频一区二区三区四区,精品一区二区久久久久久久网站

圖片來源于京東

借助 NVIDIA DGX SuperPOD，京東探索研究院訓練了參數量近五十億的 Vega-MT 模型，在 2022 年第 17 屆國際機器翻譯大賽（WMT）上大放異彩。Vega-MT 在中文-英語(BLEU 33.5, chrF 0.611)、英文-中文(BLEU 49.7, chrF 0.446)、德語-英語(BLEU 33.7, chrF 0.585)、英語-德語(BLEU 37.8, chrF 0.643)、捷克語-英語(BLEU 54.9, chrF 0.744)、英語-捷克語(BLEU 41.4, chrF 0.651)和英語-俄羅斯語(BLEU 32.7, chrF 0.584)在七個翻譯賽道上榮獲冠軍。

作為大規模 AI 基礎架構，NVIDIA DGX SuperPOD 具備完整、先進的基礎架構。相較于原來的 V100 集群，DGX SuperPOD 除了在單卡算力上取得了接近兩倍的提升外，在算力擴展性方面也呈線性增長，即擴展性方面相較于從前也取得了兩倍的提升。在多節點的情況下總計獲得了約 4 倍的提升。因此，原本需要數月才能完成類似模型（相當規模、相當復雜度）的訓練任務縮短到了兩周，研究人員也有了更充裕的時間針對模型優化。

客戶簡介及應用背景

京東作為以供應鏈為基礎的技術與服務企業。京東探索研究院（JD Explore Ac ademy）秉承“以技術為本，致力于更高效和可持續的世界”的集團使命，是以京東集團以各事業群與業務單元的技術發展為基礎，集合全集團資源和能力，成立的專注前沿科技探索的研發部門，是實現研究和協同創新的生態平臺。探索研究院深耕泛人工智能 3 大領域，包括“量子機器學習”、“可信人工智能”、“超級深度學習”，從基礎理論層面實現顛覆式創新，助力數智化產業發展及社會變革，以原創性科技賦能京東集團零售、物流、健康、科技等全產業鏈場景，打造源頭性科技高地，實現從量變到質變的跨越式發展，引領行業砥礪前行。

國際機器翻譯大賽（WMT）是全球學術界公認的國際頂級機器翻譯比賽，由國際計算語言學協會（ACL）舉辦，是協會旗下的頂尖賽事。自 2006 年至今，WMT 的每次比賽都是全球各大高校、科技公司與學術機構展示自身機器翻譯實力的平臺，更見證了機器翻譯技術的不斷進步。

京東探索研究院在 WMT 大賽上這一重大成就進一步驗證了自然語言處理大模型在理解、生成、跨語種建模上的優越性。

客戶挑戰

機器翻譯面臨諸多挑戰：常見的幾個語種使用廣泛數據資源豐富，小語種在跨境電商中非常必要但數據不充分，小數據集的訓練面臨挑戰；同時，挖掘語種與語種的聯系也是難點之一，因為語言生成的復雜性、多義性，表達的多樣性、文化背景，語種之間的差異等都是機器翻譯比賽中繞不開的難題。

從 2018 年的 GPT-1 的 1.1 億參數，到現今大規模語言模型擁有萬億參數，大模型在多種語言任務上準確率的顯著提高，有助于我們構建對自然語言有著更加豐富理解的智能系統。

Vega-MT 采用了諸多先進技術，包括多方向預訓練（multidirectional pre-training）、超大模型（Extremely Large Transformer）、循環翻譯（cycle translation）和雙向自訓練（bidirectional self-training），來充分挖掘雙語數據、單語數據的知識。此外，還使用了噪聲信道重排序和泛化性微調等策略來增強 Vega-MT 系統的魯棒性和譯文的信達雅水平。

但是，在訓練大模型時，我們依然會面臨諸多困難。在此之前對于一般任務一張 GPU 即可勝任模型的訓練，但是在大模型場景，需要多節點協同才能完成最終的訓練任務，這也對現有的 GPU 計算集群提出了新的挑戰。以知名的 GPT-3 為例，它使用了 45 TB 的訓練數據，最高達到 1750 億的模型參數量；在采用混合精度時，它共占用約 2.8 TB 的顯存，需要超過 35 張 GPU 才能將模型全部放下。

因此，訓練的挑戰集中在單卡算力和多卡多節點通信上，訓練也會跨越多個節點。此時數據傳輸、任務調度、并行優化、資源利用率等方面就顯得尤為重要。

應用方案

在構建 AI 基礎架構時，我們會面臨來自方方面面的挑戰，例如計算資源，網絡，存儲，乃至最上層用來進行任務調度的軟件等，而這些方面并非獨立，需要綜合考量。

京東探索研究院采用的 NVIDIA DGX SuperPOD 就是一套綜合完整的高性能解決方案。SuperPOD AI 集群，基于 DGX 服務器，HDR InfiniBand 200G 網卡以及 NVIDIA Quantum QM8790 交換機，計算網絡和儲存網絡隔離，既保證了最優的算力，又可以確保節點和卡之間的高效互聯，最大程度提升分布式訓練的效率。

算力層面，單節點算力高達 2.4 PFLOPS，采用單節點進行訓練，BERT 只需 17 分鐘即可完成訓練，Mask R-CNN 38 分鐘，RetinaNet 也只需 83 分鐘。而針對于 Transformer XL Base，181 分鐘即可完成訓練。同時，依托于多實例 GPU (Multi-Instance GPU, MIG) 技術，可以將 GPU 分割成多個實例，每個實例都有其獨立的顯存，緩存以及流式多處理器，彼此之間故障隔離。這樣一來可以進一步提升 GPU 的利用率，同時滿足需要不同算力的任務。

網絡層面，通過 Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) 技術，可以讓聚合計算從 CPU 遷移到交換機網絡，消除了節點之間多次發送數據的需求，大幅縮減了到達聚合節點的網絡流量，從而顯著減少執行 MPI 的時間，同時讓通信效率與節點數目不再直接相關，進一步保障了算力的可擴展性。除此之外，將 CPU 從處理通信的任務中解脫出來，讓寶貴的 CPU 資源聚焦于計算上，進一步提升了整體集群處理任務的能力。

儲存層面，在訓練模型時，往往需要從存儲中多次讀取訓練數據，而讀取操作的耗時也會在一定程度上影響訓練的時效。DGX SuperPOD 使用了高性能的多層級儲存架構，以平衡性能、容量和成本的需求。而借助于 GPU Direct RDMA 技術，可以繞過 CPU 直接連通 GPU，儲存和網絡設備，從而進行高速低時延的數據傳輸。

軟件層面，為了構建集群以及保障集群的持久化平穩運行，上層的監控調度管理軟件不可或缺。Base Command Manager 是一個集群管理系統，它可以對集群進行一系列的配置，管理用戶訪問，資源監控，記錄日志，以及通過 slurm 進行作業任務調度。同時，NGC 上涵蓋了大量 AI，HPC，數據科學相關的資源，用戶可以輕松獲取到功能強大的軟件，容器鏡像，以及各類預訓練模型。

與此同時，探索研究院團隊對集群進行了 7x24 小時的監控管理，確保訓練任務長時間的平穩運行。監控資源利用率，也確保了每個節點上的計算資源能被充分地利用了起來。在完善的調度監控工作和 DGX SuperPOD 高可靠性的質量保證下，所有被使用到的訓練節點在模型訓練的 20 天 (2 周 pre-training + 5天 fine-tuning) 內，沒有出現任何問題，訓練最終圓滿完成。

使用效果及影響

Vega-MT 被成功應用在了京東國慶期間對外發布的 Omni-Force AIGC 小程序中。小程序的應用是用戶輸入文字生成對應的圖片，在 Vega-MT 的加持下，小程序可以支持多個語種的文字輸入，譬如中文、英文、西班牙文等等。

京東探索研究院表示: “通過 NVIDIA DGX SuperPOD 的加持，京東探索研究院可以快速迭代模型，幫助高準確度的模型快速落地，進一步提升用戶體驗，降低成本，提升效果和業務收益。此次 NVIDIA DGX SuperPOD 支持我們能在 WMT 比賽中拔得頭籌，不僅提高了企業的知名度，也助力了京東成為更受用戶信賴的品牌”。

值得一提的是，除了 Vega-MT 外，NVIDIA DGX SuperPOD 也在探索研究院的其他大模型訓練上發揮了不可或缺的作用，譬如 ViTAE，織女模型等。

點擊“閱讀原文”或掃描下方海報二維碼，即可免費注冊 GTC 23，切莫錯過這場 AI 和元宇宙時代的技術大會！

原文標題：NVIDIA DGX SuperPOD 助力京東探索研究院 Vega-MT 模型大賽奪魁！

文章出處：【微信公眾號：NVIDIA英偉達】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴