国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊云存儲針對AIGC大模型業務的應對之道

高端存儲知識 ? 來源:高端存儲知識 ? 2023-06-08 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AIGC,即人工智能生成內容,是指利用人工智能技術,根據用戶的需求和意圖,自動生成文本、圖片、音視頻等多種形式的內容。AIGC具有高效、多樣、創新的特點,可以應用于娛樂、教育、營銷、新聞等多個領域,為用戶帶來更豐富的體驗和價值。

比如我這篇文章的配圖,就是用AIGC生成的。我在bing圖像創建器里面輸入提示詞“一個聊天機器人在給病人做心理咨詢”,就可以得到上面的圖片。

而大模型是指具備海量參數和復雜結構的人工智能模型。例如,GPT-3是一種具有1750億個參數的大型語言模型,具備驚人的語言理解和生成能力。大模型的訓練需要大量的計算資源和數據,但其帶來的創作能力和自動化程度是前所未有的。大模型可以通過輸入一小段文本,自動生成連貫、有邏輯的文章,為創作者提供了強大的輔助工具。

有大模型加持的AIGC隨著chatGPT的火爆,已經是路人皆知了。很多企業也紛紛加入了這個領域的競爭。對大模型AIGC的支持也成了很多先進企業選擇云基礎設施重點考慮的因素。 而騰訊云作為國內領先的云計算服務商,為AIGC大模型場景提供了全面的解決方案。今天,我們就從存儲的視角,看看騰訊云存儲給AIGC場景提供哪些針對性的解決方案。

011e933a-0483-11ee-90ce-dac502259ad0.png

崔劍作為騰訊云存儲產品團隊的一員,他從騰訊云存儲團隊的角度,向大家介紹他們對AIGC場景的思考以及目前的工作和未來計劃,旨在幫助國內從事AIGC相關業務的公司更好地進行大模型訓練。

大規模訓練對于開發者朋友們來說并不陌生。崔劍解釋說,大規模訓練可以分為兩個階段:訓練和推理。在訓練階段,AIGC團隊從各個網站收集各種待訓練素材,包括他們自己生成的素材。這些初始素材經過初步清洗和標注后,被送入GPU進行訓練。訓練完成后,訓練結果被輸入到神經網絡中,使得大模型訓練的神經網絡變得越來越智能。

在訓練場景中,數據存儲起著至關重要的作用。為了滿足不斷增長的數據規模和多樣化的數據類型,訓練場景對存儲系統有以下關鍵要求:

1. 數據湖統一存儲:訓練場景需要一個統一的數據湖存儲系統,能夠容納不同來源和格式的數據。這種統一存儲能夠將數據集中管理,提供一致的接口和訪問方式,簡化數據管理和查詢操作,從而提高效率。

2. 自由流動的數據:在訓練場景中,數據的自由流動至關重要。存儲系統應該提供高效的數據交換和傳輸機制,以便數據在不同業務之間自由流動。這樣可以實現數據共享和協作,避免數據孤島的問題,并且促進跨部門和跨團隊的合作。

3. 高吞吐、低時延:由于訓練場景通常涉及大規模數據處理和計算,存儲系統需要具備高吞吐和低時延的能力。高吞吐能夠支持快速讀寫操作,提供穩定的數據傳輸速度。低時延可以減少數據訪問的延遲,確保訓練任務能夠及時響應和迭代。

綜上所述,訓練場景對存儲系統有著數據湖統一存儲、自由流動的數據、高吞吐和低時延的關鍵要求。滿足這些要求的存儲系統能夠支持高效的數據管理、協作和處理,為訓練場景的成功實施提供可靠的基礎。

基于這些訓練結果,業務團隊將其進行推理和應用的封裝。推理和應用包括文本生成、圖像生成、視頻生成等功能。終端用戶可以提供輸入,例如一段文本,希望生成相應的圖像或古詩。輸入進入推理系統后,系統基于神經網絡的積累,通過服務端返回結果。在這個過程中,還有一些重要的旁路模塊,如內容審核。

由于所有內容都由機器生成,可能涉及政治、色情或恐怖主義等問題,各大平臺都投入了大量資源進行內容審核。 推理的結果可以應用于2B或2C的平臺。對于2B平臺,需要對推理結果進行管理,可能還需要下游內容管理的解決方案。崔劍表示,騰訊云在AIGC領域投入了大量精力,提供全面的解決方案,包括計算、存儲、網絡、容器和云原生等調度能力。時間有限,崔劍僅從存儲團隊的角度介紹了他們在騰訊云AIGC解決方案中的貢獻。

018ae062-0483-11ee-90ce-dac502259ad0.png

AIGC的核心要素包括內容生成、內容審核和內容智理三個維度。內容生成是指利用深度學習模型,根據用戶輸入的關鍵詞、語句或圖片等信息,生成相應的內容。內容審核是指對生成的內容進行合法性、合規性和質量的檢測和篩選,防止出現違規、低俗或不符合用戶期望的內容。

內容智理是指對生成的內容進行結構化、分類、標簽化等處理,提高內容的可檢索性和可利用性。 騰訊云作為國內領先的云計算服務商,為AIGC場景提供了全面的解決方案,其中和云存儲相關的包括:

- COS對象存儲數據湖:基于騰訊云對象存儲服務,為AIGC提供海量、安全、低成本的數據存儲空間,支持多地域部署和跨地域復制,滿足AIGC數據管理的需求。

- GooseFS數據加速:基于騰訊云自研的分布式緩存系統,為AIGC提供高性能緩存服務,利用GPU節點的內存或NVME SSD作為緩存介質,實現數據與計算節點的就近訪問,提升數據訪問效率。

- 數據萬象內容審核:基于騰訊云數據萬象服務,為AIGC提供全方位的內容審核服務,包括文本審核、圖片審核、音視頻審核等,利用業界領先的語義模型和海量的違規詞庫,快速識別出生成內容中包含的違規、低俗或不合適的信息。

- 企業網盤數據智理:基于騰訊云企業網盤產品,為AIGC提供高效的數據智理服務,包括對用戶的數據集、Fine-tuned models、生成的內容進行結構化、分類、標簽化等處理,并支持多模態檢索和跨平臺分享。 通過以上解決方案,騰訊云為AIGC場景提供了端到端的支持,幫助開發者們快速搭建AIGC應用平臺,實現內容生成革命。

西瓜哥做存儲很多年,采用對象存儲做數據湖,采用分布式文件系統做大模型訓練加速,這都是業界的常見做法,我也很容易想到,相信其他公有云廠商也是如此。但是,騰訊云引入了成熟的數據萬象內容審核平臺,幫助用戶解決AIGC的合規問題,尤其有價值。并且最后通過網盤對AIGC的產出內容進行高效的管理,讓AIGC的價值充分釋放,我覺得也是騰訊云的一個亮點。

針對騰訊云存儲的AIGC解決方案,有四個重要的步驟。

Step.1

01e91d26-0483-11ee-90ce-dac502259ad0.png

第一步是數據集下載和預處理,在這一關鍵步驟中,國內的公司與國外的ChatGPT存在一些差距。崔劍認為,這種差距主要體現在兩個方面。首先是算法方面,雖然ChatGPT在早期的幾個版本中公開了一些算法,但新版本的算法并沒有公開,因為他們認為這是他們的核心競爭力之一。

其次是標注能力,這可能是大家容易忽視的因素。質量好壞與標注的準確性有關。對于經典的AI標注來說,例如對一張圖片進行標注,判斷其中是否有人物或風景,如果是人物,還要判斷性別和膚色等,這些問題可以通過簡單的問答進行標注。

然而,在大規模模型訓練中,對結果的精確度要求非常高,且復雜度較高,因此標注環節的技術要求較高。問題不在于是否能正確回答問題,而在于提問者如何提出問題,問題的質量將決定標注數據的水平,而標注數據集的質量則決定了最終產物的質量,這也是一個核心競爭力所在。

由于國內公司在這方面的積累時間相對較短,可能會根據自身的技術積累進行標注,也會從國外網站獲取數據。國外有一些網站提供了這樣的服務,用戶可以免費下載已標注好的數據作為訓練素材集的冷啟動。 對于從國外網站獲取數據這個場景,國內許多公司的第一步是拉取數據,但面臨一個問題,即如何快速將這些數據拉回國內。

在這方面,騰訊云提供了多種解決方案,包括離線、在線、存量和增量數據等。針對這個場景,騰訊云的解決方案是MSP騰訊數據遷移平臺。它是一個PaaS平臺,通過可視化操作,可以將數據從國外網站快速拉取到國內存儲桶中,這就完成了第一步的操作。

Step.2

025fb904-0483-11ee-90ce-dac502259ad0.png

第二步就是訓練了。在訓練過程中,存儲在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍貴性,我們必須在存儲方面做好數據拉取加速,以更好地提供數據給GPU,避免浪費時間,并盡快將數據傳輸給GPU,從而減少GPU等待時間,提高GPU算力的利用率,從而節省成本。為了實現這個目標,我們需要分析整個訓練流程是怎樣的。

整個訓練流程中,涉及到大量的IO操作。原始素材由用戶匯集在云上對象存儲的存儲桶中,上面架設了GPU。訓練模型這一方面會進行高帶寬的數據拉取,將待訓練的素材批量拉取到本地,方便對待訓練素材進行向量化壓縮和本地模型運算。

然而,在進行本地模型算力過程中,會不斷進行Checkpoint的回寫操作。不同廠家的回寫策略不同,但都會周期性回寫一次Checkpoint大文件,這對存儲側的寫帶寬和讀帶寬都有較高的要求。 為了滿足用戶對帶寬和IO性能的高要求,騰訊云提供了一套方案。

COS對象存儲匯集用戶全量素材的產品,決定要拉取哪些數據可能會根據每日或每周的待訓練任務而變化。推薦用戶通過預熱的方式將數據Load到GooseFS中。GooseFS是部署在用戶計算端或近計算端的本地文件系統,它有效利用了GPU本地的SSD資源。

在常見的GPU卡中,都搭載了三到四塊SSD盤,我們可以充分利用多臺GPU本地SSD盤,將其構建成一個統一的GooseFS文件系統。一旦數據拉到本地GooseFS后,用戶即可以在GPU本地進行更高效的讀寫訓練操作。 在這個方案中,騰訊云希望持續打磨GooseFS這一層的能力,充分發揮方案價值。

如果用戶直接從COS讀取數據可能會在性能上存在一些瓶頸,從絕對的數據角度來看,各家COS服務商根據單個邏輯桶提供OPS,一個單桶可能只能提供3萬OPS,也只能提供2GB的帶寬,即15-16 GBps。這顯然是不夠的。然而,如果能事先一次性將數據Load到GPU本地,運行本地的GooseFS,釋放本地SSD的帶寬,那么GooseFS可以達到TB級的帶寬,能夠充分滿足GPU本地訓練框架的性能要求。

整體的訓練加速比可以提升數十倍。此外,除了GooseFS層面的加速,如果需要的話,還可以進行AZ級服務端加速,進一步提升整個訓練過程的效率。

Step.3

028a0286-0483-11ee-90ce-dac502259ad0.png

第三步就是推理了。在推理階段,騰訊云已經走得比較快,開始考慮商業化或產品化的封裝,這一步非常重要。騰訊云提供了一套內容審核方案,整個流程相對簡單易懂。用戶首先在AIGC產品客戶端輸入一個要執行的任務,但是用戶輸入的文字需要經過審核,因為有些描述可能不合規范。

因此,騰訊云先進行審核,檢查用戶輸入的內容是否有問題。如果沒有問題,數據就會傳遞到模型大腦這一層。模型大腦根據輸入進行分析和理解,并指導用戶獲取他們想要的結果。然后,在第③步中,產出的結果會再次發送到騰訊云內容審核的服務端進行審核。一旦審核通過,結果將在第④步和第⑤步之后再次返回給用戶。 崔劍介紹,騰訊云存儲數據萬象產品提供了數據處理和數據審核服務,已經成功運營多年。在審核能力和精準度方面,騰訊云在行業內處于領先地位。

Step.4

02bb77da-0483-11ee-90ce-dac502259ad0.png

最后就是結果的管理了。在最后一步中,推理產物的使用者可能是個人,也可能是一家公司。對于后者,可能需要涉及到下游流程。根據業務需求,公司通過接口請求獲取推理產物,并需要進行管理。這個產物可能會作為知識庫的一部分存儲在公司內部,也可能需要在公司內部進行分發或匯總。為了解決這個問題,騰訊云存儲團隊提供了企業網盤作為最終閉環的解決方案。企業網盤是一種常見的SaaS辦公軟件,可以提供文件多人協作、一對多、多對多、多對一的文件分發和共享功能,同時支持移動辦公。

在上面的四個部分,比較觸動俺西瓜哥的其實是第一步。因為我知道,數據的收集和整理是最難的,也是工作量最大的。騰訊云能夠提供很多自動化的數據遷移和標注工具,這個對用戶的幫助是真的很大。俗話說,數據管理匯-存-算-管-用,匯是第一步。騰訊云的AIGC解決方案也覆蓋了所有的這些標準動作,形成了閉環。

除了在AIGC產品中提供閉環解決方案外,騰訊云存儲還在底層不斷升級引擎,降低成本、提高性能和可靠性。在產品能力方面,騰訊云存儲擁有三個核心產品。首先是公有云存儲COS,其次是私有云存儲TStor,該產品將存儲技術集成到一體機中,可供企業進行線下部署。最后是智能存儲的核心產品數據萬象CI,它可以幫助用戶處理存儲在云上的數據,例如為圖片打水印、進行轉碼和審核等智能存儲功能。

032dedd8-0483-11ee-90ce-dac502259ad0.png

騰訊云存儲團隊孵化了許多PaaS和SaaS級存儲產品,包括數據湖存儲GooseFS、企業網盤和視圖計算等。這些產品旨在滿足不同行業和使用場景的需求。 騰訊云存儲團隊與騰訊云的各個行業團隊緊密合作,為各個行業提供定制的解決方案,以滿足其特定需求。不論您所在的行業是哪個,騰訊云存儲團隊都致力于提供優質的服務。

根據崔劍老師的介紹,我們了解到騰訊云存儲針對AIGC的解決方案主要包括以下幾個方面:

-在數據集的下載和預處理階段,提供MSP數據遷移平臺,幫助用戶快速將標注好的數據遷移到云上對象存儲桶。

- 在大模型訓練階段,提供 GooseFS 分布式文件系統,利用 GPU 本地的 SSD 資源,加速數據的拉取和緩存,提高 GPU 算力利用率,實現訓練加速。

- 在推理階段,提供數據萬象的內容審核服務,對用戶輸入和推理產物進行質量把控,防止涉政、涉黃、涉恐等問題。

- 在推理產物管理階段,提供企業網盤服務,支持文件多人協作、共享、分發和移動辦公,幫助用戶管理和利用推理產物。

西瓜哥的簡單解讀就到這里了,我們看到,騰訊云存儲團隊為 AIGC 領域提供了一套全面、高效、智能的解決方案,從數據集的下載和預處理,到大模型訓練,再到推理和推理產物管理,展現了強大的技術實力和創新能力。這些解決方案不僅降低了用戶的成本和時間,提高了用戶的效率和質量,還為用戶帶來了更多的可能性和價值。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31079

    瀏覽量

    222235
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265355
  • ChatGPT
    +關注

    關注

    31

    文章

    1598

    瀏覽量

    10266
  • AIGC
    +關注

    關注

    1

    文章

    391

    瀏覽量

    3227

原文標題:揭秘騰訊云存儲針對AIGC大模型業務的應對之道

文章出處:【微信號:High-end_Storage,微信公眾號:高端存儲知識】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    時代安防企業的應對之道

    存儲系統是一套復雜的系統,系統的軟件組件和硬件組件數量眾多,這些軟硬件的組織和管理方式必然是非常繁瑣的。但是這些復雜是對存儲系統自身而已,對于用戶而言
    發表于 08-11 09:52 ?938次閱讀

    AIGC入門及鴻蒙入門

    人工智能生成內容(AIGC)和鴻蒙系統是當前科技領域的兩個熱門話題。以下是對它們的入門指南: AIGC入門 1. 基礎概念: AIGC,全稱Artificial Intelligence
    發表于 01-13 10:32

    視頻監控業務方案解析

    摘要: 阿里針對安防監控服務在傳統IT架構下面臨的上述問題,基于阿里存儲服務,提供視頻監控解決方案。從2015年推出視頻監控存儲與播放解
    發表于 01-03 11:24

    【推薦體驗】騰訊自然語言處理

    自然語言處理技術的功勞。可以說,只要有大量文本數據的應用場景,幾乎都涉及到NLP技術,也都可以使用相關自然語言處理產品的接口來做智能分析。比如:社交媒體上的用戶言論,可以使用騰訊NLP的情感分析接口,來做
    發表于 10-09 15:28

    eFuse如何應對應用過流保護的挑戰?

    如今,新的復雜業務模型正采用基于的平臺,通過省去內部數據中心,以提高效率,減少資本支出(CAPEX)和運營支出(OPEX)。采用存儲和基
    發表于 10-29 07:10

    科技報道:率先邁入“10微秒”時代,騰訊存儲跑出加速度 精選資料分享

    供應商。這一事實讓人們驚訝地發現,原來存儲成為企業級市場事實標準的時代真的來臨了。存儲作為一項新興技術,在過去很長一段時間內,難免被拿來與傳統
    發表于 07-12 06:16

    三大產品+三維生態,騰訊存儲新藍圖來了 精選資料分享

    騰訊存儲,正在形成面向未來的藍圖。在5月10日騰訊存儲產品戰略發布會上,
    發表于 07-12 07:35

    AT指令對接騰訊的使用方法

    文章系列:【騰訊物聯開發平臺筆記1】AT指令對接騰訊基本使用;【騰訊物聯開發平臺筆記 2】
    發表于 11-26 06:23

    【合作伙伴】騰訊--產業智變,啟未來

    騰訊騰訊騰訊集團傾力打造的計算品牌,面向全世界各個國家和地區的政府機構、企業組織和個人開
    發表于 12-12 10:06

    Fibocom 公有騰訊 技術資料

    Fibocom 公有騰訊 技術資料內容如下:1、騰訊連接教程2、騰訊連連小程序使用教程3
    發表于 01-05 12:00

    騰訊存儲產品全線調價,旨在推計算到各行各業

    1月12日,騰訊宣布中國地區的存儲產品全線調價,最高降幅30%,新老客戶均可享受騰訊本輪調價利好。調價產品包括
    發表于 01-12 17:03 ?1352次閱讀

    騰訊成了與微信并駕齊驅業務

    騰訊成了與微信并駕齊驅業務騰訊新成立了與智慧產業事業群,SNG社交網絡事業群旗下的騰訊
    發表于 10-01 09:34 ?686次閱讀

    彈性、高效,騰訊大數據混合存儲之道

    大數據混合存儲將IDC大數據和公有大數據連接為混合,通過存算分離(計算與存儲分離),實現計算彈性伸縮;通過數據全生命周期自動沉降實現
    的頭像 發表于 07-02 11:33 ?3396次閱讀
    彈性、高效,<b class='flag-5'>騰訊</b><b class='flag-5'>云</b>大數據混合<b class='flag-5'>云</b><b class='flag-5'>存儲</b><b class='flag-5'>之道</b>

    aigc軟件需要什么算力?

    模型所需的算力 2. 圖像識別與處理所需的算力 3. 模型預測所需的算力 4. 并行計算的
    的頭像 發表于 08-21 17:16 ?1397次閱讀

    騰訊混元Large模型TI平臺全新上線

    近日,騰訊混元團隊最新推出的MoE模型“混元Large”已正式開源上線。這一里程碑式的進展標志著騰訊在大模型技術領域取得了新的突破。 與此同時,騰訊
    的頭像 發表于 11-08 11:03 ?1236次閱讀