AIGC,即人工智能生成內容,是指利用人工智能技術,根據用戶的需求和意圖,自動生成文本、圖片、音視頻等多種形式的內容。AIGC具有高效、多樣、創新的特點,可以應用于娛樂、教育、營銷、新聞等多個領域,為用戶帶來更豐富的體驗和價值。
比如我這篇文章的配圖,就是用AIGC生成的。我在bing圖像創建器里面輸入提示詞“一個聊天機器人在給病人做心理咨詢”,就可以得到上面的圖片。
而大模型是指具備海量參數和復雜結構的人工智能模型。例如,GPT-3是一種具有1750億個參數的大型語言模型,具備驚人的語言理解和生成能力。大模型的訓練需要大量的計算資源和數據,但其帶來的創作能力和自動化程度是前所未有的。大模型可以通過輸入一小段文本,自動生成連貫、有邏輯的文章,為創作者提供了強大的輔助工具。
有大模型加持的AIGC隨著chatGPT的火爆,已經是路人皆知了。很多企業也紛紛加入了這個領域的競爭。對大模型AIGC的支持也成了很多先進企業選擇云基礎設施重點考慮的因素。 而騰訊云作為國內領先的云計算服務商,為AIGC大模型場景提供了全面的解決方案。今天,我們就從存儲的視角,看看騰訊云存儲給AIGC場景提供哪些針對性的解決方案。

崔劍作為騰訊云存儲產品團隊的一員,他從騰訊云存儲團隊的角度,向大家介紹他們對AIGC場景的思考以及目前的工作和未來計劃,旨在幫助國內從事AIGC相關業務的公司更好地進行大模型訓練。
大規模訓練對于開發者朋友們來說并不陌生。崔劍解釋說,大規模訓練可以分為兩個階段:訓練和推理。在訓練階段,AIGC團隊從各個網站收集各種待訓練素材,包括他們自己生成的素材。這些初始素材經過初步清洗和標注后,被送入GPU進行訓練。訓練完成后,訓練結果被輸入到神經網絡中,使得大模型訓練的神經網絡變得越來越智能。
在訓練場景中,數據存儲起著至關重要的作用。為了滿足不斷增長的數據規模和多樣化的數據類型,訓練場景對存儲系統有以下關鍵要求:
1. 數據湖統一存儲:訓練場景需要一個統一的數據湖存儲系統,能夠容納不同來源和格式的數據。這種統一存儲能夠將數據集中管理,提供一致的接口和訪問方式,簡化數據管理和查詢操作,從而提高效率。
2. 自由流動的數據:在訓練場景中,數據的自由流動至關重要。存儲系統應該提供高效的數據交換和傳輸機制,以便數據在不同業務之間自由流動。這樣可以實現數據共享和協作,避免數據孤島的問題,并且促進跨部門和跨團隊的合作。
3. 高吞吐、低時延:由于訓練場景通常涉及大規模數據處理和計算,存儲系統需要具備高吞吐和低時延的能力。高吞吐能夠支持快速讀寫操作,提供穩定的數據傳輸速度。低時延可以減少數據訪問的延遲,確保訓練任務能夠及時響應和迭代。
綜上所述,訓練場景對存儲系統有著數據湖統一存儲、自由流動的數據、高吞吐和低時延的關鍵要求。滿足這些要求的存儲系統能夠支持高效的數據管理、協作和處理,為訓練場景的成功實施提供可靠的基礎。
基于這些訓練結果,業務團隊將其進行推理和應用的封裝。推理和應用包括文本生成、圖像生成、視頻生成等功能。終端用戶可以提供輸入,例如一段文本,希望生成相應的圖像或古詩。輸入進入推理系統后,系統基于神經網絡的積累,通過服務端返回結果。在這個過程中,還有一些重要的旁路模塊,如內容審核。
由于所有內容都由機器生成,可能涉及政治、色情或恐怖主義等問題,各大平臺都投入了大量資源進行內容審核。 推理的結果可以應用于2B或2C的平臺。對于2B平臺,需要對推理結果進行管理,可能還需要下游內容管理的解決方案。崔劍表示,騰訊云在AIGC領域投入了大量精力,提供全面的解決方案,包括計算、存儲、網絡、容器和云原生等調度能力。時間有限,崔劍僅從存儲團隊的角度介紹了他們在騰訊云AIGC解決方案中的貢獻。

AIGC的核心要素包括內容生成、內容審核和內容智理三個維度。內容生成是指利用深度學習模型,根據用戶輸入的關鍵詞、語句或圖片等信息,生成相應的內容。內容審核是指對生成的內容進行合法性、合規性和質量的檢測和篩選,防止出現違規、低俗或不符合用戶期望的內容。
內容智理是指對生成的內容進行結構化、分類、標簽化等處理,提高內容的可檢索性和可利用性。 騰訊云作為國內領先的云計算服務商,為AIGC場景提供了全面的解決方案,其中和云存儲相關的包括:
- COS對象存儲數據湖:基于騰訊云對象存儲服務,為AIGC提供海量、安全、低成本的數據存儲空間,支持多地域部署和跨地域復制,滿足AIGC數據管理的需求。
- GooseFS數據加速:基于騰訊云自研的分布式緩存系統,為AIGC提供高性能緩存服務,利用GPU節點的內存或NVME SSD作為緩存介質,實現數據與計算節點的就近訪問,提升數據訪問效率。
- 數據萬象內容審核:基于騰訊云數據萬象服務,為AIGC提供全方位的內容審核服務,包括文本審核、圖片審核、音視頻審核等,利用業界領先的語義模型和海量的違規詞庫,快速識別出生成內容中包含的違規、低俗或不合適的信息。
- 企業網盤數據智理:基于騰訊云企業網盤產品,為AIGC提供高效的數據智理服務,包括對用戶的數據集、Fine-tuned models、生成的內容進行結構化、分類、標簽化等處理,并支持多模態檢索和跨平臺分享。 通過以上解決方案,騰訊云為AIGC場景提供了端到端的支持,幫助開發者們快速搭建AIGC應用平臺,實現內容生成革命。
西瓜哥做存儲很多年,采用對象存儲做數據湖,采用分布式文件系統做大模型訓練加速,這都是業界的常見做法,我也很容易想到,相信其他公有云廠商也是如此。但是,騰訊云引入了成熟的數據萬象內容審核平臺,幫助用戶解決AIGC的合規問題,尤其有價值。并且最后通過網盤對AIGC的產出內容進行高效的管理,讓AIGC的價值充分釋放,我覺得也是騰訊云的一個亮點。
針對騰訊云存儲的AIGC解決方案,有四個重要的步驟。
Step.1

第一步是數據集下載和預處理,在這一關鍵步驟中,國內的公司與國外的ChatGPT存在一些差距。崔劍認為,這種差距主要體現在兩個方面。首先是算法方面,雖然ChatGPT在早期的幾個版本中公開了一些算法,但新版本的算法并沒有公開,因為他們認為這是他們的核心競爭力之一。
其次是標注能力,這可能是大家容易忽視的因素。質量好壞與標注的準確性有關。對于經典的AI標注來說,例如對一張圖片進行標注,判斷其中是否有人物或風景,如果是人物,還要判斷性別和膚色等,這些問題可以通過簡單的問答進行標注。
然而,在大規模模型訓練中,對結果的精確度要求非常高,且復雜度較高,因此標注環節的技術要求較高。問題不在于是否能正確回答問題,而在于提問者如何提出問題,問題的質量將決定標注數據的水平,而標注數據集的質量則決定了最終產物的質量,這也是一個核心競爭力所在。
由于國內公司在這方面的積累時間相對較短,可能會根據自身的技術積累進行標注,也會從國外網站獲取數據。國外有一些網站提供了這樣的服務,用戶可以免費下載已標注好的數據作為訓練素材集的冷啟動。 對于從國外網站獲取數據這個場景,國內許多公司的第一步是拉取數據,但面臨一個問題,即如何快速將這些數據拉回國內。
在這方面,騰訊云提供了多種解決方案,包括離線、在線、存量和增量數據等。針對這個場景,騰訊云的解決方案是MSP騰訊數據遷移平臺。它是一個PaaS平臺,通過可視化操作,可以將數據從國外網站快速拉取到國內存儲桶中,這就完成了第一步的操作。
Step.2

第二步就是訓練了。在訓練過程中,存儲在配合GPU的使用上起到了重要的作用。由于GPU的稀缺性和珍貴性,我們必須在存儲方面做好數據拉取加速,以更好地提供數據給GPU,避免浪費時間,并盡快將數據傳輸給GPU,從而減少GPU等待時間,提高GPU算力的利用率,從而節省成本。為了實現這個目標,我們需要分析整個訓練流程是怎樣的。
整個訓練流程中,涉及到大量的IO操作。原始素材由用戶匯集在云上對象存儲的存儲桶中,上面架設了GPU。訓練模型這一方面會進行高帶寬的數據拉取,將待訓練的素材批量拉取到本地,方便對待訓練素材進行向量化壓縮和本地模型運算。
然而,在進行本地模型算力過程中,會不斷進行Checkpoint的回寫操作。不同廠家的回寫策略不同,但都會周期性回寫一次Checkpoint大文件,這對存儲側的寫帶寬和讀帶寬都有較高的要求。 為了滿足用戶對帶寬和IO性能的高要求,騰訊云提供了一套方案。
COS對象存儲匯集用戶全量素材的產品,決定要拉取哪些數據可能會根據每日或每周的待訓練任務而變化。推薦用戶通過預熱的方式將數據Load到GooseFS中。GooseFS是部署在用戶計算端或近計算端的本地文件系統,它有效利用了GPU本地的SSD資源。
在常見的GPU卡中,都搭載了三到四塊SSD盤,我們可以充分利用多臺GPU本地SSD盤,將其構建成一個統一的GooseFS文件系統。一旦數據拉到本地GooseFS后,用戶即可以在GPU本地進行更高效的讀寫訓練操作。 在這個方案中,騰訊云希望持續打磨GooseFS這一層的能力,充分發揮方案價值。
如果用戶直接從COS讀取數據可能會在性能上存在一些瓶頸,從絕對的數據角度來看,各家COS服務商根據單個邏輯桶提供OPS,一個單桶可能只能提供3萬OPS,也只能提供2GB的帶寬,即15-16 GBps。這顯然是不夠的。然而,如果能事先一次性將數據Load到GPU本地,運行本地的GooseFS,釋放本地SSD的帶寬,那么GooseFS可以達到TB級的帶寬,能夠充分滿足GPU本地訓練框架的性能要求。
整體的訓練加速比可以提升數十倍。此外,除了GooseFS層面的加速,如果需要的話,還可以進行AZ級服務端加速,進一步提升整個訓練過程的效率。
Step.3

第三步就是推理了。在推理階段,騰訊云已經走得比較快,開始考慮商業化或產品化的封裝,這一步非常重要。騰訊云提供了一套內容審核方案,整個流程相對簡單易懂。用戶首先在AIGC產品客戶端輸入一個要執行的任務,但是用戶輸入的文字需要經過審核,因為有些描述可能不合規范。
因此,騰訊云先進行審核,檢查用戶輸入的內容是否有問題。如果沒有問題,數據就會傳遞到模型大腦這一層。模型大腦根據輸入進行分析和理解,并指導用戶獲取他們想要的結果。然后,在第③步中,產出的結果會再次發送到騰訊云內容審核的服務端進行審核。一旦審核通過,結果將在第④步和第⑤步之后再次返回給用戶。 崔劍介紹,騰訊云存儲數據萬象產品提供了數據處理和數據審核服務,已經成功運營多年。在審核能力和精準度方面,騰訊云在行業內處于領先地位。
Step.4

最后就是結果的管理了。在最后一步中,推理產物的使用者可能是個人,也可能是一家公司。對于后者,可能需要涉及到下游流程。根據業務需求,公司通過接口請求獲取推理產物,并需要進行管理。這個產物可能會作為知識庫的一部分存儲在公司內部,也可能需要在公司內部進行分發或匯總。為了解決這個問題,騰訊云存儲團隊提供了企業網盤作為最終閉環的解決方案。企業網盤是一種常見的SaaS辦公軟件,可以提供文件多人協作、一對多、多對多、多對一的文件分發和共享功能,同時支持移動辦公。
在上面的四個部分,比較觸動俺西瓜哥的其實是第一步。因為我知道,數據的收集和整理是最難的,也是工作量最大的。騰訊云能夠提供很多自動化的數據遷移和標注工具,這個對用戶的幫助是真的很大。俗話說,數據管理匯-存-算-管-用,匯是第一步。騰訊云的AIGC解決方案也覆蓋了所有的這些標準動作,形成了閉環。
除了在AIGC產品中提供閉環解決方案外,騰訊云存儲還在底層不斷升級引擎,降低成本、提高性能和可靠性。在產品能力方面,騰訊云存儲擁有三個核心產品。首先是公有云存儲COS,其次是私有云存儲TStor,該產品將存儲技術集成到一體機中,可供企業進行線下部署。最后是智能存儲的核心產品數據萬象CI,它可以幫助用戶處理存儲在云上的數據,例如為圖片打水印、進行轉碼和審核等智能存儲功能。

騰訊云存儲團隊孵化了許多PaaS和SaaS級存儲產品,包括數據湖存儲GooseFS、企業網盤和視圖計算等。這些產品旨在滿足不同行業和使用場景的需求。 騰訊云存儲團隊與騰訊云的各個行業團隊緊密合作,為各個行業提供定制的解決方案,以滿足其特定需求。不論您所在的行業是哪個,騰訊云存儲團隊都致力于提供優質的服務。
根據崔劍老師的介紹,我們了解到騰訊云存儲針對AIGC的解決方案主要包括以下幾個方面:
-在數據集的下載和預處理階段,提供MSP數據遷移平臺,幫助用戶快速將標注好的數據遷移到云上對象存儲桶。
- 在大模型訓練階段,提供 GooseFS 分布式文件系統,利用 GPU 本地的 SSD 資源,加速數據的拉取和緩存,提高 GPU 算力利用率,實現訓練加速。
- 在推理階段,提供數據萬象的內容審核服務,對用戶輸入和推理產物進行質量把控,防止涉政、涉黃、涉恐等問題。
- 在推理產物管理階段,提供企業網盤服務,支持文件多人協作、共享、分發和移動辦公,幫助用戶管理和利用推理產物。
西瓜哥的簡單解讀就到這里了,我們看到,騰訊云存儲團隊為 AIGC 領域提供了一套全面、高效、智能的解決方案,從數據集的下載和預處理,到大模型訓練,再到推理和推理產物管理,展現了強大的技術實力和創新能力。這些解決方案不僅降低了用戶的成本和時間,提高了用戶的效率和質量,還為用戶帶來了更多的可能性和價值。
審核編輯:劉清
-
機器人
+關注
關注
213文章
31079瀏覽量
222235 -
人工智能
+關注
關注
1817文章
50098瀏覽量
265355 -
ChatGPT
+關注
關注
31文章
1598瀏覽量
10266 -
AIGC
+關注
關注
1文章
391瀏覽量
3227
原文標題:揭秘騰訊云存儲針對AIGC大模型業務的應對之道
文章出處:【微信號:High-end_Storage,微信公眾號:高端存儲知識】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
騰訊云存儲針對AIGC大模型業務的應對之道
評論