繞開CPU和內(nèi)存,你瀏覽的內(nèi)容或來自SSD的推薦
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運(yùn)行代碼,以及嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動(dòng)上,Esperanto公開了自己AI-SSD的概念模型。
個(gè)性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽歌和瀏覽社交網(wǎng)絡(luò)時(shí),一部分內(nèi)容來自于我們已經(jīng)關(guān)注的用戶,但絕大多數(shù)來自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確程度很大程度決定了軟件的用戶體驗(yàn),也是如今互聯(lián)網(wǎng)經(jīng)濟(jì)系統(tǒng)的命脈。但這類推薦也往往是服務(wù)器上消耗最大的AI處理負(fù)載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務(wù)器上的成本。

DLRM深度學(xué)習(xí)推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當(dāng)下推薦系統(tǒng)中關(guān)鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實(shí)現(xiàn)分類特征的處理。在這個(gè)過程中,嵌入表存儲(chǔ)在DRAM中,而CPU對(duì)嵌入表進(jìn)行操作,這就對(duì)內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團(tuán)和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個(gè)GPU或多個(gè)服務(wù)器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來的成本提升也是巨大的。
根據(jù)Meta給出的說法,在Facebook社交網(wǎng)站的個(gè)性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達(dá)到百萬行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個(gè)神經(jīng)推薦模型中所有嵌入表甚至需要TB級(jí)別以上的空間。比如Meta旗下的Instagram已經(jīng)在開發(fā)10TB的推薦模型,而百度的廣告排名模型也達(dá)到了10TB。這種級(jí)別的容量需求對(duì)硬盤來說或許足夠,但對(duì)于內(nèi)存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲(chǔ)解決方案,目前傳統(tǒng)的SSD雖然可以毫不費(fèi)力地存儲(chǔ)下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發(fā)出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內(nèi)部會(huì)有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲(chǔ)在SSD里,CPU負(fù)責(zé)所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD內(nèi)部的ET-SoC-1負(fù)責(zé)嵌入表的查詢和交互運(yùn)算。此外由于選擇了這種存內(nèi)計(jì)算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接交給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測(cè)試結(jié)果 / Esperanto
測(cè)試環(huán)節(jié)中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進(jìn)行對(duì)比。在不同的模型配置下,AI-SSD實(shí)現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線性提升。
要知道在這次測(cè)試中,Esperanto最多只用到了四個(gè)子節(jié)點(diǎn)(Minion Shire),每個(gè)節(jié)點(diǎn)只有32個(gè)核心。而一整個(gè)ET-SoC-1有34個(gè)子節(jié)點(diǎn)1088顆核心,如果所有計(jì)算單元全部用于SSD的話,提升幅度將達(dá)到數(shù)百倍以上,十分適合數(shù)據(jù)中心級(jí)別的SSD產(chǎn)品。而ET-SoC-1的擴(kuò)展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計(jì)算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會(huì)利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應(yīng)用可能并不會(huì)直接選擇更換SSD的方式,如此一來,也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學(xué)院和Meta的研究院為DLRM提出了一種張量訓(xùn)練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個(gè)小矩陣相乘的方式進(jìn)行壓縮,進(jìn)一步降低嵌入表的大小,不過這多出來的計(jì)算是肯定躲不掉的額外消耗,好在其評(píng)估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測(cè)試訓(xùn)練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運(yùn)算則反映到了訓(xùn)練時(shí)間上,分別增加了14.3%和13.9%。因此在實(shí)際使用中,必須對(duì)內(nèi)存容量、模型精度和訓(xùn)練時(shí)間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開了。存儲(chǔ)市場(chǎng)正在迅速與計(jì)算市場(chǎng)發(fā)生重疊,像三星、西數(shù)和希捷等存儲(chǔ)廠商紛紛開始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
相信不少人都還記得今年AI芯片公司Esperanto發(fā)布的千核RISC-V處理器ET-SoC-1,隨著這款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上運(yùn)行代碼,以及嘗試新的應(yīng)用方向,其中之一就是AI-SSD。在近期舉辦的三星Foundry活動(dòng)上,Esperanto公開了自己AI-SSD的概念模型。
個(gè)性化推薦系統(tǒng)的挑戰(zhàn)
在我們刷短視頻、聽歌和瀏覽社交網(wǎng)絡(luò)時(shí),一部分內(nèi)容來自于我們已經(jīng)關(guān)注的用戶,但絕大多數(shù)來自于推薦系統(tǒng)的推送。推薦系統(tǒng)的準(zhǔn)確程度很大程度決定了軟件的用戶體驗(yàn),也是如今互聯(lián)網(wǎng)經(jīng)濟(jì)系統(tǒng)的命脈。但這類推薦也往往是服務(wù)器上消耗最大的AI處理負(fù)載,優(yōu)化推薦系統(tǒng)可以提高推薦系統(tǒng)的速度,減少在服務(wù)器上的成本。

DLRM深度學(xué)習(xí)推薦模型 / Meta
談到推薦系統(tǒng)就不得不談到嵌入,嵌入是當(dāng)下推薦系統(tǒng)中關(guān)鍵的組成部分。盡管每家都有著不同的推薦模型,但或多或少都是采用查找嵌入表的方法來實(shí)現(xiàn)分類特征的處理。在這個(gè)過程中,嵌入表存儲(chǔ)在DRAM中,而CPU對(duì)嵌入表進(jìn)行操作,這就對(duì)內(nèi)存帶寬和內(nèi)存容量提出了雙重挑戰(zhàn)。
在內(nèi)存帶寬上,像美團(tuán)和騰訊等廠商紛紛采用多GPU加速的方式,充分利用GPU的帶寬,但這種方式依然需要多個(gè)GPU或多個(gè)服務(wù)器的支持才能解決容量問題。固然廠商也可以選擇像HBM這種大帶寬的內(nèi)存方案,但帶來的成本提升也是巨大的。
根據(jù)Meta給出的說法,在Facebook社交網(wǎng)站的個(gè)性化推薦系統(tǒng)中,大規(guī)模的嵌入表可達(dá)到百萬行以上,導(dǎo)致推薦模型的大小達(dá)到10GB左右,一個(gè)神經(jīng)推薦模型中所有嵌入表甚至需要TB級(jí)別以上的空間。比如Meta旗下的Instagram已經(jīng)在開發(fā)10TB的推薦模型,而百度的廣告排名模型也達(dá)到了10TB。這種級(jí)別的容量需求對(duì)硬盤來說或許足夠,但對(duì)于內(nèi)存來說過于奢侈了。
因此為了解決容量問題,不少人也提出了SSD的存儲(chǔ)解決方案,目前傳統(tǒng)的SSD雖然可以毫不費(fèi)力地存儲(chǔ)下大規(guī)模推薦系統(tǒng),但讀取延遲和帶寬都要更差一籌,從而顯著降低推理的性能。
專為推薦而生的SSD
Esperanto與三星合作開發(fā)出了一種AI-SSD的概念模型,來研究將所有嵌入表處理全部移到SSD內(nèi)部會(huì)有怎么樣的影響,從而省去推薦系統(tǒng)中經(jīng)過CPU和DRAM的環(huán)節(jié)。三星展示了使用Esperanto的ET-SoC-1芯片與其PM9A3 SSD結(jié)合的成果。
在AI-SSD中,所有嵌入表都被存儲(chǔ)在SSD里,CPU負(fù)責(zé)所有的用戶數(shù)據(jù)輸入和深度神經(jīng)網(wǎng)絡(luò),而SSD內(nèi)部的ET-SoC-1負(fù)責(zé)嵌入表的查詢和交互運(yùn)算。此外由于選擇了這種存內(nèi)計(jì)算的方式,最小化了PCIe鏈路上的數(shù)據(jù)傳輸,降低了讀寫的高延遲,最終的分類數(shù)據(jù)直接交給CPU生成推薦結(jié)果。

AI-SSD帶寬性能測(cè)試結(jié)果 / Esperanto
測(cè)試環(huán)節(jié)中,Esperanto選用了Meta的開源推薦模型DLRM,將AI-SSD與傳統(tǒng)的CPU-SSD方式進(jìn)行對(duì)比。在不同的模型配置下,AI-SSD實(shí)現(xiàn)了10到100倍的讀取帶寬提升,而且?guī)掚S著使用核心數(shù)的上升還能繼續(xù)線性提升。
要知道在這次測(cè)試中,Esperanto最多只用到了四個(gè)子節(jié)點(diǎn)(Minion Shire),每個(gè)節(jié)點(diǎn)只有32個(gè)核心。而一整個(gè)ET-SoC-1有34個(gè)子節(jié)點(diǎn)1088顆核心,如果所有計(jì)算單元全部用于SSD的話,提升幅度將達(dá)到數(shù)百倍以上,十分適合數(shù)據(jù)中心級(jí)別的SSD產(chǎn)品。而ET-SoC-1的擴(kuò)展性也可以讓它縮減核心數(shù),用于一些邊緣端的推薦系統(tǒng)。
拿計(jì)算換空間
不過即便用上了AI-SSD,這也是一種增加硬件成本的路線,除了不差錢的大公司會(huì)利用這種產(chǎn)品外,一些小的互聯(lián)網(wǎng)應(yīng)用可能并不會(huì)直接選擇更換SSD的方式,如此一來,也就只有繼續(xù)優(yōu)化推薦模型一途。
佐治亞理工學(xué)院和Meta的研究院為DLRM提出了一種張量訓(xùn)練壓縮的方式,名為TT-Rec。該方法通過將嵌入表分為多個(gè)小矩陣相乘的方式進(jìn)行壓縮,進(jìn)一步降低嵌入表的大小,不過這多出來的計(jì)算是肯定躲不掉的額外消耗,好在其評(píng)估結(jié)果足夠優(yōu)秀。
在Kaggle和Terabyte數(shù)據(jù)集的測(cè)試訓(xùn)練下,TT-Rec分別將數(shù)據(jù)從2.16GB和12.57GB壓縮至18.36MB和0.11GB,整體的大小壓縮均在百倍以上,甚至可以做到幾乎沒有精度損失。而多出來的運(yùn)算則反映到了訓(xùn)練時(shí)間上,分別增加了14.3%和13.9%。因此在實(shí)際使用中,必須對(duì)內(nèi)存容量、模型精度和訓(xùn)練時(shí)間做出一定的取舍。
小結(jié)
盡管從推薦系統(tǒng)配置的角度來說,仍有不少可選的解決方案,但存算一體方面的研究已經(jīng)全面鋪開了。存儲(chǔ)市場(chǎng)正在迅速與計(jì)算市場(chǎng)發(fā)生重疊,像三星、西數(shù)和希捷等存儲(chǔ)廠商紛紛開始了這塊的布局,傳統(tǒng)的馮諾依曼架構(gòu)也將被近數(shù)據(jù)處理替代。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。
舉報(bào)投訴
-
SSD
+關(guān)注
關(guān)注
21文章
3111瀏覽量
122222 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301381
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
熱點(diǎn)推薦
MangoTree Halo Ultra「全新PXI」,標(biāo)配自動(dòng)糾錯(cuò)內(nèi)存#
內(nèi)存
芒果樹數(shù)字
發(fā)布于 :2026年03月06日 15:59:34
每塊GPU對(duì)應(yīng)16TB SSD,英偉達(dá)KV緩存虹吸高性能TLC SSD
HBM4 內(nèi)存量產(chǎn)交付之外,三星存儲(chǔ)器業(yè)務(wù)計(jì)劃全方面積極應(yīng)對(duì)AI相關(guān)需求,重點(diǎn)提升面向 AI KV(鍵值)存儲(chǔ)需求的高性能 TLC SSD的銷售
DRAM緩存真有那么重要嗎?天碩工業(yè)級(jí)SSD固態(tài)硬盤實(shí)測(cè)告訴你答案!
在國(guó)產(chǎn)固態(tài)硬盤推薦榜中,推薦五花八門,很多用戶疑惑DRAM 緩存 SSD 值得買嗎?不同方案的國(guó)產(chǎn) SSD 性能對(duì)比差距到底有多大??jī)r(jià)格差距不小,性能也各說各的好。要弄清兩者的實(shí)際差異,先看國(guó)產(chǎn) SSD 性能對(duì)比 —— 尤其是緩
兆芯近期適配重點(diǎn)產(chǎn)品推薦
近期,兆芯繼續(xù)攜手多家生態(tài)伙伴推進(jìn)ZX86自主生態(tài)建設(shè),圍繞開勝KH-50000、開先KX-7000等處理器平臺(tái),完成了包括SSD、內(nèi)存、IP廣播系統(tǒng)服務(wù)器、智慧工廠軟件、醫(yī)學(xué)影像存儲(chǔ)與傳輸軟件等產(chǎn)品的兼容適配認(rèn)證,進(jìn)一步為行業(yè)
C語言嵌入式系統(tǒng)編程注意事項(xiàng)-內(nèi)存操作
址單元內(nèi)容的讀寫能力。以指針直接操作內(nèi)存多發(fā)生在如下幾種情況:
(1) 某I/O芯片被定位在CPU的存儲(chǔ)空間而非I/O空間,而且寄存器對(duì)應(yīng)于某特定地址;
(2) 兩個(gè)CPU之間以雙端口
發(fā)表于 01-04 07:31
不同位數(shù)的CPU的變量所占的內(nèi)存
不同位數(shù)的CPU(單片機(jī))的變量所占的內(nèi)存也不盡相同,具體如下表所示。
8位16位32位64位
char1 Byte1 Byte1 Byte1 Byte
short int2 Byte2 Byte2
發(fā)表于 12-09 07:30
兆芯CPU近期適配重點(diǎn)產(chǎn)品推薦
近期,兆芯攜手多家產(chǎn)業(yè)伙伴,圍繞開勝KH-50000、開先KX-7000等高性能自主CPU產(chǎn)品推進(jìn)應(yīng)用生態(tài)建設(shè),完成了人工智能算力卡、SSD、內(nèi)存、NAS存儲(chǔ)、數(shù)據(jù)庫管理系統(tǒng)、綜合安全
專為內(nèi)容創(chuàng)作、AI應(yīng)用打造的存儲(chǔ)設(shè)備來了!閃迪媒體分享會(huì)展示新款SN5100 SSD
近期在閃迪召開的媒體分享會(huì)上,閃迪為參會(huì)媒體介紹了其最新產(chǎn)品WD Blue SN5100 NVMe SSD的主要技術(shù)特性。這是一款專門為內(nèi)容創(chuàng)作者和各種生產(chǎn)力套件的專業(yè)人士打造的一款產(chǎn)品,因?yàn)楫?dāng)前
代理供應(yīng)希力微 SJ MOS管 SSF60R190TH、SSD60R280FTR、SSD60R360METR、SSD65R900FTR
、快速充電器、LED電源、通訊和服務(wù)器電源、電動(dòng)車充電樁等系統(tǒng)。
SSQ55R115FTH、SSD55R280FTR、SSD100R1K4METR、SSF100R1K4METH、SSD
發(fā)表于 08-27 09:49
兆芯CPU近期適配軟硬件產(chǎn)品推薦
近日,兆芯持續(xù)攜手多家產(chǎn)業(yè)合作伙伴,圍繞開先KX-7000、開勝KH-40000等兆芯高性能自主處理器加強(qiáng)軟硬件生態(tài)建設(shè),共同完成包括AI加速卡、內(nèi)存、企業(yè)級(jí)SSD、服務(wù)器操作系統(tǒng)、安全操作系統(tǒng)
兆芯CPU近期適配重點(diǎn)產(chǎn)品介紹
近期,兆芯繼續(xù)與多家產(chǎn)業(yè)伙伴通力合作,圍繞開先KX-7000、開勝KH-40000等高性能自主CPU產(chǎn)品持續(xù)推進(jìn)應(yīng)用生態(tài)建設(shè),完成了國(guó)產(chǎn)SSD、內(nèi)存、Web中間件、分布式數(shù)據(jù)庫、大數(shù)據(jù)
工業(yè)級(jí)SSD為什么需要掉電保護(hù)?天碩工業(yè)級(jí)SSD固態(tài)硬盤告訴你答案
在工業(yè)控制和嵌入式系統(tǒng)中,電源波動(dòng)或突發(fā)斷電是常見問題。這種情況下,如果SSD正在寫入數(shù)據(jù),很可能導(dǎo)致數(shù)據(jù)丟失或文件系統(tǒng)損壞,甚至引發(fā)系統(tǒng)宕機(jī)。天碩(TOPSSD)G40工業(yè)級(jí)固態(tài)硬盤,針對(duì)這一
服務(wù)器CPU架構(gòu)解析,從x86到ARM:一文吃透其分類及對(duì)應(yīng)品牌優(yōu)勢(shì)
為什么你的服務(wù)器總在"喘氣"?CPU架構(gòu)才是關(guān)鍵。大家可能都遇到過這樣的情況:公司剛采購的服務(wù)器用了不到半年,跑個(gè)數(shù)據(jù)庫就像老牛拉車,加內(nèi)存換硬盤都沒用。這時(shí)候老工程師會(huì)叼著煙告訴你:
RISC-V五級(jí)流水線CPU設(shè)計(jì)
本文實(shí)現(xiàn)的CPU是一個(gè)五級(jí)流水線的精簡(jiǎn)版CPU(也叫PCPU,即pipeline),包括IF(取指令)、ID(解碼)、EX(執(zhí)行)、MEM(內(nèi)存操作)、WB(回寫)。
樹莓派新玩法:基于WiFi的CPU溫度與內(nèi)存使用Web-GUI監(jiān)控系統(tǒng)
WiFi網(wǎng)絡(luò)遠(yuǎn)程監(jiān)控RaspberryPi的CPU溫度。該GUI可通過瀏覽器直接訪問,操作便捷且用戶友好。NiceGUI是一個(gè)優(yōu)秀的Python庫,能大幅簡(jiǎn)化交互式現(xiàn)代
繞開CPU和內(nèi)存,你瀏覽的內(nèi)容或來自SSD的推薦
評(píng)論