從2001年龍芯項目組成立,到2008年龍芯公司誕生,20多年來,龍芯CPU從未像今年這樣揚眉吐氣。最近剛發布的龍芯3A6000處理器總體性能與Intel公司2020年上市的第10代酷睿四核處理器相當,形象地詮釋了厚積薄發的含義。龍芯3A6000是4核8線程的規格,對標的是酷睿i3-10100,至于第10代酷睿那些核心更多的型號,龍芯也很快會推出后續產品去與它們對應。
在酷睿14代已經推出的當下,第10代酷睿i3已經不怎么起眼,不過我們不能只盯著差距而忽略龍芯的進取。以往的龍芯看似前路茫茫,現在的它已能拽住市場主流CPU的尾巴,那么未來有朝一日,龍芯CPU是否能與Intel、AMD以及ARM的產品齊頭并進呢?
龍芯CPU從零開始的追逐
從1971年到2001年,這30年間是集成電路和CPU技術高速發展的階段,CPU的集成度和運算速度呈指數級增長,平均18個月翻一番,30年間CPU性能提高了百萬倍。不過因為CPU性能越來越高,所以性能翻倍的時間間隔也越來越長。從2001年到2010年這10年,Intel CPU的單核性能上漲了十多倍,但從2011年至2020年這10年,同級別Intel CPU的單核性能只翻了一倍。
然而,Intel在這20年之所以能保持著單核性能近乎線性增長,說明它其實是游刃有余的。果然,在AMD給予Intel“驚嚇”之后,Intel第12代酷睿的性能突飛猛進。雖然從第12代酷睿到酷睿14代,Intel又恢復了以往的節奏,但誰也不知道它是否留有余力。

2001年國內的CPU設計技術已經與世界脫節20~30年,龍芯CPU在這一年才開始孕育,準備挑戰已經成長了30年的x86 CPU產品。
由于科技水平的整體提升,龍芯不需要從Intel 4004的水平做起,但第一款龍芯CPU——龍芯一號的性能極低,只與Pentium(586)同級別,這些古老的CPU甚至運行不了SPEC_CPU_2006。龍芯一號的性能不到同年Intel Pentium4的1/20,假如用SPEC_CPU_2006對它進行測試,按比例算成績就只有0.2分左右。因此,縱然開始幾年龍芯CPU性能每年都翻倍,但增長的絕對性能卻不到Intel的零頭。測試成績從0.2翻倍到0.4,再翻倍到0.8……還要再翻兩次才能抵消Intel每年上漲的兩三分。如此推斷,在接下來的十來年里,龍芯與Intel的絕對性能差距會越來越遠,這令最有信心的人也逐漸迷茫。
2006年之后,因為某些原因,所有與“芯”有關的項目都備受質疑,在各種壓力下,龍芯項目組開始急于求成。單核性能不足那就做多核,提升通用處理性能太難那就去提升專用性能,于是接連誕生幾款看似強大的產品:4核的龍芯3A1000、浮點運算速度達到192GFlops的8核龍芯3B1500。龍芯3B1500的浮點性能甚至超過了Inte酷睿i7-980E,可是絕大多數應用軟件需要的是單核通用處理性能,再強大的浮點性能也無法讓各種軟件都流暢運行。從2006年到2015年的10年間,龍芯CPU的單核通用處理性能提升緩慢,哪怕是特定行業的客戶也視如敝屣,龍芯的發展境況雪上加霜。
2011年龍芯重整旗鼓,確立了桌面CPU的研究重心——提高CPU單核通用性能,并決定在每GHz的性能達到主流水平之前,最多只做4核CPU,放棄當時的眾核路線。因為資金不足,龍芯開始“減員增效”,又分散了大量的精力設計能賺錢的嵌入式CPU,以維持桌面CPU的研發,新核心的研發進度被拖慢。龍芯3A2000仿真測試完成后還要等著籌集流片的錢,直到2015年才正式降生。在間斷等待期間,龍芯的研發者也沒有閑著,比如同步多線程、二進制翻譯、動態調壓調頻等都誕生于這個階段,只是要經濟狀況好轉、技術條件成熟之后才能把科研成果變成商用產品。
龍芯3A2000改用國內40nm工藝,主頻從龍芯3B1500的1.5GHz降回1.0GHz。但因為每GHz的性能提高到了2.5倍,所以單核性能達到Intel Pentium 4的水平。4核的龍芯3A2000整體性能是Pentium 4的3倍以上,應對普通的辦公已經沒有問題。
龍芯3A2000幫助龍芯實現了扭虧為盈,2017年發布的龍芯3A3000則是更換工藝提高頻率的版本,龍芯已經啟用了Tick-tock的策略:一代升級工藝,一代升級核心。2019年發布的龍芯3A4000使用了新設計的核心,每GHz的性能接近AMD的Zen核心。龍芯3A4000成為龍芯與Intel性能差距的轉折點,它們的距離不再是越來越遠。接下來,龍芯3A5000升級工藝,龍芯3A6000再次升級核心,通過提升單核心性能,低頻打高頻,一舉把與Intel的差距縮短到了3年。從龍芯CPU的進步趨勢,我們看到了龍芯追趕Intel產品性能的希望。
龍芯敢與群雄逐鹿的底氣
如果只看CPU性能是否接近,前段時間有家公司找Intel做的OEM產品當然更加接近Intel CPU的性能,但是它不可能用Intel的產品去戰勝Intel。同樣,依賴國外授權的架構和IP核也不可能戰勝規則的制定者。
只要CPU中使用的標準、專利、關鍵技術等都由國外掌握,或者依附國外的軟硬件生態,就隨時可能失去競爭的資格。如果不想前進的路上突然出現深淵,就必須提升自主的層次。龍芯是極少數主動提升自主層次的國產CPU企業之一,少有CPU企業像龍芯這樣不但自己設計指令集、建立自主軟硬件生態,還力求所有IP核都自主設計。

龍芯二十多年時間累積了上百個IP核,覆蓋了CPU功能的方方面面。這里我們列出了龍芯自主設計的重要IP核,不含已經淘汰的版本。其中用在龍芯3A6000中的全部IP核全都是自主設計。自主的LoongArch指令集和自主設計的IP核,使龍芯設計CPU時完全不必依賴外部授權,有底氣面對一切封鎖和制裁。
很多人認為,因為龍芯不能安裝Windows,就注定會讓用戶望而卻步。這只是一種弱者思維,任何強大的生態都有弱小的時候,并且龍芯LoongArch指令集的軟件生態已經越過了拐點,正在從“能用”向“好用”轉變。對于Linux桌面和服務器用戶來說,使用龍芯電腦與其他電腦幾乎沒有區別,各種開發工具、開源軟件、國產常用軟件等都有龍芯版本,Linux軟件生態的成熟度已經與x86和ARM是同等水平。
很多Linux用戶會用Wine運行Windows軟件以彌補Linux的不足,在基于龍芯LoongArch架構的電腦上也同樣可以這么做。盡管Wine和Windows軟件都只支持x86架構,但龍芯憑借自己的二進制翻譯技術能把它們一并翻譯。龍芯的目標是基于龍芯的基礎軟硬件發展自己的應用,但作為過渡手段,還要通過二進制翻譯技術兼容部分x86和ARM的應用。龍芯還用二進制翻譯徹底解決了困擾Linux幾十年的打印機兼容性問題,在龍芯電腦上可以直接使用Windows版的打印機驅動,即使x86版的Linux也沒有這樣的能力。龍芯這種一邊發展自主軟件生態,一邊“收割”Windows應用軟件的策略,使龍芯電腦可用的軟件迅速豐富,基本掃清了桌面和服務器的應用障礙。
而在嵌入式行業,龍芯的策略是把CPU架構及核心授權出去。龍芯是國內唯一向其他組織授權通用CPU指令集和IP核的公司。放眼當世,這樣的企業不外乎Intel、AMD和ARM,現在還加上龍芯。而依賴Intel、AMD和ARM授權的CPU廠商,則不具有二次授權的資格,甚至不能對指令集和IP核自主升級。
LoongArch指令集授權正在籌劃,龍芯設計的CPU核心已經向10家公司和組織開放授權,其中雄立科技已經完成了產品化,成為第二家設計和銷售LoongArch架構CPU的企業。
優秀的CPU一定有優秀的核心
我們知道CPU是由很多功能模塊組成的,大到CPU核心,小到溫度傳感器,各種功能模塊都統稱為IP核。大多數CPU企業都是購買CPU核心、內存控制器、PCIe控制器等各種IP核再集成為CPU。國內只有龍芯因為積累了完備的IP庫,可以不依賴外來IP核。
CPU核心是CPU最重要的組成部分,龍芯二十多年來大約設計了14款CPU核心。龍芯的CPU分為三個大系列,命名為1、2、3系列或小、中、大系列。龍芯CPU核心的型號也極其直白,比如LA132的第一個數字“1”表示單發射,后來的“32”表示32位,LA664就是6發射64位。
1號系列CPU核心用于低功耗嵌入式設備,其中LA132的用途及每GHz的性能對標ARM Cortex-M4。龍芯的合作企業有用它做SSD主控的、做智能門鎖的、做機器人玩具的,還有做跑步機的……
2號系列CPU核心面向的是中高端工控、網絡設備、輕薄筆記本等。其中LA264對標的是ARM Cortex-A55,LA364對標ARM Cortex-A75(實際上LA364每GHz的性能與Cortex-A76更接近)。Cortex-A76工藝下限是TSMC的16nm,推薦7nm,而LA364僅要求28nm工藝即可,使用12nm工藝時就能達到與使用7nm工藝的A76相近的頻率,更符合國內實際情況,也更有性價比。

3號系列CPU核心用于桌面和服務器CPU,龍芯3A6000的核心就是LA664,上一代龍芯3A5000的核心是LA464。龍芯3號系列的核心經過了4次大版本迭代,LA664架構的龍芯3A6000的總體性能已經演進到了第10代酷睿的水平,在一些測試軟件下,單核心同頻性能甚至能達到挑戰14代酷睿的水平。
4個代次的CPU核心不只是規格的變化,更重要的是每一個大版本都進行過多次改進,通過優化微結構實現性能提升。設計CPU微結構的細節是CPU企業的秘密,除了微結構本身,還有設計思路、優缺點、多種方案的抉擇過程……只有高質量的設計鍛煉,才能融會貫通。如果以為買到一套CPU核心源碼就能具有同等的能力,那就像學渣以為拿到學霸的試卷就能并列第一那樣滑稽。

因為LoongArch的設計比MIPS優秀得多,所以在GS464V被LA464替換之后,每GHz的性能提高了10%左右,這是人們始料未及的。不過LA464畢竟不是專為LoongArch設計,很多指令是通過微操作進行兼容處理,因此基于LA664的龍芯3A6000這款CPU才是LoongArch更合適的載體。LA664的規格提高了很多,微結構也有重大突破,每GHz的性能提高了60%以上。特別是增加了超線程支持后,多核性能提高一倍以上。

每GHz性能挑戰14代酷睿還不是LA664的極限,據說以LA664為基礎優化出的后續版本預計每GHz的性能還能提高20%~30%。如果能實現,這將是超過Intel處理器,挑戰蘋果處理器的水平。蘋果也是走的高IPC路線,擅長低頻打高頻,只不過龍芯受限于工藝,主頻比蘋果的CPU更低。在工藝落后,也沒有充足的資金多次流片改進物理設計的現狀下,提高每GHz的性能是最具性價比的路線,也是難度最高的路線。
龍芯CPU未來的產品規劃
龍芯除了升級CPU核心,其他IP核也在持續改進和增加。比如3A6000中的內存控制器雖然和3A5000的規格一樣,都是DDR4 3200,但實際訪存性能提高了一倍,比第10代酷睿訪問相同規格內存的速度還快,和第13代酷睿差不多,還突破了片間高速互聯技術。龍芯第二代自研圖形處理器核LG200支持圖形加速、科學計算加速、AI加速,并支持OpenGL 4.0和OpenCL 3.0的API。龍芯的這些年進步所形成的技術儲備,使它能更加自由、快速地組合產品,比如最下面一張圖片中沒有實物照片的就是規劃中的新款CPU。
桌面CPU已經有了3A6000,服務器CPU 3C6000就成了龍芯的當務之急。3C6000集成16個LA664核心,因為單核性能及多核效率提高,通用處理器性能將達到上一代3C5000的兩倍,訪存性能也是3C5000的兩倍。有了3C6000之后,就能使用龍鏈技術(Loongson Coherent Link)把多顆龍芯3C6000整合成核心更多的產品,如32核的3D6000、64核的3E6000。
同樣比較迫切的是2K3000,它集成了8個LA364核心以及GPGPU。2K3000的單核性能與上一代桌面CPU 3A5000相當,8核并行性能應該非常接近4核8線程的3A6000。2K3000的低功耗、全集成設計使它比3A5000和3A6000更適合輕薄型筆記本電腦。

最后的7000系列是升級工藝、提高頻率的一代。龍芯7000系列能把頻率提到多少尚未可知,但以龍芯低頻戰高頻的能力,料想能與Intel酷睿14代以及同代的服務器CPU匹敵吧!
Intel、AMD和ARM都是技術強大、積累深厚的CPU企業,又是各個領域的先行者,龍芯的市場競爭能力遠不如它們。雖然龍芯無論在多么拮據的時候都在堅持研發更好的產品,但市場對龍芯CPU的接受程度又有誰說得準呢?不過市場歸市場,技術歸技術,只要龍芯CPU性能可與Intel這些巨頭齊頭并進,就是自主CPU的大勝利。
審核編輯:劉清
-
處理器
+關注
關注
68文章
20255瀏覽量
252299 -
cpu
+關注
關注
68文章
11279瀏覽量
224995 -
龍芯
+關注
關注
3文章
429瀏覽量
32776
原文標題:榮獲國產科技特別貢獻金獎:龍芯CPU的性能升級之路
文章出處:【微信號:Microcomputer,微信公眾號:Microcomputer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
歷史首次!AMD服務器CPU市占率達50%
龍芯首款 GPU 芯片 9A1000 對標 AMD RX 550,下一代 9A2000 圖形性能達 4 倍
龍芯中科助力華龍PLC產品亮相2025上海工博會
龍芯CPU與銀河麒麟操作系統V11深度適配
迅為電子亮相2025龍芯產品發布暨用戶大會
打破X86/ARM壟斷!國產全新自主架構CPU處理器重磅發布
誠邁科技出席龍芯產品發布暨用戶大會,推出基于龍芯3C6000的信創服務器
迅龍軟件受邀參加2025龍芯產品發布暨用戶大會,發布基于龍芯2K3000的OrangePi Nova
超聲波清洗機是否能夠清洗特殊材料或器件?
龍芯2K3000 | 重塑工控嵌入式處理器性能邊界
龍芯CPU是否能與Intel、AMD以及ARM的產品齊頭并進呢?
評論