科技界被一個“快”字裹挾很久了。更高的生產效率和毫不妥協的性能,成為任何一家科技公司的追求。
隨著邁入以數據為中心的時代,我們看到的不僅是數據量的爆發,更是有數據形態的巨大變化:從傳統的文本、圖形數據,到現在的視頻、音頻、社交等非結構化數據,未來還有包括聯網汽車數據、神經網絡數據、基因數據等更多形態的數據。
這種海量數據的多樣性,首先對計算能力提出了巨大的挑戰,由此帶來了數據處理方式和計算架構的延伸。未來十年我們將看到比過去五十年中多得多的架構。
與此同時,軟件的重要性被提到了前所未有的高度。英特爾曾提出,對于全新硬件架構的每一個數量級的性能提升潛力,軟件能帶來兩個數量級的性能提升。
為了簡化編程流程、提升效率,英特爾于去年12月宣布推出oneAPI項目,并將于今年第四季度發布開發者測試版本。日前,<電子發燒友>在英特爾的溝通會上,率先了解了oneAPI的技術細節和戰略意義。
oneAPI:跨架構、跨廠商,向全行業開放
在解決計算問題時,過去幾代產品的答案幾乎一直是晶體管密度,并且摩爾定律發揮主導作用。但隨著制程節點發展速度相較于過去幾十年呈現出減緩的態勢,現代計算又提出更多更新的需求,需要結合晶體管、架構研究、連接性提升、更快速的內存系統和軟件等眾多因素,共同推動創新。“oneAPI既是英特爾的一種產品,同時又是一種行業規范”, 英特爾架構、圖形與軟件部副總裁兼計算性能與開發者產品部門總經理Bill Savage介紹,“oneAPI是從軟件層面來簡化和統一跨SVMS架構的創新。它可以簡化并且統一跨不同架構、跨不同廠商之間的編程,是一個鼓勵社區和行業支持的一種開放、標準的解決方案。”
英特爾架構、圖形與軟件部副總裁兼計算性能與開發者產品部門總經理Bill Savage
英特爾產品覆蓋的計算架構包括標量(Scalar)、矢量(Vector)、矩陣(Matrix)和空間(Spatial),分別主要應用于CPU、GPU、AI加速器和FPGA產品。英特爾指出,在接下來五到十年中最重要的現代工作負載,就是這種標量、矢量、矩陣和空間架構的組合,英特爾稱之為SVMS架構。為什么底層接口如此重要?Bill Savage表示,數百萬的開發者在最上層創造越來越多的應用,他們所使用的大量中間件以及框架來自數萬的中間件開發者。oneAPI在最接近硬件的底層,對整個軟件堆棧會產生更大的影響,針對硬件使用統一接口,對軟件開發者來講這也是一個很好的價值主張。oneAPI所能發揮的價值在于——通過跨CPU、GPU、AI加速器和FPGA產品架構,統一并簡化編程,被廣泛的生態系統采用,為開發者帶來更高的生產效率和性能。
全新編程語言DPC++專門針對多元化架構
在一個多元化的架構中進行編程的話,很可能需要多種不同工具以及不同語言。這就意味著在軟件開發過程中需要多支團隊,他們各自要學習很多不同專業的技能,這顯然不是一種最高效的軟件開發方式。在oneAPI項目中,英特爾攜手行業開發了一種叫做Data Parallel C++(DPC++)的全新語言,以支持實現橫跨SVMS架構的數據并行編程。這是一種基于標準的開放式跨行業語言,可替代單一架構專有語言。
為什么需要一種全新的語言呢?畢竟這個世界上已經有這么多語言了。英特爾架構、圖形與軟件部副總裁兼編譯器與語言部門總經理Alice Chan指出,現有的眾多語言各有局限所在:例如眾所周知的C++,它雖然是可移植的,而且底層性能非常好,但是本身缺乏了一些并行語言的特征,很難很好地用于并行架構;MATLAB更多集中在頂層,如果想在底層得到很好的性能較難;英偉達的CUDA能夠進行并行架構的編程,也可以把負載轉移到加速器,但是它只能用在英偉達自己的硬件上;還有其他語言例如OpenCL也能實現并行編程,但是圍繞它的社群和整體行業的活躍度并不高。
英特爾架構、圖形與軟件部副總裁兼編譯器與語言部門總經理Alice Chan
那么,英特爾如何確保DPC++能夠如預期一樣發揮出最佳性能?70年代Cray就做到了矢量化,90年代的時候超算也做到了單程序多數據(SPMD),2006年英偉達推出CUDA語言的時候就提出了細粒度的SPMD。現在,DPC++語言將上述三種技術思路融會貫通,使用底層虛擬機按照有序的結構進行編譯。據了解,英特爾開始這個項目已經有一段時間了,目前試驗證明性能至少是優于或者等同于之前的這些技術和方式的,DPC++能夠跨結構實現所需的特性和抽象。高性能庫如何推動人工智能的發展?
人工智能的發展進一步推動了對算力的渴求,硬件架構的世界已經發生了極大的顛覆,英特爾自身就有SVMS架構,華為、阿里、百度以及非常多的AI初創公司各有自己的芯片戰略。對此,英特爾架構、圖形與軟件部首席工程師Eric Lin表示,沒有軟件芯片無法使用,需要大量的開發者去將它表達為用戶真正所需。這其中需要非常深厚的經驗,英特爾希望將硬件能力抽象出來,把最重要的算法融于oneAPI,使開發者不再需要針對硬件做開發,更容易發揮出硬件的所有潛力。這是英特爾提供計算庫的根本原因。
英特爾架構、圖形與軟件部首席工程師Eric Lin
有了這個計算庫之后,能夠提供給更多的框架開發者所使用,例如TensorFlow、 PaddlePaddle、MXNet等等。由于框架主要是給數據科學家所使用,他們往往缺少硬件知識,英特爾的策略是將計算庫集成到框架中,再提供給數百萬數據科學家、算法工程師,達到為開發者屏蔽硬件復雜性的目的。由此看來,一個計算庫服務數萬個框架開發者,服務數百萬甚至更多的數據科學家,打通了從硬件到應用的道路。
oneAPI集成的計算庫堪稱業內“豪華配置“,包括快速、使用廣泛的數學函數庫MKL、使用經典機器學習算法的英特爾數據分析加速庫DAAL,以及面向深度神經網絡的英特爾數學核心函數庫MKL-DNN等。
OpenVINO——oneAPI在深度學習方面的“小現實”
對于深度學習來說,數據分析過程基本包括四步:第一,獲取數據;第二,建立數學模型,并且用這些數據去訓練;第三,根據部署場景有針對性地優化模型;第四是推理,真正地讓各種各樣的開發者,把他們的服務、產品推向用戶。如何讓這個工作流程的所有開發者、參與者更有效率,是英特爾當前的重點之一。去年8月,英特爾面向中國市場推出了專注于加速深度學習的OpenVINO工具包,能夠幫助企業在邊緣側快速實現高性能計算機視覺與深度學習的開發。作為為客戶解決問題的優化推理引擎,OpenVINO補充了深度學習框架,支持應用程序開發者以統一接口跨SVMS架構進行開發。據Eric介紹:“OpenVINO就是目前的一個商業部署,它所做的事情就是讓開發者直接用一個統一的API,幫開發者完成簡單的開發、簡單的維護、并帶來高性能,它展示了oneAPI愿景的現實。”
在沒有OpenVINO之前,開發者如何進行部署?以英特爾自己為例,各種各樣的庫,有針對CPU的、顯卡的、計算棒的、FPGA的……每一次開發的時候,各個庫API不一樣,性能調優不一樣,Debug不一樣,數據的預處理不一樣,開發成本非常高。OpenVINO實現了無論是哪種類型的硬件,讓開發者用一個統一API。
根據已公布的應用來看,云從的人臉識別智能設備、中科英泰的智能零售方案、阿里巴巴在AliOS 互聯網汽車道路感知算法優化方面、宇視科技的全融合智能解決方案UniAI等,都基于OpenVINO工具包。
對標英偉達CUDA?
NVIDIA公司于2007年正式發布的CUDA(Compute Unified Device Architecture,統一計算架構),是第一種不需借助圖形學API就可以使用類C語言進行通用計算的開發環境和軟件體系,是建立在GPU基礎之上的通用計算開發平臺。由于在性能、成本和開發時間上較傳統的CPU解決方案有顯著優勢,當時在學術界和產業界引起了熱烈反響。現在,CUDA已經在金融、石油、天文學、流體力學、信號處理、電磁仿真、模式識別、圖像處理、視頻壓縮等領域獲得廣泛應用,并取得了豐碩的成果。oneAPI的推出,似有異曲同工之妙。對此,Bill Savage表示,oneAPI開放給所有包括英偉達在內的硬件廠商,行業也需要這樣一種開放的、對于現有解決方案之外的另一種選擇。英特爾致力于向所有的、多樣的架構來提供支持,使它們能夠很好地一起協作。
英特爾已對DPC++一些開源項目在GitHub上進行托管,但一個顯然存在的問題是,GitHub一些開源項目都是基于原有的如英偉達的GPU而實施,如果現在用oneAPI,開發者將會面臨重新學習的問題。對此,Bill Savage表示,英特爾在設計DPC++的時候,語言本身已經和CUDA非常接近,對于開發人員來講學習相對比較容易。至于程序員的遷移問題,英特爾會在年底發布測試版本的時候分享更多工具,來幫助遷移更容易。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
英特爾
+關注
關注
61文章
10301瀏覽量
180428 -
CUDA
+關注
關注
0文章
127瀏覽量
14475 -
英偉達
+關注
關注
23文章
4086瀏覽量
99170 -
深度學習
+關注
關注
73文章
5598瀏覽量
124396
發布評論請先 登錄
相關推薦
熱點推薦
超越臺積電?英特爾首個18A工藝芯片邁向大規模量產
電子發燒友網報道(文/李彎彎)10月9日,英特爾公布了代號Panther Lake的新一代客戶端處理器英特爾?酷睿?Ultra(第三代)的架構細節,這款產品預計于今年晚些時候出貨。Pa
英特爾與華陽通用聯手推出全新AI Box解決方案
英特爾宣布推出基于最新英特爾 酷睿 Ultra 架構的AI Box解決方案,將PC級旗艦算力引入汽車、工業自動化、軌道交通、機器人等多種工業環境,為各行各業接入AI大模型提供高效靈活的
英特爾與憶聯重磅推出企業級網絡存儲解決方案
為應對AI大模型時代多元化的存儲挑戰與存算分離部署需求,英特爾與憶聯基于既有合作成果,再度深化協同創新。依托RDMA與NVMe硬件技術,結合SPDK高性能存儲服務,重磅推出企業級網絡存儲解決方案
英特爾開發者年度盛會智潮涌動,推動AI創新走向產業縱深
,榮獲一等獎。期間,《2025英特爾平臺開發者AI創新實踐報告》重磅首發,報告整合眾多開發者的實踐反饋,輔以豐富真實案例與深度解析,全方位展現AI應用創新趨勢與開發者群體特征,并繪出AI技術加速走向產業應用的關鍵節點,為行業研判
硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型
今日,騰訊正式發布新一代混元開源大語言模型。英特爾憑借在人工智能領域的全棧技術布局,現已在英特爾? 酷睿? Ultra 平臺上完成針對該模型的第零日(Day 0)部署與性能優化。值得一
分析師:英特爾轉型之路,機遇與挑戰并存
內容編譯自投資分析師Oliver Rodzianko觀點文章 作為一名長期關注英特爾發展的投資者,我對陳立武(Lip-Bu Tan)出任英特爾 CEO充滿期待。陳立武的管理風格兼具魄力與戰略眼光
直擊Computex2025:英特爾重磅發布新一代GPU,圖形和AI性能躍升3.4倍
5月19日,在Computex 2025上,英特爾發布了最新全新圖形處理器(GPU)和AI加速器產品系列。包括全新英特爾銳炫? Pro B系列GPU——英特爾銳炫Pro B60和英特爾
英特爾發布全新GPU,AI和工作站迎來新選擇
英特爾推出面向準專業用戶和AI開發者的英特爾銳炫Pro GPU系列,發布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2025 年 5 月 19 日,北京 ——今日,在
發表于 05-20 11:03
?1844次閱讀
英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化
4月23日,在上海車展上,英特爾發布第二代英特爾AI增強軟件定義汽車(SDV)SoC,并披露全新合作伙伴關系。第二代英特爾AI增強SDV SoC率先在汽車行業推出基于芯粒架構的設計,進
英特爾首秀上海車展:以“芯”賦能,攜手合作伙伴推動全車智能化
基于芯粒架構的設計,進一步擴展了英特爾在智能座艙領域的創新產品組合。同時,英特爾還宣布與黑芝麻智能、面壁智能、BOS Semiconductors等公司建立合作關系,共同攻克汽車智能
發表于 04-23 14:26
?785次閱讀
盟通科技攜手Acontis助力英特爾虛擬化驅動工業負載整合
近期,盟通科技聯合合作伙伴Acontis與英特爾針對虛擬化驅動工業負載的整合這一課題展開了合作。Acontis經過多年技術積累,推出了成熟、可靠且高效的實時虛擬化擴展方案,對于這些方案
在英特爾酷睿Ultra AI PC上部署多種圖像生成模型
全新英特爾酷睿Ultra 200V系列處理器對比上代Meteor Lake,升級了模塊化結構、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調度器、Xe2微
中國汽車工業協會一行到訪英特爾公司
近日,中國汽車工業協會副秘書長楊中平、技術部總監鄒朋、技術部副主任李雅靜、技術部業務主任王秋源一行到訪英特爾公司,在英特爾院士、英特爾公司副總裁、汽車事業部總經理Jack Weast,
英特爾以軟硬件優化重構算力效率
如何與能耗協同、通用架構如何與場景多元化匹配、技術迭代如何與生態步伐協同,構成當前企業應用算力過程中亟待解決的問題。 ? 深耕數據中心領域多年,英特爾始終以技術創新為基石,為行業提供更高效、更靈活、更可持續的解決方案。我
硬件架構走向多元化,英特爾要以oneAPI一“統”天下?
評論