国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文了解IBM Spectrum LSF分布式工作負載管理平臺

IBM中國 ? 來源:IBM中國 ? 作者:IBM中國 ? 2021-12-22 11:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者簡介:何金池是 IBM 科技事業部負責客戶工程的架構師,著有《Kubeflow:云計算機器學習的橋梁》和《大數據處理之道》等書,是 Kubeflow、Tekton 多個開源社區的 Maintainer,親自參與了 IBM Spectrum LSF、IBM Cloud Pak for Data 等產品的研發,是分布式計算、大數據處理和云原生等相關技術和產品的專家。

引言

當前,我們正處在一個“數據智能”的時代,數據呈指數級增長,數字化、智能化轉型已是企業創新和高質量發展的基石。在數據為王的時代,如何讓數據產生價值,讓數據說話,讓數據輔助決策呢?數據變寶任重而道遠,只有借助于高性能計算 (HPC) 和人工智能 (AI),數據才能淋漓盡致的綻放其價值。而在分布式的 HPC 集群的工作負載運行中,調度是 “大腦中樞”,無調度不成超算。

IBM Spectrum LSF (Load Sharing Facility,下文稱 LSF) 給分布式高性能計算系統注入靈魂,強有力地把分布在不同地方的算力組織起來,猶如萬劍歸一,凝心聚力,以實時的算力監控和優越的調度性能,在最短的時間內完成工作負載的調度和執行。

LSF 橫空出世并一往直前

站在今天看過去,分布式高性能計算一直是 IT 行業的熱門話題。就是算力強悍的今天,大型機 (比如 IBM Z 系列) 已經承載了一些核心的業務,但一些其他的應用和作業,無福享受到強悍的大型機的伺候,更何況把目光往前推 20多年,單個主機很難滿足應用作業的需求,那怎么辦呢?最直接的方式就是把一群機器組織起來,并行干活。如果有一把絕世寶劍,來統一號令集群協同工作,只要調度得當,完全有可能實現“機心齊,泰山移”。

在這種背景下,LSF 于 1992年橫空出世。到今天,LSF 已經走過了 29個年頭。在這 29年的發展中,新的技術層出不窮,用戶的需求也在不斷變化,經過 LSF 研發團隊的精益求精和不懈努力,LSF 已經發展成為 HPC 分布式集群的“瑞士軍刀”,擁有高性能的大規模分布式集群管理和調度能力。近日在中國,LSF 被 IBM 中國團隊創業成長計劃“12星座”冠以“白羊座”黑科技產品,算是名至所歸。29歲,LSF 正當壯年!

那么 LSF 到底是什么呢?LSF 是一個強大的分布式工作負載管理平臺,基于智能的、策略驅動的調度特性,充分利用計算基礎設施資源,實現最佳的應用程序性能。一言以蔽之,LSF 在正確的時間內,將正確的資源分配給正確的用戶作業。LSF 旨在降低企業運營成本的同時,提高生產效率。

經過二十多年的發展,相對于最初的 LSF 1.0 版本,最新的 LSF 10.1,不管是功能上,還是性能上,都得到了質的飛躍。LSF 從最初簡單的調度器,發展到今天豐富多彩的調度“航母”,不僅后向兼容,而且不斷創新,支持層出不群的新技術和新平臺,比如支持 GPU 和 Kubernetes 等,也支持機器學習的平臺和作業,AI 賦能,發展出了很多周邊產品,一往無前的創新和完善的功能,讓 29歲的 LSF 成為了妥妥的“黑科技”。

在分布式管理和調度方面,LSF 的功能可謂應有盡有,僅僅調度策略,就有數十種,比如先來先服務 (FCFS)、搶占 (Preemption)、資源需求 (Resource Requirement)、公開共享 (Fair share Scheduling)、服務水平的資源保障 (Guarantee SLA)、資源預訂 (Resource Reservations)、回填調度 (Backfill Scheduling)、親和調度 (Affinity Scheduling) 等。

LSF 不光支持 CPU 等常見算力,而且也支持 GPU 調度。同時支持多集群調度,塊調度、作業動態調度、許可證(License)調度,基于事件的調度、計算單元和作業包裝、作業開始時間預測等功能。

LSF 也支持容器化的應用的調度,LSF 可作為 Kubernetes 集群的熱插拔調度器,根據策略將 Pod 綁定到特定節點,由 Kubelet 在目標節點上執行和管理 Pod 生命周期,HPC 作業可以在不影響 Kubernetes Pods 的情況下提交和執行。

同時,LSF 支持混合云策略,LSF 有一個非常受歡迎的功能:Resource Connector。如果在作業激增的情況下,等待作業較多,本地資源不足的情況下,Resource Connector 可以迅速的向公有云或者私有云申請資源,然后基于智能化的策略,把作業調度到云端資源上執行。如果業務量下降了,根據預設的門限,即刻釋放云端資源。這種可伸縮性,有效的提高計算效率的同時,為客戶節省了費用,真是魚和熊掌二者兼得也!

在 HPC 集群中,性能非常重要,在 LSF 10 版本中,實現了無與倫比的大規模高性能,并且包含了很多創新性功能,提高了易用性和可訪問性。LSF 10 支持數以千計的并發用戶數,同時管理數以萬計的節點資源,同時調度數以百萬計的作業。通過 IO 模式優化、將數據移到更靠近作業的地方、處理器通信的優化等方法,來提高作業的吞吐量性能。在 LSF 10 的 Benchmark 測試中,LSF 可以在每小時調度分發 9百萬的作業(超短作業)。在另外一組測試環境中,在 100,000個 Slots 的 LSF 集群,縱向對比了 LSF 的性能提升,從圖中我們可以看是 LSF 10 的性能得到了大幅提升。

LSF 的小伙伴們

俗話說,一個好漢三個幫。LSF 的核心的功能是根據集群的資源情況對作業進行調度和分發,到今天,LSF 已經發展出了一個大的家族,LSF 更像是一個家長,以“帶頭大哥”的身份帶領其家族的小伙伴們,為客戶降低運營成本,提高生產率。具體看,LSF 家族的核心價值有:

通過有效的調度和共享策略提高資產利用率

通過易用性、易訪問性和簡化來提高用戶的工作效率

通過洞察如何使用 HPC 環境來提高操作效率

下面有請 LSF 家族中幾位主要的小伙伴們亮相:

01

LSF AC (Application Center)

LSF AC 是 LSF 的 Web Portal。作為是 LSF 家族中“大師兄”,為集群用戶和管理員提供了靈活、易用的界面,使用戶能夠直觀的和 LSF 集群進行交互。有了 LSF AC,媽媽再也不用擔心程序員小明記不住復雜的 LSF 后臺命令了!用戶可以通過 Web 瀏覽器輕松愉快的完成作業的基本操作,如停止、暫停、恢復或重新排隊作業,也可以在 Web 界面監控作業的運行情況。同時,LSF AC 有很多應用程序的模板和腳本指南,這些模板和指南,很好的簡化了作業提交,很大程度上降低用戶的操作錯誤概率。

LSF AC 不光有電腦客戶端,也支持手機客戶端,用戶隨時隨地的掌握作業的運行狀態和資源情況。

02

LSF PM (Process Manager)

在一些 LSF 的應用場景中,很多作業之間有依賴關系,特別是近幾年來的容器化,微服務化,并行化作業愈發盛行,面對錯綜復雜的作業依賴關系,如果沒有一套流水線的管理工具,那對于這些用戶來說,簡直就是災難。LSF PM 就是肩負著這個使命而誕生的,使用這個流水線工具,LSF 用戶可以在提交作業前,圖形化的勾勒出作業的先后順序和驅動事件,然后再提交執行。使用直觀的圖形界面記錄和查看工作流步驟和執行情況,允許用戶自動執行容易出現人為錯誤的、或者冗長重復任務。

同時,用戶可以通過 LSF PM 設置一些驅動事件,比如文件事件(比如文件產生或者消失的時候,觸發某些作業),時間事件(可以在特定的時間或者周期性的觸發作業的運行)等。LSF PM 擁有 CS 模式的客戶端,同時也已經集成到了 LSF AC 的 Web 界面中了。

03

LSF RTM (Report, Track, Monitor)

LSF RTM 是 LSF 集群管理員的福音,LSF 集群管理員可以通過 LSF RTM 的 Web 儀表盤來全面的、實時的監視、報告和管理集群和工作負載,極大程度上提高了集群資源利用率和用戶生產率,以及控制或降低了用戶的成本。同時LSF RTM 支持監控應用程序許可證服務器和集群中的用戶和用戶組。通過 LSF RTM 直觀的 Dashboard,可以輕松有效的監控多個 LSF 集群,完成管理員日常的集群維護工作。

04

LSF Explorer

LSF Explorer 是針對 LSF 環境的輕量級報告解決方案,支持各種業務和用戶快速創建和查看報告和 Dashboard。如果沒有 LSF Explorer,想要滿足不同用戶的需求,這些報告需要從多個產品中的不同報告中獲得,而且這些數據可能需要通過電子表格的方式,手動創建報告,耗時且費力。LSF Explorer 使用 Elasticsearch 數據庫來存儲、索引和查詢數據,LSF 的用戶、IT 管理人員或者項目負責人,都可以輕松的、定制化的獲取,定期查看計算環境的執行報告,和所在項目或業務線正在消耗什么樣的資源。

05

LSF License Scheduler

商業化的應用程序許可證 (License) 往往是一種昂貴的資源,用戶可以使用 LSF License Scheduler,根據已建立的分發策略分配 License,從而管理和優化計算節點和項目之間的應用程序 License 使用。License 可以在集群之間共享,也可以在集群內的項目之間共享。LSF License Scheduler 可以簡化 License 共享,幫助提高生產力和增加對 License 資源的整體訪問,支持 FlexNet 和 Reprise 許可證管理器 (RLM) 等。

06

LSF Data Manager

作業的執行,往往需要一些數據作為輸入,或者會輸入大量的數據,如果沒有合理的數據管理,勢必對作業的執行速度造成影響。使用 LSF Data Manager,用戶可以有效地管理在 HPC 環境中的大量數據,借助已經具備的底層文件傳輸基礎設施(如 IBM Aspera),自動化 LSF 集群內和集群間的數據傳輸,以及本地與云之間的數據傳輸。LSF Data Manager 還提供了一個智能托管緩存,允許復用數據,并避免重復的傳輸,從而消除浪費的磁盤空間和數據傳輸的等待時間。簡單的說,LSF Data Manager 根據作業調度情況,決定移動哪些數據,和什么時候移動,然后可以借助文件傳輸技術(如 IBM Aspera)實現超高速傳輸。

LSF 應用場景和用戶分析

LSF 主要的應用場景為分布式計算領域和一些計算密集型的場景。LSF 已經成功的應用到了眾多行業,包括電子自動化,航空航天等制造業、教育培訓、能源、金融、生命科學,大型超算中心、氣象分析、環境監測仿真系統、數據挖掘、人工智能、動漫渲染等。簡而言之,如果后臺需要大量的計算,LSF 定能助一臂之力。

目前,全球前 12大汽車領域的公司,有 10家在使用 LSF。前 25家電子自動化企業,有 23家在使用 LSF 計算機輔助作業調度。全球前 3大生命科學中心均在使用 LSF 做后臺的集群調度。一些成功的超算中心,也在使用 LSF 做調度和監控。很多高等學府和研究院,使用 LSF 做超前的研究工作。我們每天看的精準的天氣預報,也有 LSF 默默無聞的貢獻。LSF 的成功案例數不勝數,可以說,雖然我們摸不到,看不到,但 LSF 已然和我們的生活息息相關。

結語

因篇幅有限,不能對浩瀚的 LSF 做詳盡闡述,LSF 依舊在持續的發展中。二十多年來,LSF 工作負載/資源管理解決方案贏得了多個行業客戶的青睞,借助于 LSF,客戶的作業運行效率得到了極大的提高,降低了成本。今日的成功只是明日的起跑線,風華正茂的 LSF 和它的小伙伴們,在以后的日子里,不改初心,會不斷完善自己,持續為客戶創造更大的價值。

END

往期回顧

→ 寶藏 IBM 的黑科技之“十二星座”干貨粗略說說

→ IBM 專家觀點: Data Fabric 將會是下一個 IT 的風口嗎?

點擊“閱讀原文”,了解更多

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • IBM
    IBM
    +關注

    關注

    3

    文章

    1868

    瀏覽量

    77016
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    225068
  • 大數據
    +關注

    關注

    64

    文章

    9064

    瀏覽量

    143773

原文標題:IBM Spectrum LSF:分布式系統的“瑞士軍刀”

文章出處:【微信號:IBMGCG,微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    分布式能源管理物聯網解決方案

    分布式能源系統(如光伏電站、儲能電站等)具有設備多樣、分布較廣、數據量大等特點,傳統人工抄表或本地監控模式存在數據滯后、管理低效、優化困難等問題。物通博聯(WideIOT)結合邊緣計算與云端協同技術
    的頭像 發表于 01-21 11:39 ?324次閱讀
    <b class='flag-5'>分布式</b>能源<b class='flag-5'>管理</b>物聯網解決方案

    如何配置和管理MCU分布式模塊化自動測量單元

    MCU分布式模塊化自動測量單元是南京峟思工程儀器有限公司研發的專業監測設備,廣泛應用于巖土工程和結構安全監測領域。該單元采用分布式架構設計,支持多類型傳感器混合接入,可通過集中管理平臺
    的頭像 發表于 09-24 15:39 ?721次閱讀
    如何配置和<b class='flag-5'>管理</b>MCU<b class='flag-5'>分布式</b>模塊化自動測量單元

    【節能學院】Acrel-1000DP分布式光伏監控系統在奉賢平高食品 4.4MW 分布式光伏中應用

    摘要:在“雙碳”和新型電力系統建設背景下,分布式光伏接入比例不斷提高,對配電網電壓、調度運行及調峰等環節造成強烈沖擊。本文設計包含平臺層、設備層二層架構體系的分布式光伏管控平臺,以及小
    的頭像 發表于 08-23 08:04 ?3503次閱讀
    【節能學院】Acrel-1000DP<b class='flag-5'>分布式</b>光伏監控系統在奉賢平高食品 4.4MW <b class='flag-5'>分布式</b>光伏中應用

    分布式光伏發電監測系統技術方案

    分布式光伏發電監測系統技術方案 柏峰【BF-GFQX】、系統目標 :分布式光伏發電監測系統旨在通過智能化的監測手段,實現對分布式光伏電站的全方位、高精度、實時化
    的頭像 發表于 08-22 10:51 ?3208次閱讀
    <b class='flag-5'>分布式</b>光伏發電監測系統技術方案

    怎樣確定分布式光伏集群通信網絡的負載均衡策略?

    LZ-DZ100電能質量在線監測裝 確定分布式光伏集群通信網絡的負載均衡策略,需結合集群的網絡拓撲、數據特征、設備特性及運行需求,通過 “現狀分析→目標設定→策略設計→驗證優化” 的流程逐步推進
    的頭像 發表于 08-22 10:10 ?584次閱讀
    怎樣確定<b class='flag-5'>分布式</b>光伏集群通信網絡的<b class='flag-5'>負載</b>均衡策略?

    AcrelCloud-1200 分布式光伏運維云平臺 用于居民屋頂光伏發電

    摘要:在當今追求綠色可持續發展的時代,越來越多的企業選擇部署分布式光伏系統,既響應環保號召,又能降低用電成本。然而,隨著分布式光伏項目規模的不斷擴大,企業在運維管理方面面臨著諸多難題。如何管理
    的頭像 發表于 08-05 10:48 ?1010次閱讀
    AcrelCloud-1200 <b class='flag-5'>分布式</b>光伏運維云<b class='flag-5'>平臺</b> 用于居民屋頂光伏發電

    多電站監管不再難!分布式光伏運維云平臺的破局之道

    管理方面面臨著諸多難題。如何管理分布式光伏電站,確保其穩定、安全運行,成為企業亟待解決的問題。安科瑞電氣推出的AcrelCloud-1200分布式光伏運維云
    的頭像 發表于 08-04 16:14 ?772次閱讀
    多電站監管不再難!<b class='flag-5'>分布式</b>光伏運維云<b class='flag-5'>平臺</b>的破局之道

    安科瑞分布式光伏監控系統:賦能園區企業光伏用電智能化管理

    維成本,成為了園區企業面臨的重要挑戰。安科瑞分布式光伏監控系統應運而生,為園區企業提供了套全面、智能的光伏用電管理解決方案。(18721098782----安科瑞) 系統架構:分層分布式
    的頭像 發表于 07-30 15:57 ?778次閱讀
    安科瑞<b class='flag-5'>分布式</b>光伏監控系統:賦能園區企業光伏用電智能化<b class='flag-5'>管理</b>

    江西光伏新政落地!安科瑞分布式光伏云平臺破解監管與效率難題

    分布式光伏運維平臺通過技術創新與功能整合,有效破解了行業痛點,其核心價值不僅在于提升運維效率與發電收益,更在于通過數據驅動實現能源系統的精細化管理。隨著 5G、AI 等技術的深度融合,未來運維
    的頭像 發表于 07-24 14:14 ?1106次閱讀
    江西光伏新政落地!安科瑞<b class='flag-5'>分布式</b>光伏云<b class='flag-5'>平臺</b>破解監管與效率難題

    分布式設備管理平臺有哪些功能?哪個好用?

    。 接下來,為您詳細介紹幾款高品質的分布式設備管理平臺,企業需根據自身行業特性、設備類型、管理需求等因素綜合考量,希望能帶給大家些參考。
    的頭像 發表于 07-07 17:07 ?805次閱讀
    <b class='flag-5'>分布式</b>設備<b class='flag-5'>管理</b><b class='flag-5'>平臺</b>有哪些功能?哪個好用?

    “430”“531”分布式光伏新政不斷,企業運維管理犯難?安科瑞分布式光伏運維云平臺“管控”“運維”兩手

    發電開發建設管理辦法》,以及國家發展改革委、國家能源局聯合印發的《關于深化新能源上網電價市場化改革 促進新能源高質量發展的通知》,猶如為分布式光伏產業注入了劑強心針,推動著行業邁向高質量發展的新征程。 新
    的頭像 發表于 06-03 14:46 ?679次閱讀
    “430”“531”<b class='flag-5'>分布式</b>光伏新政不斷,企業運維<b class='flag-5'>管理</b>犯難?安科瑞<b class='flag-5'>分布式</b>光伏運維云<b class='flag-5'>平臺</b>“管控”“運維”兩手

    IBM Spectrum LSF如何助力半導體企業應對AI時代的高性能芯片需求

    上萬個作業,可能會瞬間擠爆計算資源。那如何把成千上萬個作業有序的調度到大規模的集群中呢?這時候,就得請出 HPC(高性能計算)調度界的“大宗師”—— IBM Spectrum LSF
    的頭像 發表于 05-27 15:18 ?1040次閱讀

    多通道電源管理芯片在分布式能源系統中的優化策略

    摘要: 隨著分布式能源系統的廣泛應用,對電源管理芯片的性能要求日益提升。本文深入探討了多通道電源管理芯片在分布式能源系統中的優化策略,以國科安芯的ASP4644芯片為例,從電氣特性、
    的頭像 發表于 05-16 15:22 ?907次閱讀

    分布式光伏發運維系統實際應用案例分享

    和可持續發展的重要推動力量。國家能源局于2025年1月發布了《分布式光伏發電開發建設管理辦法》,對分布式光伏的分類、上網模式、備案管理、電網接入等進行了詳細規定,未來
    的頭像 發表于 04-09 14:46 ?1259次閱讀
    <b class='flag-5'>分布式</b>光伏發運維系統實際應用案例分享

    如何在基于Arm Neoverse平臺的CPU上構建分布式Kubernetes集群

    在本文中,我們將以 X(原 Twitter)為例,演示如何在基于 Arm Neoverse 平臺的 CPU 上構建分布式 Kubernetes 集群,以根據推實時監控情緒變化。如此
    的頭像 發表于 03-25 15:58 ?842次閱讀
    如何在基于Arm Neoverse<b class='flag-5'>平臺</b>的CPU上構建<b class='flag-5'>分布式</b>Kubernetes集群