国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

手機行業的跑分軟件是噱頭還是實力

B4Pb_gh_6fde77c ? 來源:龍蜥社區 ? 作者:百奎、丁緩 ? 2021-08-16 15:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

一、背景:性能之戰

“不服跑個分”已經淪為手機行業的調侃用語,但是實話實說,在操作系統領域“跑分”確實是最重要的評價方式之一。比如 Linux 內核社區常常以跑分軟件得分,來評價一個優化補丁的價值。甚至還有 phoronix 這樣專注于 Linux 跑分的媒體。而且今天我還想說一點,讓軟件跑分高,這是實力的體現,是建立在對內核的深刻理解基礎上的。本文的故事就源于一次日常的性能優化分析。我們在評估自動化性能調優軟件 tuned 的時候,發現它在服務器場景,對 Linux 內核調度器相關的參數做了一些微小的修改,但是這些修改卻很大程度改善了 hackbench 這款跑分軟件的性能。是不是很有意思?讓我們一起來一探究竟。

本文將從幾個方面展開,并重點介紹黑體字部分:

相關知識簡介

hackbench 工作模式簡介

hackbench 性能受損之源

雙參數優化

思考與拓展

二、相關知識簡介

2.1 CFS調度器

Linux 中大部分(可以粗略認為是實時任務之外的所有)線程/進程,都由一個叫 CFS(完全公平調度器)的調度器進行調度,它是 Linux 最核心的組件之一。(在Linux中,線程和進程只有細微差別,下文統一用進程表述)

CFS 的核心是紅黑樹,用于管理系統中進程的運行時間,作為選擇下一個將要運行的進程的依據。此外,它還支持優先級、組調度(基于我們熟知的 cgroup 實現)、限流等功能,滿足各種高級需求。CFS 的詳細介紹。

2.2 hackbench

hackbench 是一個針對 Linux 內核調度器的壓力測試工具,它的主要工作是創建指定數量的調度實體對(線程/進程),并讓它們通過 sockets/pipe 進行數據傳輸,最后統計整個運行過程的時間開銷。

2.3 CFS 調度器參數

本文重點關注以下兩個參數,這兩個參數也是影響 hackbench 跑分性能的重要因素。系統管理員可以使用 sysctl 命令來進行設置。

最小粒度時間:kernel.sched_min_granularity_ns

通過修改 kernel.sched_min_granularity_ns,可以影響 CFS 調度周期(sched period)的時間長短。例如:設置kernel.sched_min_granularity_ns = m,當系統中存在大量可運行進程時,m 越大,CFS 調度周期就越長。

如圖 1 所示,每個進程都能夠在 CPU 上運行且時間各有長短,sched_min_granularity_ns 保證了每個進程的最小運行時間(優先級相同的情況下),sched_min_granularity_ns 越大每個進程單次可運行的時間就越長。

d17d5954-fe4e-11eb-9bcf-12bb97331649.png

圖 1:sched_min_granularity_ns 示意圖

喚醒搶占粒度:kernel.sched_wakeup_granularity_ns

kernel.sched_wakeup_granularity_ns 保證了重新喚醒的進程不會頻繁搶占正在運行的進程,kernel.sched_wakeup_granularity_ns 越大,喚醒進程進行搶占的頻率就越小。
如圖 2 所示,有 process-{1,2,3} 三個進程被喚醒,因為 process-3 的運行時間大于 curr(正在 CPU 上運行的進程)無法搶占運行,而 process-2 運行時間小于 curr 但其差值小于 sched_wakeup_granularity_ns 也無法搶占運行,只有 process-1 能夠搶占 curr 運行,因此 sched_wakeup_granularity_ns 越小,進程被喚醒后的響應時間就越快(等待運行時間越短)。

d1aae216-fe4e-11eb-9bcf-12bb97331649.png

圖 2:sched_wakeup_granularity_ns 示意圖

三、hackbench 工作模式簡介

hackbench 工作模式分為 process mode 和 thread mode,主要區別就是以創建 process 還是 thread 為基礎來進行測試,下面以 thread 來進行介紹。

hackbench 會創建若干線程(偶數),均分為兩類線程:sender 和 receiver

并將其劃分為 n 個 group,每個 group 包含 m 對 sender 和 receiver。

每個 sender 的任務就是給其所在 group 的所有 receiver 輪流發送 loop 次大小為 datasize 的數據包

receiver 則只負責接收數據包即可。

同一個 group 中的sender 和 receiver 有兩種方式進行通信:pipe 和 local socket(一次測試中只能都是 pipe 或者 socket),不同 group 之間的線程沒有交互關系。

通過上面 hackbench 模型分析,可以得知同一個 group 中的 thread/process 主要是 I/O 密集型,不同 group 之間的 thread/process 主要是 CPU 密集型。

d1eaa090-fe4e-11eb-9bcf-12bb97331649.png

圖 3: hackbench 工作模式主動上下文切換:

對于 receiver,當 buffer 中沒有數據時,receiver 會被阻塞并主動讓出 CPU 進入睡眠。

對于 sender,如果 buffer 中沒有足夠空間寫入數據時, sender 也會被阻塞且主動讓出 CPU。

因此,系統中"主動上下文切換"是很多的,但同時也存在“被動上下文切換”。后者會受到接下來我們將要介紹的參數影響。

四、hackbench性能影響之源

在hackbench-socket 測試中,tuned修改了 CFS 的 sched_min_granularity_ns 和 sched_wakeup_granularity_ns 兩個參數,導致了性能的顯著區別。具體如下:

開關/參數和性能 sched_min_granularity_ns sched_wakeup_granularity_ns 性能
關 tuned 2.25ms 3ms
開 tuned 10ms 15ms

接下來我們調整這兩個調度參數來進行進一步的深入分析。

五、雙參數優化

注:為了簡介表達下面會以 m 表示 kernel.sched_min_granularity_ns,w 表示 kernel.sched_wakeup_granularity_ns

為了探索雙參數對于調度器的影響,我們選擇每次固定一個參數,研究另一個參數變化對于性能的影響,并使用系統知識來解釋這種現象背后的原理。

5.1 固定sched_wakeup_granularity_ns

d21f7842-fe4e-11eb-9bcf-12bb97331649.png

圖 4: 固定 w,調整m

在上圖中我們固定了參數 w 并根據參數 m 變化趨勢其劃分為三個部分:區域A(1ms~4ms),區域B(4ms~17ms),區域C(17ms~30ms)。在區域A中四條曲線均呈現一個極速下降的趨勢,而在區域B中四條曲線都處于一種震蕩狀態,波動較大,最后在區域C中四條曲線都趨于穩定。

在第二節相關知識中可以知道 m 影響著進程的運行時間,同時也意味著它影響著進程的“被動上下文切換”。

對于區域A而言,搶占過于頻繁,而大部分搶占都是無意義的,因為對端無數據可寫/無緩沖區可用,導致大量冗余的“主動上下文切換“。此時較大的 w 能讓 sender/receiver 有更多的時間來寫入數據/消耗數據來減少對端進程無意義的“主動上下文切換“。

對于區域B而言,隨著 m 的增加漸漸滿足 sender/receiver 執行任務的時間需求能夠在緩沖區寫入/讀出足夠的數據,因此需要較小的 w 來增加喚醒進程的搶占幾率,讓對端進程能夠更快的響應處理數據,減少下一輪調度時的“主動上下文切換”。

對于區域C而言,m已經足夠大,已經幾乎不會有“被動上下文切換”發生,進程會在執行完任務之后進行“主動上下文切換”等待對端進程進行處理,此時 m 對性能的影響就很小了。

5.2 固定sched_min_granularity_ns

d22d184e-fe4e-11eb-9bcf-12bb97331649.png

圖 5: 固定 m,調整w

在上圖中我們固定了參數 m,同樣劃分了三個區域:

在區域A中,同樣存在圖 4 中的現象,較大 m 受 w 的影響較小,而較小的 m 隨著 w 的增大性能會越來越好。

在區域B中,中等大小的 m(8ms/12ms)進程還是存在較多“被動上下文切換”,并且其中的進程已經處理了相當一部分數據期望對端進程能夠盡快的響應處理,因此較大 w 會嚴重影響中等大小 m 的性能。

在區域C中圖5和圖4表現一致都是趨于穩定,因為 w 過大時幾乎不會發生喚醒搶占,因此這時單純 w 值的變化對性能的影響并不大,但是過大的 w 對于中等大小的 m 則會造成性能問題(原因同上條)。

5.4 最優雙參數(對于 hackbench )

從上面兩節的分析可知對于 hackbench 這樣帶有“主動上下文切換”的場景可以選擇較大的 m(例如:15~20ms)。

在pipe/socket 雙向通信的場景中,對端的響應時間會對影響進程的下一次處理,為了讓對端進程能夠及時響應可以選擇一個中等大小的 w(例如:6~8ms)來獲取較高的性能。

六、思考與擴展

在桌面場景中,應用更偏向于交互型,應用的服務質量也更多的體現在應用對于用戶操作的響應時間,因此可以選擇較小的 sched_wakeup_granularity_ns 來提高應用的交互性。

在服務器場景中,應用更偏向于計算處理,應用需要更多的運行時間來進行密集計算,因此可以選擇較大的 sched_min_granularity_ns,但是為了防止單個進程獨占 CPU 過久同時也為了能夠及時處理客戶端請求響應,應該選擇一個中等大小的 sched_wakeup_granularity_ns。

在 Linux 原生內核中 m 和 w 的默認參數被設置為適配桌面場景,Anolis OS的用戶,需要根據自己部署的應用的場景,屬于桌面型還是服務器型,來選擇內核參數,或者使用tuned的推薦配置。而 hackbench 作為一個介于桌面和服務器間的應用,也可以作為配置的參考。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Linux
    +關注

    關注

    88

    文章

    11761

    瀏覽量

    219071
  • 調度器
    +關注

    關注

    0

    文章

    99

    瀏覽量

    5685

原文標題:“不服跑個分?” 是噱頭還是實力?

文章出處:【微信號:gh_6fde77c41971,微信公眾號:FPGA干貨】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【瑞薩RA6E2】2.RA6E2 coremark測試

    上篇已經講解了串口shell點燈,現在就直接使用串口工程來測試一下RA6E2的性能,這里我使用coremark軟件來進行測試。 最終測試分數為311, 1。先從github上下
    發表于 11-09 17:48

    E203在基于wallace樹+booth編碼的乘法器優化后的結果

    高32位。 結果 在基于vcs+verdi聯合仿真沒有問題之后,將代碼下載進FPGA進行測試,通過NucleiStudio燒寫程序并通過串口打印到屏幕。 開發板:ALINX 7
    發表于 10-27 07:54

    Vivado仿真e203_hbirdv2whetstone(開源)

    環境:Vivado2018.3、NucleiStudio_IDE_202102-win64 內容:Vivado仿真e203_hbirdv2whetstone 以下提供可以在Vivado
    發表于 10-27 07:21

    沒有開發板的情況,在Vivado上進行蜂鳥E203的基礎內核的drystone

    由于開發板可能不能第一時間拿到手,而這時候我們要開始相關的工作,所以我們需要找到一種方法在沒有開發板下能夠推進進度,本文主要介紹在Vivado下進行drystone的仿真。 創建一個Vivado
    發表于 10-27 06:35

    無開發板在Linux系統下進行E203內核指令集測試以及程序的測試

    在終端中打印處PASS的字樣。 需要做不同的指令集測試時,只需要對第二步中的testcase地址中的最后一個.verilog文件的文件名修改就可以了。 4.程序測試 接下來介紹
    發表于 10-24 11:43

    在vivado上進行benchmark(微架構優化之前)

    本文修正了該分享https://www.rvmcu.com/community-topic-id-1266.html 中關于coremark的一點錯誤。 先找到coremark仿真文件
    發表于 10-24 09:39

    沒有開發板的情況下,在Vivado上進行蜂鳥E203的基礎內核的drystone

    由于開發板可能不能第一時間拿到手,而這時候我們要開始相關的工作,所以我們需要找到一種方法在沒有開發板下能夠推進進度,本文主要介紹在Vivado下進行drystone的仿真。 創建一個Vivado
    發表于 10-24 07:36

    bin文件的燒錄以及benchmark簡易教程

    ,點擊確定,等待即可完成燒錄 燒錄完成之后打開nuclei studio ,連接jtag,打開串口,具體操作方式參考官方手冊即可。 經優化后的coremark結果如下
    發表于 10-23 07:42

    大小鼠跑步機 小動物臺 動物跑步機 大鼠實驗臺 小動物能量 代謝氣體

    *200mm;對比上一代產品尺寸變小,重量減小 50%,臺更輕更靜音;3、 跑道速度無級可調,速度范圍在 0-60 米 / ;( 大鼠推薦 20 米 / 、小鼠推薦 12 米 /
    發表于 08-14 13:57

    【GM-3568JHF開發板免費體驗】GM-3568JHF的coremark5007

    coremark進入目錄 輸入make編譯 二、 輸入./coremark.exe 可以看到最終 視美泰GM-3568JHF 最后分為5007。 再來看看常見開發板的
    發表于 07-22 17:32

    【VisionFive 2單板計算機試用體驗】1、開箱初體驗(刷系統+靜態IP設置+GPU測評)

    。 GPU 首先用clinfo命令查看一下GPU,當然也可以在debain-system setting-about界面看到BXE-4-32GPU benchmark軟件一般用glmark2
    發表于 07-09 21:50

    國內十大軟件開發公司是哪家:實力與創新引領行業前行

    軟件
    北京華盛恒輝科技
    發布于 :2025年06月09日 16:39:59

    國內最好的軟件開發公司是哪家?實力最強的

    軟件
    北京華盛恒輝科技
    發布于 :2025年06月06日 12:22:43

    看點:雷軍:小米芯片超300萬 特斯拉愿向車企授權FSD技術 比亞迪與Grenergy簽供貨協議

    給大家帶來一些行業資訊消息: 雷軍:小米芯片超300萬 在5月22日的小米戰略新品發布會上,雷軍公布小米玄戒O1芯片安兔兔結果,測評
    的頭像 發表于 05-23 14:41 ?754次閱讀

    學硬件好還是軟件好?

    學硬件好還是軟件好? 選擇學習硬件還是軟件取決于個人興趣、職業目標以及對不同工作方式的偏好。以下是兩者的一些比較,幫助你做出更合適的選擇。 學習硬件可以讓你深入了解計算機和電子設備的
    發表于 04-07 15:27