国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Thanos+Prometheus+Grafana構(gòu)建監(jiān)控系統(tǒng)

馬哥Linux運(yùn)維 ? 來(lái)源:luizrojo.medium ? 作者:Luiz Rojo ? 2022-05-05 21:14 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

對(duì)于彈性伸縮和高可用的系統(tǒng)來(lái)說(shuō),一般有大量的指標(biāo)數(shù)據(jù)需要收集和存儲(chǔ),如何為這樣的系統(tǒng)打造一個(gè)監(jiān)控方案呢?本文介紹了如何使用 Thanos+Prometheus+Grafana 構(gòu)建監(jiān)控系統(tǒng)。

4b3d2ff8-ca1e-11ec-bce3-dac502259ad0.png

集群容量概覽

直到今年 1 月,我一直在使用一款企業(yè)級(jí)監(jiān)控解決方案來(lái)監(jiān)控 Kubernetes 集群,這款監(jiān)控方案還用于 APM。它用起來(lái)很自然,與 Kubernetes 的集成非常容易,只需要進(jìn)行一些細(xì)微的調(diào)整,并且可以集成 APM 和基礎(chǔ)設(shè)施指標(biāo)。

盡管這款監(jiān)控方案可以很容易地收集和存儲(chǔ)數(shù)據(jù),但使用指標(biāo)創(chuàng)建警報(bào)卻有很大的查詢(xún)限制。經(jīng)常我們收到的告警和儀表盤(pán)上顯示的內(nèi)容會(huì)不一樣。更不用說(shuō)我們有 6 個(gè)集群,收集和存儲(chǔ)的指標(biāo)數(shù)量非常多,這在很大程度上增加了我們的經(jīng)濟(jì)成本。

經(jīng)過(guò)一番考慮,我們認(rèn)識(shí)到繼續(xù)使用這款監(jiān)控方案弊大于利。是時(shí)候替換我們的監(jiān)控方案了!但是,該使用什么產(chǎn)品或者工具呢?Grafana 是可視化工具的最佳選項(xiàng),但我們的“后端”需要具備彈性伸縮和高可用能力,該使用什么工具呢?

純粹使用 OpenTSDB 的話(huà),安裝需要太多的工作和精力;單機(jī) Prometheus 不提供復(fù)制能力,還需要為其配備多個(gè)數(shù)據(jù)庫(kù);TimeScaleDB 看起來(lái)不錯(cuò),但我不太會(huì)使用 PostgreSQL。

在對(duì)以上這些方案進(jìn)行了一些實(shí)驗(yàn)后,我查看了 CNCF 網(wǎng)站,最后找到了 Thanos!它滿(mǎn)足我們所有的需求:可長(zhǎng)期保留數(shù)據(jù)、可復(fù)制、高可用、適合微服務(wù)、對(duì)使用相同數(shù)據(jù)庫(kù)的所有集群有一個(gè) global view!

架構(gòu)

我們的集群上沒(méi)有可用的持久化存儲(chǔ)(所有服務(wù)都保持無(wú)狀態(tài)),所以默認(rèn)的 Prometheus + Thanos sidecar 方法不可用,metric 存儲(chǔ)必須置于集群之外。此外,集群之間相互隔離,將 Thanos 組件綁定到一組特定的集群是不可能的,必須從“外部”監(jiān)控集群。

綜上所述,考慮到高可用性以及 Thanos 在虛擬機(jī)上運(yùn)行的可能性,我們最終的架構(gòu)是這樣的:

4b55303a-ca1e-11ec-bce3-dac502259ad0.png

如圖所示,我們是多數(shù)據(jù)中心的架構(gòu)。其中每個(gè)中心都有一組 Grafana + Query 服務(wù)器,一組存儲(chǔ)服務(wù)器和三個(gè) Receive 服務(wù)器(集群數(shù)量的一半)。

Grafana 使用的數(shù)據(jù)庫(kù)還有一個(gè) AWS RDS。這個(gè)數(shù)據(jù)庫(kù)不必很龐大(降低成本),我們團(tuán)隊(duì)也不需要管理 MySQL。

在 Thanos 提供的所有組件中,我們實(shí)現(xiàn)了其中的 4 個(gè):

Receive:負(fù)責(zé) TSDB,還管理所有運(yùn)行 receive 的服務(wù)器和 TSBD 塊上傳到 S3 之間的復(fù)制。

Query:負(fù)責(zé)查詢(xún) receive 數(shù)據(jù)庫(kù)。

Store:讀取 S3 以獲取不再存儲(chǔ)在 receive 中的長(zhǎng)期 metrics。

Compactor:管理存儲(chǔ)在 S3 中的 TSDB 塊的數(shù)據(jù)下采樣和壓縮。

Data Ingestion

所有集群的 data ingestion 都由集群內(nèi)運(yùn)行的專(zhuān)用 Prometheus Pod 管理。它從 control plate(API 服務(wù)器、控制器和調(diào)度程序)、etcd 集群以及集群內(nèi)的 Pod 收集指標(biāo),這些集群內(nèi)具有與基礎(chǔ)設(shè)施和 Kubernetes 本身相關(guān)的指標(biāo)(Kube-proxy、Kubelet、Node Exporter、State Metrics 、Metrics Server 和其他具有 scraping annotation 的 Pod)。

Prometheus Pod 然后將信息發(fā)送到使用遠(yuǎn)程存儲(chǔ)配置管理 TSDB 的 receive 服務(wù)器之一。

4b932638-ca1e-11ec-bce3-dac502259ad0.png

data ingestion

所有數(shù)據(jù)都發(fā)送到單個(gè)服務(wù)器,然后復(fù)制到其他服務(wù)器。Prometheus 使用的 DNS 地址是一個(gè) DNS GSLB,它探測(cè)每個(gè) receive 服務(wù)器并平衡健康的服務(wù)器之間的 DNS 解析,在所有服務(wù)器之間分擔(dān)負(fù)載,因?yàn)?DNS 解析只為每個(gè) DNS 查詢(xún)提供一個(gè) IP。

需要強(qiáng)調(diào)一下,數(shù)據(jù)必須發(fā)送到單個(gè) receive 實(shí)例并讓它管理復(fù)制,發(fā)送相同的 metric 會(huì)導(dǎo)致復(fù)制失敗和行為異常。

在這個(gè)層面上,metrics 也會(huì)上傳到 S3 存儲(chǔ)桶進(jìn)行長(zhǎng)期留存。Receive 每 2 小時(shí)(當(dāng)每個(gè) TSDB 塊關(guān)閉時(shí))上傳一次 block,這些 metric 可用于使用 Store 組件進(jìn)行查詢(xún)。

還可以設(shè)置本地?cái)?shù)據(jù)的保留時(shí)間。在這種情況下,所有本地?cái)?shù)據(jù)都會(huì)保留 30 天以供日常使用和故障排除,這樣可以加快查詢(xún)速度。

超過(guò) 30 天的數(shù)據(jù)僅在 S3 上可用,最長(zhǎng)可保留 1 年,用于長(zhǎng)期評(píng)估和比較。

數(shù)據(jù)查詢(xún)

數(shù)據(jù)被收集并存儲(chǔ)在 receiver 中以供查詢(xún)。這部分也設(shè)置為多數(shù)據(jù)中心可用。

每臺(tái)服務(wù)器都運(yùn)行 Grafana 和 Query,如果其中一臺(tái)(或兩臺(tái))出現(xiàn)故障,我們可以更輕松地從負(fù)載均衡器中識(shí)別并刪除。在 Grafana 中,數(shù)據(jù)源配置為 localhost,因此它始終使用本地 Query 來(lái)獲取數(shù)據(jù)。

對(duì)于查詢(xún)配置,它必須知道所有存儲(chǔ)了 metrics 的服務(wù)器(Receiver 和 Store)。query 組件知道哪個(gè)服務(wù)器在線(xiàn)并且能夠從它們收集 metrics。

4baaeebc-ca1e-11ec-bce3-dac502259ad0.png

數(shù)據(jù)查詢(xún)

它還管理重復(fù)數(shù)據(jù)刪除,因?yàn)樗樵?xún)所有服務(wù)器并配置了 replication,所有 metrics 都有多個(gè)副本。可以使用分配給 metrics 的標(biāo)簽和查詢(xún)參數(shù) (--query.replica-label=QUERY.REPLICA-LABEL) 來(lái)完成。通過(guò)這些配置,query 組件知道從 Receiver 和 Store 收集的 metrics 是否重復(fù)并僅使用一個(gè)數(shù)據(jù)點(diǎn)。

長(zhǎng)期數(shù)據(jù)

如前所述,數(shù)據(jù)在本地最多保留 30 天,其他所有內(nèi)容都存儲(chǔ)在 S3 上。這樣可以減少 Receiver 上所需的空間量并降低成本,因?yàn)閴K存儲(chǔ)比對(duì)象存儲(chǔ)更貴。更何況查詢(xún)超過(guò) 30 天的數(shù)據(jù)不是很常見(jiàn),主要用于資源使用歷史和預(yù)測(cè)。

4bd1a41c-ca1e-11ec-bce3-dac502259ad0.png

遠(yuǎn)程數(shù)據(jù)查詢(xún)

該 Store 還保留存儲(chǔ)在 S3 存儲(chǔ)桶上的每個(gè) TSDB 塊的索引的本地副本,因此如果需要查詢(xún)超過(guò) 30 天的數(shù)據(jù),它知道要下載和使用哪些塊來(lái)提供數(shù)據(jù)。

數(shù)據(jù)情況

考慮到所有集群,該監(jiān)控方案:

監(jiān)控了 6 個(gè) Kubernetes 集群;

收集了 670 個(gè)服務(wù)的 metrics;

使用 Node Exporter 監(jiān)控了 246 個(gè)服務(wù)器;

每分鐘收集約 27w 個(gè)指標(biāo);

每天 ingest 約 7.3 GB 的數(shù)據(jù),或每月 ingest 約 226.3 GB 的數(shù)據(jù);

為 Kubernetes 組件創(chuàng)建了 40 個(gè)專(zhuān)用儀表盤(pán);

在 Grafana 上創(chuàng)建了 116 個(gè)警報(bào)。

對(duì)于每月費(fèi)用,由于大部分組件在本地運(yùn)行,成本降低了 90.61%,從每月 38,421.25 美元降至 3,608.99 美元,其中包括 AWS 服務(wù)成本。

總結(jié)

配置和設(shè)置上述架構(gòu)大約需要一個(gè)月左右的時(shí)間,包括測(cè)試其他一些解決方案、驗(yàn)證架構(gòu)、實(shí)現(xiàn)、在集群上開(kāi)啟收集以及創(chuàng)建所有儀表盤(pán)。

在第一周,好處是顯而易見(jiàn)的。監(jiān)控集群變得更加容易,儀表盤(pán)可以快速構(gòu)建和定制,收集 metrics 幾乎是即插即用的,大多數(shù)應(yīng)用程序以 Prometheus 格式導(dǎo)出 metrics,并根據(jù) annotations 自動(dòng)收集。

此外,通過(guò)集成 Grafana 的 LDAP 可以達(dá)到更精細(xì)的團(tuán)隊(duì)權(quán)限控制。開(kāi)發(fā)人員和 SRE 可以訪問(wèn)大量?jī)x表盤(pán),其中包含有關(guān)其命名空間、ingress 等的相關(guān) metrics。

原文標(biāo)題:使用 Thanos 和 Prometheus 打造一個(gè)高可用的 Kubernetes 監(jiān)控系統(tǒng)

文章出處:【微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 監(jiān)控系統(tǒng)

    關(guān)注

    21

    文章

    4175

    瀏覽量

    184861
  • kubernetes
    +關(guān)注

    關(guān)注

    0

    文章

    263

    瀏覽量

    9492
  • Prometheus
    +關(guān)注

    關(guān)注

    0

    文章

    36

    瀏覽量

    2054

原文標(biāo)題:使用 Thanos 和 Prometheus 打造一個(gè)高可用的 Kubernetes 監(jiān)控系統(tǒng)

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Prometheus的架構(gòu)原理從“監(jiān)控”談起

    Prometheus是繼Kubernetes(k8s)之后,CNCF畢業(yè)的第二個(gè)開(kāi)源項(xiàng)目,其來(lái)源于Google的Borgmon。本文從監(jiān)控這件事說(shuō)起,深入淺出Prometheus的架構(gòu)原理、目標(biāo)發(fā)現(xiàn)
    的頭像 發(fā)表于 10-10 15:47 ?5295次閱讀
    <b class='flag-5'>Prometheus</b>的架構(gòu)原理從“<b class='flag-5'>監(jiān)控</b>”談起

    阿里云容器Kubernetes監(jiān)控(二) - 使用Grafana展現(xiàn)Pod監(jiān)控數(shù)據(jù)

    摘要: 簡(jiǎn)介 在kubernetes的監(jiān)控方案中,Heapster+Influxdb+Grafana的組合相比prometheus等開(kāi)源方案而言更為簡(jiǎn)單直接。而且Heapster在
    發(fā)表于 05-10 15:28

    prometheus監(jiān)控服務(wù)的整個(gè)流程介紹

    最近有個(gè)新項(xiàng)目需要搞一套完整的監(jiān)控告警系統(tǒng),我們使用了開(kāi)源監(jiān)控告警系統(tǒng)Prometheus;其功能強(qiáng)大,可以很方便對(duì)其進(jìn)行擴(kuò)展,并且可以安裝
    發(fā)表于 12-23 17:34

    簡(jiǎn)述linux-arm64 UOS安裝開(kāi)源Grafana的步驟

    (linux-arm64)UOS安裝開(kāi)源Grafana-7.2.0,和CentOS安裝步驟一樣Grafana是一款用Go語(yǔ)言開(kāi)發(fā)的開(kāi)源數(shù)據(jù)可視化工具,可以做數(shù)據(jù)監(jiān)控和數(shù)據(jù)統(tǒng)計(jì),帶有告警功能,支持
    發(fā)表于 06-16 15:00

    Thanos大規(guī)模Prometheus集群解決方案

    thanos.zip
    發(fā)表于 04-25 10:58 ?0次下載
    <b class='flag-5'>Thanos</b>大規(guī)模<b class='flag-5'>Prometheus</b>集群解決方案

    Prometheus服務(wù)監(jiān)控系統(tǒng)

    prometheus.zip
    發(fā)表于 04-26 10:23 ?3次下載
    <b class='flag-5'>Prometheus</b>服務(wù)<b class='flag-5'>監(jiān)控</b><b class='flag-5'>系統(tǒng)</b>

    SpringBoot+Prometheus+Grafana實(shí)現(xiàn)自定義監(jiān)控

    為 /actuator/Prometheus 的 HTTP 服務(wù)來(lái)供 Prometheus 抓取數(shù)據(jù),不過(guò)默認(rèn)該服務(wù)是關(guān)閉的,該配置將打開(kāi)所有的 Actuator 服務(wù)。
    的頭像 發(fā)表于 12-26 16:02 ?2788次閱讀

    Grafana 9泰酷了吧

    Grafana 9.0 的主要重點(diǎn)是改善 Grafana 的用戶(hù)體驗(yàn),使可觀察性和數(shù)據(jù)可視化更易用也更容易獲得。無(wú)論是通過(guò) Prometheus 和 Loki 可視化查詢(xún)生成器還是面板和儀表板搜索
    的頭像 發(fā)表于 05-30 11:30 ?1024次閱讀
    <b class='flag-5'>Grafana</b> 9泰酷了吧

    基于kube-prometheus的大數(shù)據(jù)平臺(tái)監(jiān)控系統(tǒng)設(shè)計(jì)

    本文介紹了如何基于 kube-prometheus 設(shè)計(jì)一個(gè)監(jiān)控系統(tǒng), 以靈活簡(jiǎn)單的方式對(duì) kubernetes 上的應(yīng)用進(jìn)行指標(biāo)采集,并實(shí)現(xiàn)監(jiān)控報(bào)警功能。
    的頭像 發(fā)表于 05-30 17:02 ?1193次閱讀

    從零入門(mén)Prometheus:構(gòu)建企業(yè)級(jí)監(jiān)控與報(bào)警系統(tǒng)的最佳實(shí)踐指南

    測(cè)試環(huán)境 prometheus-2.26.0.linux-amd64.tar.gz下載地址:https://github.com/prometheus/prometheus/releases
    的頭像 發(fā)表于 02-10 11:28 ?1300次閱讀
    從零入門(mén)<b class='flag-5'>Prometheus</b>:<b class='flag-5'>構(gòu)建</b>企業(yè)級(jí)<b class='flag-5'>監(jiān)控</b>與報(bào)警<b class='flag-5'>系統(tǒng)</b>的最佳實(shí)踐指南

    使用PrometheusGrafana實(shí)現(xiàn)MindIE服務(wù)可視化監(jiān)控功能

    在 MindIE 服務(wù)化運(yùn)行過(guò)程中,為了及時(shí)掌握服務(wù)的運(yùn)行狀態(tài)、性能表現(xiàn)以及發(fā)現(xiàn)潛在問(wèn)題,提供了服務(wù)監(jiān)控指標(biāo)查詢(xún)接口(普羅 (Prometheus) 格式)。該接口能夠幫助開(kāi)發(fā)者和運(yùn)維人員獲取豐富的服務(wù)監(jiān)控指標(biāo)數(shù)據(jù),為優(yōu)化服務(wù)配
    的頭像 發(fā)表于 04-21 11:48 ?2266次閱讀
    使用<b class='flag-5'>Prometheus</b>與<b class='flag-5'>Grafana</b>實(shí)現(xiàn)MindIE服務(wù)可視化<b class='flag-5'>監(jiān)控</b>功能

    如何構(gòu)建高可用Prometheus監(jiān)控體系

    在云原生時(shí)代,傳統(tǒng)監(jiān)控工具已經(jīng)無(wú)法滿(mǎn)足微服務(wù)架構(gòu)的復(fù)雜需求。Prometheus憑借其Pull模式、多維數(shù)據(jù)模型和強(qiáng)大的查詢(xún)語(yǔ)言PromQL,成為了CNCF畢業(yè)項(xiàng)目中的監(jiān)控標(biāo)桿。
    的頭像 發(fā)表于 08-01 09:10 ?869次閱讀

    Zabbix與Prometheus運(yùn)維監(jiān)控系統(tǒng)的對(duì)比

    在當(dāng)今云原生和微服務(wù)架構(gòu)盛行的時(shí)代,監(jiān)控系統(tǒng)已成為運(yùn)維工程師不可或缺的核心工具。面對(duì)市場(chǎng)上眾多監(jiān)控解決方案,Zabbix和Prometheus作為兩大主流選擇,各自擁有獨(dú)特的優(yōu)勢(shì)和適用
    的頭像 發(fā)表于 09-18 14:57 ?647次閱讀

    使用VictoriaMetrics的Prometheus遠(yuǎn)程存儲(chǔ)方案

    Prometheus單機(jī)存儲(chǔ)在生產(chǎn)環(huán)境跑到一定規(guī)模就會(huì)碰壁——單節(jié)點(diǎn)磁盤(pán)容量有限,TSDB默認(rèn)保留15天數(shù)據(jù),想存半年以上的監(jiān)控數(shù)據(jù)基本不現(xiàn)實(shí)。更麻煩的是Prometheus沒(méi)有原生的高可用方案
    的頭像 發(fā)表于 02-26 16:30 ?105次閱讀

    使用PrometheusGrafana的企業(yè)級(jí)監(jiān)控落地實(shí)戰(zhàn)

    生產(chǎn)環(huán)境跑著幾百臺(tái)機(jī)器,出了故障全靠人肉巡檢和用戶(hù)反饋,這種被動(dòng)運(yùn)維的日子我們團(tuán)隊(duì)經(jīng)歷了兩年。2019年開(kāi)始全面切換到Prometheus+Grafana體系,到現(xiàn)在穩(wěn)定運(yùn)行了五年多,監(jiān)控覆蓋了主機(jī)、容器、中間件、業(yè)務(wù)指標(biāo)四個(gè)層面,日均采集指標(biāo)點(diǎn)超過(guò)2000萬(wàn)。
    的頭像 發(fā)表于 02-27 10:58 ?138次閱讀