1. 背景
京東的期中考試:618即將到來,各個團隊都在進(jìn)行期中考試前的模擬考試:軍演壓測,故障演練,系統(tǒng)的梳理以檢測系統(tǒng)的穩(wěn)定性以應(yīng)對高可用,高性能,高并發(fā)。我們知道系統(tǒng)的穩(wěn)定性建設(shè)是貫穿整個研發(fā)流程:需求階段,研發(fā)階段,測試階段,上線階段,運維階段;整個流程中的所有參與人員:產(chǎn)品,研發(fā),測試,運維人員都應(yīng)關(guān)注系統(tǒng)的穩(wěn)定性。業(yè)務(wù)的發(fā)展及系統(tǒng)建設(shè)過程中,穩(wěn)定性就是那個1,其他的是1后面的0,沒有穩(wěn)定性,就好比將萬丈高樓建于土沙之上。本篇文章主要從后端研發(fā)的視角針對研發(fā)階段和上線階段談下穩(wěn)定性建設(shè),希望起到拋磚引玉的作用,由于本人的水平有限,文中難免有理解不到位或者不全面的地方,歡迎批評指正。
2. 研發(fā)階段
研發(fā)階段主要參與人員是研發(fā),主要產(chǎn)出物是技術(shù)方案設(shè)計文檔和代碼,一個是研發(fā)階段的開始,一個是研發(fā)階段的結(jié)束,我們要把控好技術(shù)文檔和代碼質(zhì)量,從而減少線下bug率及線上的故障;
2.1 技術(shù)方案
2.1.1 技術(shù)方案評審
技術(shù)文檔的評審需要有本團隊的架構(gòu)師和相關(guān)研發(fā),測試,產(chǎn)品,上下游系統(tǒng)的研發(fā)同學(xué)參與,這樣能夠最大限度的保證技術(shù)方案的實現(xiàn)和產(chǎn)品需求對齊,上下游系統(tǒng)同學(xué)也知道我們的實現(xiàn),采取更加合理的交互方式,測試同學(xué)也可以從測試視角給出一些風(fēng)險點建議,架構(gòu)師可以確保我們的實現(xiàn)和業(yè)界最佳實踐的差異,確保合理性,避免過度設(shè)計;我們所要做的是開放心態(tài)采取大家的意見,嚴(yán)控技術(shù)文檔的質(zhì)量;
技術(shù)文檔的評審可以采用提問的方式,會議開始前可以將技術(shù)文檔分享給大家,讓大家先閱讀10分鐘,所有同學(xué)開始提問,技術(shù)文檔設(shè)計人其實不用讀自己的技術(shù)文檔給大家介紹,只要將大家的問題回答完,并能夠思考下大家的建議,合理的采納后,其實技術(shù)文檔的質(zhì)量就有了很大的保證,有的同學(xué)在技術(shù)文檔評審時,比較反感大家的提問,總感覺在挑戰(zhàn)自己,有些問題回答不上來,其實可以換種思路:有些問題回答不上來是正常的,可以先將大家的建議采納了,會后再思考下合理性;大家對自己技術(shù)方案是建言獻(xiàn)策,是保證自己技術(shù)方案的質(zhì)量,避免在技術(shù)方案階段就存在重大的線上隱患。
2.1.2 技術(shù)方案關(guān)注點
當(dāng)我們遇到一個問題的時候,首先要思考的這是一個新問題還是老問題,99.99%遇到的都是老問題,因為我們所從事的是工程技術(shù),不是科學(xué)探索;我們所要做的就是看下國內(nèi)外同行針對這個問題的解法,learn from best practices;所以技術(shù)方案的第一步是對標(biāo),學(xué)習(xí)最佳實踐,這樣能讓我們避免走彎路;
同時根據(jù)奧卡姆剃刀原理,我們力求技術(shù)方案簡單,避免過度設(shè)計,針對一個復(fù)雜的問題,我們的技術(shù)方案相對復(fù)雜些,簡單的問題技術(shù)方案相對簡單些,我們所要追求的是復(fù)雜的問題通過拆解劃分,用一個個簡單的技術(shù)方案解決掉。同時技術(shù)文檔不僅關(guān)注功能的實現(xiàn),更重要的是關(guān)注架構(gòu),性能,質(zhì)量,安全;即如何打造一個高可用系統(tǒng)。打造一個高可用的系統(tǒng)是進(jìn)行系統(tǒng)穩(wěn)定性建設(shè)的前提,如果我們的系統(tǒng)都不能保證高可用,又談何系統(tǒng)穩(wěn)定系建設(shè)那,下面介紹下進(jìn)行系統(tǒng)穩(wěn)定性建設(shè)我們在技術(shù)方案中常用的方法及關(guān)注點。
2.1.2.1 限流
限流一般是從服務(wù)提供者provider的視角提供的針對自我保護的能力,對于流量負(fù)載超過我們系統(tǒng)的處理能力,限流策略可以防止我們的系統(tǒng)被激增的流量打垮。京東內(nèi)部無論是同步交互的JSF, 還是異步交互的JMQ都提供了限流的能力,大家可以根據(jù)自己系統(tǒng)的情況進(jìn)行設(shè)置;我們知道常見的限流算法包括:計數(shù)器算法,滑動時間窗口算法,漏斗算法,令牌桶算法,具體算法可以網(wǎng)上google下,下面是這些算法的優(yōu)缺點對比。

2.1.2.2 熔斷降級
熔斷和降級是兩件事情,但是他們一般是結(jié)合在一起使用的。熔斷是防止我們的系統(tǒng)被下游系統(tǒng)拖垮,比如下游系統(tǒng)接口性能嚴(yán)重變差,甚至下游系統(tǒng)掛了;這個時候會導(dǎo)致大量的線程堆積,不能釋放占用的CPU,內(nèi)存等資源,這種情況下不僅影響該接口的性能,還會影響其他接口的性能,嚴(yán)重的情況會將我們的系統(tǒng)拖垮,造成雪崩效應(yīng),通過打開熔斷器,流量不再請求到有問題的系統(tǒng),可以保護我們的系統(tǒng)不被拖垮。降級是一種有損操作,我們作為服務(wù)提供者,需要將這種損失盡可能降到最低,無論是返回友好的提示,還是返回可接受的降級數(shù)據(jù)。降級細(xì)分的話又分為人工降級,自動降級。
人工降級:人工降級一般采用降級開關(guān)來控制,公司內(nèi)部一般采用配置中心Ducc來做開關(guān)降級,開關(guān)的修改也是線上操作,這塊也需要做好監(jiān)控
自動降級:自動降級是采用自動化的中間件例如Hystrix,公司的小盾龍等;如果采用自動降級的話;我們必須要對降級的條件非常的明確,比如失敗的調(diào)用次數(shù)等;
2.1.2.3 超時
分布式系統(tǒng)中的難點之一:不可靠的網(wǎng)絡(luò),京東物流現(xiàn)有的微服務(wù)架構(gòu)下,服務(wù)之間都是通過JSF網(wǎng)絡(luò)交互進(jìn)行同步通信,我們探測下游依賴服務(wù)是否可用的最快捷的方式是設(shè)置超時時間。超時的設(shè)置可以讓系統(tǒng)快速失敗,進(jìn)行自我保護,避免無限等待下游依賴系統(tǒng),將系統(tǒng)的線程耗盡,系統(tǒng)拖垮。
超時時間如何設(shè)置也是一門學(xué)問,如何設(shè)置一個合理的超時時間也是一個逐步迭代的過程,比如下游新開發(fā)的接口,一般會基于壓測提供一個TP99的耗時,我們會基于此配置超時時間;老接口的話,會基于線上的TP99耗時來配置超時時間。
超時時間在設(shè)置的時候需要遵循漏斗原則,從上游系統(tǒng)到下游系統(tǒng)設(shè)置的超時時間要逐漸減少,如下圖所示。為什么要滿足漏斗原則,假設(shè)不滿足漏斗原則,比如服務(wù)A調(diào)取服務(wù)B的超時時間設(shè)置成500ms,而服務(wù)B調(diào)取服務(wù)C的超時時間設(shè)置成800ms,這個時候回導(dǎo)致服務(wù)A調(diào)取服務(wù)B大量的超時從而導(dǎo)致可用率降低,而此時服務(wù)B從自身角度看是可用的;

2.1.2.4 重試
分布式系統(tǒng)中性能的影響主要是通信,無論是在分布式系統(tǒng)中還是垮團隊溝通,communication是最昂貴的;比如我們研發(fā)都知道需求的交付有一半以上甚至更多的時間花在跨團隊的溝通上,真正寫代碼的時間是很少的;分布式系統(tǒng)中我們查看調(diào)用鏈路,其實我們系統(tǒng)本身計算的耗時是很少的,主要來自于外部系統(tǒng)的網(wǎng)絡(luò)交互,無論是下游的業(yè)務(wù)系統(tǒng),還是中間件:Mysql, redis, es等等;
所以在和外部系統(tǒng)的一次請求交互中,我們系統(tǒng)是希望盡最大努力得到想要的結(jié)果,但往往事與愿違,由于不可靠網(wǎng)絡(luò)的原因,我們在和下游系統(tǒng)交互時,都會配置超時重試次數(shù),希望在可接受的SLA范圍內(nèi)一次請求拿到結(jié)果,但重試不是無限的重試,我們一般都是配置重試次數(shù)的限制,偶爾抖動的重試可以提高我們系統(tǒng)的可用率,如果下游服務(wù)故障掛掉,重試反而會增加下游系統(tǒng)的負(fù)載,從而增加故障的嚴(yán)重程度。在一次請求調(diào)用中,我們要知道對外提供的API,后面是有多少個service在提供服務(wù),如果調(diào)用鏈路比較長,服務(wù)之間rpc交互都設(shè)置了重試次數(shù),這個時候我們需要警惕重試風(fēng)暴。如下圖service D 出現(xiàn)問題,重試風(fēng)暴會加重service D的故障嚴(yán)重程度。對于API的重試,我們還要區(qū)分該接口是讀接口還是寫接口,如果是讀接口重試一般沒什么影響,寫接口重試一定要做好接口的冪等性。

2.1.2.5 兼容
我們在對老系統(tǒng),老功能進(jìn)行重構(gòu)迭代的時候,一定要做好兼容,否則上線后會出現(xiàn)重大的線上問題,公司內(nèi)外有大量因為沒有做好兼容性,而導(dǎo)致資損的情況。兼容分為:向前兼容性和向后兼容性,需要好好的區(qū)分他們,如下是他們的定義:
向前兼容性:向前兼容性指的是舊版本的軟件或硬件能夠與將來推出的新版本兼容的特性,簡而言之舊版本軟件或系統(tǒng)兼容新的數(shù)據(jù)和流量。
向后兼容性:向后兼容性則是指新版本的軟件或硬件能夠與之前版本的系統(tǒng)或組件兼容的特性,簡而言之新版本軟件或系統(tǒng)兼容老的數(shù)據(jù)和流量。
根據(jù)新老系統(tǒng)和新老數(shù)據(jù)我們可以將系統(tǒng)劃分為四個象限:第一象限:新系統(tǒng)和新數(shù)據(jù)是我們系統(tǒng)改造上線后的狀態(tài),第三象限:老系統(tǒng)和老數(shù)據(jù)是我們系統(tǒng)改造上線前的狀態(tài),第一象限和第三象限的問題我們在研發(fā)和測試階段一般都能發(fā)現(xiàn)排除掉,線上故障的高發(fā)期往往出現(xiàn)在第二和第四象限,第二象限是因為沒有做好向前兼容性,例如上線過程中,發(fā)現(xiàn)問題進(jìn)行了代碼回滾,但是在上線過程中產(chǎn)生了新數(shù)據(jù),回滾后的老系統(tǒng)不能處理上線過程中新產(chǎn)生的數(shù)據(jù),導(dǎo)致線上故障。第四象限是因為沒有做好向后兼容性,上線后新系統(tǒng)影響了老流程。針對第二象限的問題,我們可以構(gòu)造新的數(shù)據(jù)去驗證老的系統(tǒng),針對第四象限的問題,我們可以通過流量的錄制回放解決,錄制線上的老流量,對新功能進(jìn)行驗證。

2.1.2.6 隔離
隔離是將故障爆炸半徑最小化的有效手段,在技術(shù)方案設(shè)計中,我們通過不同層面的隔離來控制影響范圍:
2.1.2.6.1 系統(tǒng)層面隔離
我們知道系統(tǒng)的分類可以分為:在線的系統(tǒng),離線系統(tǒng)(批處理系統(tǒng)),近實時系統(tǒng)(流處理系統(tǒng)),如下是這些系統(tǒng)的定義:
在線系統(tǒng):服務(wù)端等待請求的到達(dá),接收到請求后,服務(wù)盡可能快的處理,然后返回給客戶端一個響應(yīng),響應(yīng)時間通常是在線服務(wù)性能的主要衡量指標(biāo)。我們生活中在手機使用的APP大部分都是在線系統(tǒng);
離線系統(tǒng):或稱批處理系統(tǒng),接收大量的輸入數(shù)據(jù),運行一個作業(yè)來處理數(shù)據(jù),并產(chǎn)出輸出數(shù)據(jù),作業(yè)往往需要定時,定期運行一段時間,比如從幾分鐘到幾天,所以用戶通常不會等待作業(yè)完成,吞吐量是離線系統(tǒng)的主要衡量指標(biāo)。例如我們看到的報表數(shù)據(jù):日訂單量,月訂單量,日活躍用戶數(shù),月活躍用戶數(shù)都是批處理系統(tǒng)運算一段時間得到的;
近實時系統(tǒng):或者稱流處理系統(tǒng),其介于在線系統(tǒng)和離線系統(tǒng)之間,流處理系統(tǒng)一般會有觸發(fā)源:用戶的行為操作,數(shù)據(jù)庫的寫操作,傳感器等,觸發(fā)源作為消息會通過消息代理中間件:JMQ, KAFKA等進(jìn)行傳遞,消費者消費到消息后再做其他的操作,例如構(gòu)建緩存,索引,通知用戶等;
以上三種系統(tǒng)是需要進(jìn)行隔離建設(shè)的,因為他們的衡量指標(biāo)及對資源的使用情況完全不一樣的,比如我們小組會將在線系統(tǒng)作為一個服務(wù)單獨部署:jdl-uep-main, 離線系統(tǒng)和近實時系統(tǒng)作為一個服務(wù)單獨部署:jdl-uep-worker;
2.1.2.6.2 環(huán)境的隔離
從研發(fā)到上線階段我們會使用不同的環(huán)境,比如業(yè)界常見的環(huán)境分為:開發(fā),測試,預(yù)發(fā)和線上環(huán)境;研發(fā)人員在開發(fā)環(huán)境進(jìn)行開發(fā)和聯(lián)調(diào),測試人員在測試環(huán)境進(jìn)行測試,運營和產(chǎn)品在預(yù)發(fā)環(huán)境進(jìn)行UAT,最終交付的產(chǎn)品部署到線上環(huán)境提供給用戶使用。在研發(fā)流程中,我們部署時要遵循從應(yīng)用層到中間件層再到存儲層,都要在一個環(huán)境,嚴(yán)禁垮環(huán)境的調(diào)用,比如測試環(huán)境調(diào)用線上,預(yù)發(fā)環(huán)境調(diào)用線上等。

2.1.2.6.3 數(shù)據(jù)的隔離
隨著業(yè)務(wù)的發(fā)展,我們對外提供的服務(wù)往往會支撐多業(yè)務(wù),多租戶,所以這個時候我們會按照業(yè)務(wù)進(jìn)行數(shù)據(jù)隔離;比如我們組產(chǎn)生的物流訂單數(shù)據(jù)業(yè)務(wù)方就包含京東零售,其他電商平臺,ISV等,為了避免彼此的影響我們需要在存儲層對數(shù)據(jù)進(jìn)行隔離,數(shù)據(jù)的隔離可以按照不同粒度,第一種是通過租戶id字段進(jìn)行區(qū)分,所有的數(shù)據(jù)存儲在一張表中,另外一個是庫粒度的區(qū)分,不同的租戶單獨分配對應(yīng)的數(shù)據(jù)庫。

數(shù)據(jù)的隔離除了按照業(yè)務(wù)進(jìn)行隔離外,還有按照環(huán)境進(jìn)行隔離的,比如我們的數(shù)據(jù)庫分為測試庫,預(yù)發(fā)庫,線上庫,全鏈路壓測時,我們?yōu)榱四M線上的環(huán)境,同時避免污染線上的數(shù)據(jù),往往會創(chuàng)建影子庫,影子表等。根據(jù)數(shù)據(jù)的訪問頻次進(jìn)行隔離,我們將經(jīng)常訪問的數(shù)據(jù)稱為熱數(shù)據(jù),不經(jīng)常訪問的數(shù)據(jù)稱為冷數(shù)據(jù);將經(jīng)常訪問的數(shù)據(jù)緩存到緩存,提高系統(tǒng)的性能。不經(jīng)常訪問的數(shù)據(jù)持久化到數(shù)據(jù)庫或者將不使用的數(shù)據(jù)結(jié)轉(zhuǎn)歸檔到
2.1.2.6.4 核心,非核心隔離
我們知道應(yīng)用是分級的,京東內(nèi)部針對應(yīng)用的重要程度會將應(yīng)用分為0,1,2,3級應(yīng)用。業(yè)務(wù)的流程也分為黃金流程和非黃金流程。在業(yè)務(wù)流程中,針對不同級別的應(yīng)用交互,需要將核心和非核心的流程進(jìn)行隔離。例如在交易業(yè)務(wù)過程中,會涉及到訂單系統(tǒng),支付系統(tǒng),通知系統(tǒng),那這個過程中核心系統(tǒng)是訂單系統(tǒng)和支付系統(tǒng),而通知相對來說重要性不是那么高,所以我們會投入更多的資源到訂單系統(tǒng)和支付系統(tǒng),優(yōu)先保證這兩個系統(tǒng)的穩(wěn)定性,通知系統(tǒng)可以采用異步的方式與其他兩個系統(tǒng)解耦隔離,避免對其他另外兩個系統(tǒng)的影響。

2.1.2.6.5 讀寫隔離
應(yīng)用層面,領(lǐng)域驅(qū)動設(shè)計(DDD)中最著名的CQRS(Command Query Responsibility Segregation)將寫服務(wù)和讀服務(wù)進(jìn)行隔離。寫服務(wù)主要處理來自客戶端的command寫命令,而讀服務(wù)處理來自客戶端的query讀請求,這樣從應(yīng)用層面進(jìn)行讀寫隔離,不僅可以提高系統(tǒng)的可擴展性,同時也會提高系統(tǒng)的可維護性,應(yīng)用層面我們都采用微服務(wù)架構(gòu),應(yīng)用層都是無狀態(tài)服務(wù),可以擴容加機器隨意擴展,存儲層需要持久化,擴展就比較費勁。除了應(yīng)用層面的CQRS,在存儲層面,我們也會進(jìn)行讀寫隔離,例如數(shù)據(jù)庫都會采用一主多從的架構(gòu),讀請求可以路由到從庫從而分擔(dān)主庫的壓力,提高系統(tǒng)的性能和吞吐量。所以應(yīng)用層面通過讀寫隔離主要解決可擴展問題,存儲層面主要解決性能和吞吐量的問題。

?
2.1.2.6.6 線程池隔離
線程是昂貴的資源,為了提高線程的使用效率,避免創(chuàng)建和銷毀的消耗,我們采用了池化技術(shù),線程池來復(fù)用線程,但是在使用線程池的過程中,我們也做好線程池的隔離,避免多個API接口復(fù)用同一個線程。

2.2 代碼Review
codeReview是研發(fā)階段的最后一個流程,對線下的bug率和線上質(zhì)量及穩(wěn)定性有著重要的作用,針對于代碼如何review,談一些自己的看法:
?形成團隊代碼風(fēng)格:首先一個團隊的代碼應(yīng)該形成該團隊的代碼風(fēng)格,這樣能夠提高codeReview的效率及協(xié)作的效率,作為新加入的成員,應(yīng)該遵循團隊的代碼風(fēng)格規(guī)范。
?Review的關(guān)注點:代碼review切記不要陷入細(xì)節(jié),主要以review代碼風(fēng)格為主,如果一個團隊形成統(tǒng)一的代碼風(fēng)格,我們通過review風(fēng)格就能將大部分問題發(fā)現(xiàn),在關(guān)注功能的同時,再關(guān)注下性能,安全。
?結(jié)對編程:在代碼編寫過程中,我們要培養(yǎng)結(jié)對編程的習(xí)慣,這樣針對某次需求,codeReview時,熟悉該模塊的同事把控下細(xì)節(jié),架構(gòu)師把控風(fēng)格。
?控制每次review代碼量:每次提交代碼進(jìn)行review時,不要一次性提交review大量的代碼,要將review的內(nèi)容細(xì)分,比如一個方法的實現(xiàn),一個類等。
?開放心態(tài):review的過程其實是學(xué)習(xí)提升的過程,通過代碼review,虛心接收別人的意見,學(xué)習(xí)優(yōu)雅代碼的編寫方式,提高自己的代碼水平。
3 上線階段
我們可以看下公司的故障管理平臺白虎所記錄的故障:發(fā)生系統(tǒng)故障一般都是外部對系統(tǒng)做了改變,往往發(fā)生在上線階段:代碼的部署,數(shù)據(jù)庫的更改,配置中心的變動等;上線階段是故障的高發(fā)期;一個系統(tǒng)不可能不出線上問題,我們所要追求的是,降低線上的故障頻率,縮短故障恢復(fù)時間。針對上線過程出現(xiàn)問題,我們知道業(yè)界有著名的上線過程三板斧:可監(jiān)控,可灰度,可回滾。
3.1 上線三板斧
3.1.1 可監(jiān)控
上線的過程中,我們的系統(tǒng)要做到可監(jiān)控,如果沒有監(jiān)控,上線過程中我們對系統(tǒng)的狀態(tài)是一無所知,是很可怕的。監(jiān)控什么東西那,其實監(jiān)控的就是指標(biāo)。這就涉及到指標(biāo)的定義,指標(biāo)我們分為業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo),技術(shù)指標(biāo)又分為軟件和硬件。業(yè)務(wù)指標(biāo)一般是我們定義的觀測業(yè)務(wù)變化情況的度量,例如訂單量,支付量等。技術(shù)層面的軟件指標(biāo):可用率,TP99, 調(diào)用量,技術(shù)層面的硬件指標(biāo):cpu 內(nèi)存 磁盤 網(wǎng)絡(luò)IO。目前我們二級部門在做OpsReview,主要review的是可用率,TP99,調(diào)用量這幾個指標(biāo),分別對應(yīng)系統(tǒng)的可用性,性能,并發(fā)。
做好這些指標(biāo)的監(jiān)控后,我們接下來需要做的是針對這些指標(biāo)做好告警,如果某個指標(biāo)突破設(shè)定的閾值后,需要進(jìn)行告警通知給我們,針對監(jiān)控告警指標(biāo)閾值的設(shè)置,建議先嚴(yán)后松,即系統(tǒng)建設(shè)初始階段設(shè)置的嚴(yán)格些,避免遺漏告警,出現(xiàn)線上問題,后續(xù)隨著系統(tǒng)建設(shè)的迭代需要設(shè)置更合理的告警閾值,避免告警泛濫,造成狼來了的效應(yīng)。總之上線發(fā)布過程的一段時間是事故和問題發(fā)生的高峰,這塊一定做好指標(biāo)監(jiān)控,日志監(jiān)控,對報警要敏感。

3.1.2 可灰度
上線過程中,我們要做到可灰度,通過灰度執(zhí)行變更以限制爆炸半徑,降低影響范圍,同時灰度過程要做好兼容。灰度分為不同維度的灰度:機器維度,機房維度,地域維度,業(yè)務(wù)維度:用戶,商家,倉,承運商等。
機器維度:我們用行云部署時,可以每個分組先部署一部分機器進(jìn)行灰度,灰度一段時間比如:24小時沒什么問題后,再部署剩余的機器。
機房維度:微服務(wù)架構(gòu)下,我們的應(yīng)用會部署在不同的機房中,可以按照機房維度灰度,比如先部署發(fā)布代碼在某個機房分組下,觀察一段時間再按照比例擴大灰度機房范圍直至全量。例如先部署中云信的機房,灰度一段時間后,再逐步灰度有孚的機房。
地域維度:現(xiàn)在的部署架構(gòu)都是多機房互為災(zāi)備,異地多活,單元化部署,例如業(yè)界美團的外賣業(yè)務(wù)非常適合做異地多活,單元化部署,因為外賣業(yè)務(wù)的商戶,用戶,騎手天然具有聚合性,北京的用戶大概率不會在上海點外賣,這樣根據(jù)業(yè)務(wù)的屬性,在系統(tǒng)建設(shè)的時候,從應(yīng)用層到中間件層,再到存儲層可以單元化部署在上海地域的機房和北京地域的機房,功能發(fā)布的時候可以灰度某個地域,做到地域級別的容災(zāi)。
業(yè)務(wù)維度:在上線過程中,我們也可以根據(jù)業(yè)務(wù)屬性進(jìn)行灰度,例如上線了某個功能或者產(chǎn)品,根據(jù)用戶維度灰度,某些用戶或者某些商戶才能使用該功能,產(chǎn)品。
3.1.3 可回滾
線上出現(xiàn)問題時,我們應(yīng)該優(yōu)先止損,其次才是分析根因。止損的最快方式就是回滾,回滾分為代碼回滾和數(shù)據(jù)回滾,代碼回滾即將我們代碼恢復(fù)到原有的邏輯,代碼回滾有兩種方式:開關(guān)控制和部署回滾。最快捷的方式是開關(guān)控制,一鍵開關(guān)打開或者關(guān)閉就可以實現(xiàn)回滾到原有的邏輯,操作成本最低,止損最快速。第二種方式就是部署回滾,通過發(fā)布平臺,例如行云將代碼回滾到上個穩(wěn)定運行的版本。有時候我們代碼回滾完,如果沒有做好向前兼容性,系統(tǒng)應(yīng)用依然有問題,例如上線過程中產(chǎn)生了新數(shù)據(jù),回滾完后,代碼不能處理新的數(shù)據(jù)。所以這個時候又涉及到數(shù)據(jù)的回滾,數(shù)據(jù)的回滾涉及到修數(shù):將產(chǎn)生的新數(shù)據(jù)無效掉,或者修改為正確的數(shù)據(jù)等,當(dāng)數(shù)據(jù)量比較大時,數(shù)據(jù)的回滾一般耗時費力,所以建議做好向前兼容性,直接代碼回滾。
3.2 線上問題應(yīng)對
3.2.1 常見問題分類
針對線上的問題,我們第一步是識別出是什么問題,然后才能解決問題,針對線上各種各樣的問題我們可以進(jìn)行聚合,歸并分類下,針對每種問題去參考業(yè)界的處理方法和團隊的內(nèi)的緊急預(yù)案,做到臨陣不亂。

3.2.2 問題生命周期
當(dāng)出現(xiàn)問題時,我們也需要清楚一個線上問題的生命周期:從問題發(fā)生,到我們發(fā)現(xiàn)問題,進(jìn)而進(jìn)行響應(yīng)處理,觀測問題是否修復(fù),服務(wù)是否恢復(fù)正常,到最終針對該問題進(jìn)行復(fù)盤,當(dāng)發(fā)生系統(tǒng)發(fā)生問題時,我們越早發(fā)現(xiàn)問題,對業(yè)務(wù)的影響越小,整個流程如下圖所示。

3.2.3 如何預(yù)防問題
就像人的身體生病一樣,當(dāng)問題發(fā)生已經(jīng)晚了,我們要投入更多時間和精力到如何預(yù)防中,就像扁鵲的大哥一樣治未病,防患于未然。根據(jù)破窗原理,一個問題出現(xiàn)了,如果放任不管,問題的嚴(yán)重性會越來越大,直到不可挽回。我們可以從研發(fā)的規(guī)范,研發(fā)的流程,變更流程這幾個方面進(jìn)行預(yù)防。

3.2.4 如何發(fā)現(xiàn)問題
對于一個系統(tǒng),如果外界不對其做功,根據(jù)熵增原理,其會越來越混亂,直到出現(xiàn)問題,外界對其做功,就涉及到改變,因為改變是人在操作,由于各種不可控的因素,也會導(dǎo)致各種線上問題,所以我們可以看到對于一個系統(tǒng)上線后不出現(xiàn)問題是不可能的,當(dāng)出現(xiàn)問題時,我們第一步是如何快速的發(fā)現(xiàn)問題?對于問題發(fā)現(xiàn)的渠道,工作中接觸到的有如下幾種:自我意識,監(jiān)控告警,業(yè)務(wù)反饋;
自我意識:我們C2部門每周有一個重要會議OpsReview,各個C3團隊會對個團隊的核心接口的不規(guī)律跳點,毛刺進(jìn)行可用率,性能,調(diào)用量的review,以通過這種主動的,自我意識行為發(fā)現(xiàn)潛在的線上問題。同時我們組每天早會的重要一項:UMP監(jiān)控全域看板的review,我們會對昨天核心接口的可用率,TP99,調(diào)用量,進(jìn)行分析的,對于可用率降低,TP99有毛刺,不規(guī)范的流量調(diào)用會進(jìn)行排查原因,盡早自我發(fā)現(xiàn)問題,同時也會對機器的CPU, 內(nèi)存使用率,Mysql, redis , es各種存儲進(jìn)行review。
監(jiān)控告警:這是我們發(fā)現(xiàn)問題最常用的渠道,通過主動的監(jiān)控指標(biāo),被動的接收告警來發(fā)現(xiàn)問題,告警指標(biāo)我們分為業(yè)務(wù)指標(biāo)和技術(shù)指標(biāo),具體分類可詳見3.1.1可監(jiān)控部分
業(yè)務(wù)反饋:這種發(fā)現(xiàn)問題的方式是我們最不愿意看到的,如果等到業(yè)務(wù)反饋,說明線上問題已經(jīng)影響到用戶,我們常常因為監(jiān)控告警的缺失,漏報而導(dǎo)致落后于業(yè)務(wù)發(fā)現(xiàn)問題,所以我們最希望每個人,團隊都有這種自我意識,將線上問題提早發(fā)現(xiàn),防患于未然。
3.2.5 如何響應(yīng)問題
出現(xiàn)線上問題后,我們個人對問題的認(rèn)知是非常有限的,并且這個時候人處于一種高度緊張的狀態(tài),所以這個時候一定要群里周知自己的leader,將情況如實表達(dá),不要夸大和縮小問題的范圍和影響,同時將問題進(jìn)行通告。整個問題的響應(yīng)過程包含以下幾步:
1.保留現(xiàn)場:問題發(fā)生的現(xiàn)場是我們排查問題的依據(jù),所以要將現(xiàn)場的日志,數(shù)據(jù)等信息保存好,比如內(nèi)存dump, 線程dump,避免機器重啟后這些信息的丟失。
2.提供信息:提供自己所知道的信息,協(xié)助排查,不要擴大和縮小問題
3.恢復(fù)服務(wù):當(dāng)出現(xiàn)線上問題是,我們追求的是以最快的速度恢復(fù)服務(wù),快速止損,業(yè)界有快速止血,恢復(fù)服務(wù)的幾板斧:回滾:服務(wù)回滾,數(shù)據(jù)回滾,重啟,擴容,禁用節(jié)點,功能降級
4.雙重確認(rèn):服務(wù)恢復(fù)后,我們需要確認(rèn)是否恢復(fù)了,可以通過觀察:業(yè)務(wù)指標(biāo)是否正常,技術(shù)指標(biāo)是否正常,數(shù)據(jù)是否正常,日志是否正常等來觀測問題的恢復(fù)情況
5.故障通告:確認(rèn)問題沒有什么問題后,需要再應(yīng)急群中周知大家:業(yè)務(wù)人員,產(chǎn)品經(jīng)理,系統(tǒng)的上下游,測試人員,SRE等。并讓產(chǎn)品和業(yè)務(wù)進(jìn)行確認(rèn),然后周知用戶。
3.2.6 如何定位問題
服務(wù)恢復(fù)后,我們可以回過頭來細(xì)致的分析下到底是什么原因?qū)е铝司€上的問題。定位問題也要講究方法論,這就涉及到定位問題三要素:知識,工具,方法。
知識:相對其他行業(yè),計算機行業(yè)應(yīng)該是知識更新迭代最快的行業(yè),所以我們需要不斷的去學(xué)習(xí),更新自己的知識庫,不給自己設(shè)限。例如你想解決FullGC問題,你必須對JVM進(jìn)行系統(tǒng)的學(xué)習(xí),想解決慢sql,必須對Mysql進(jìn)行系統(tǒng)的學(xué)習(xí),現(xiàn)在AI大模型這么火,我們也需要對prompt engineering, RAG , Agent, 多模態(tài)等進(jìn)行學(xué)習(xí)了解。有了知識我們才能遇到問題時,知道是什么,為什么?
工具:工欲善其事,必先利其器,工程師要善于借助公司工具來提高解決問題的效率,熟練使用公司各種中間件工具,公司已經(jīng)有的中間件,優(yōu)先使用公司的中間件,公司內(nèi)一個中間件團隊維護的中間件工具要優(yōu)于業(yè)務(wù)研發(fā)小組內(nèi)維護的中間件工具,不要小組內(nèi)部,或者團隊內(nèi)部重復(fù)造輪子,并且小組內(nèi)人員的流動變更,容易造成中間件沒人維護。下圖是公司常用的中間件工具:

方法:解決問題我們要講究方法,選擇正確的方法可以事半功倍,提高我們定位問題及解決問題的效率,下面是我們研發(fā)人員常見的排查問題的方法

3.2.7 如何修復(fù)問題
有了知識,工具和方法后,其實我們很快的就定位到問題了,定位到問題后,我們就要想辦法如何去把問題修復(fù)了,以下是問題修復(fù)的流程:

3.2.8 如何復(fù)盤問題
問題發(fā)生后,我們需要從此次問題中分析根因,并汲取教訓(xùn)和經(jīng)驗,避免犯同樣的錯誤。這就涉及到問題的復(fù)盤,如何進(jìn)行問題的復(fù)盤那,一般會經(jīng)過如下幾個步驟:回顧目標(biāo),評價結(jié)果,分析原因,總結(jié)經(jīng)驗。例如我們C2部門每周的opsReview會議上都會有線上問題的復(fù)盤:coe,如何進(jìn)行coe復(fù)盤談一些自己的思考。
?參考業(yè)界的5WHY分析法剖析問題的根因
?5WHY分析法:5代表的是問題的深度,而不是問題的數(shù)量
?基于問題的答案繼續(xù)進(jìn)行提問,5個問題是有關(guān)聯(lián)的,層層遞進(jìn)的,找到問題的根因

4 參考資料
??https://itrevolution.com/articles/20-years-of-google-sre-10-key-lessons-for-reliability/?
??https://learn.microsoft.com/en-us/previous-versions/msp-n-p/jj591573(v=pandp.10)?redirectedfrom=MSDN?
??https://sre.google/books/
審核編輯 黃宇
-
系統(tǒng)穩(wěn)定性
+關(guān)注
關(guān)注
0文章
9瀏覽量
7018
發(fā)布評論請先 登錄
微電網(wǎng)穩(wěn)定性理論在實際應(yīng)用中面臨哪些挑戰(zhàn)
COT控制模式的電源穩(wěn)定性驗證原理揭秘
Neway微波的穩(wěn)定性優(yōu)勢
數(shù)字隔離器,如何提升光伏系統(tǒng)的運行穩(wěn)定性?
武漢芯源MCU的時鐘系統(tǒng)如何設(shè)計?如何保證高精度和高穩(wěn)定性?
CW32 MCU在高頻率運行下的系統(tǒng)穩(wěn)定性的提升方案
萬字長文AI智能體:17種體架構(gòu)詳細(xì)實現(xiàn)
高精度壓力測量器:國產(chǎn)萬分級精度零點穩(wěn)定性和滿量程穩(wěn)定性能應(yīng)用場景分析
如何保證合金電阻的穩(wěn)定性與精度?
三坐標(biāo)如何實現(xiàn)測量穩(wěn)定性的提升
厚聲電阻的長期穩(wěn)定性如何?
螺桿支撐座安裝后如何檢驗它的穩(wěn)定性?
雙電機分布式驅(qū)動汽車高速穩(wěn)定性機電耦合控制
合金電阻穩(wěn)定性優(yōu)于其他材料的深度解析
頻率穩(wěn)定性的技術(shù)解析
萬字長文淺談系統(tǒng)穩(wěn)定性建設(shè)
評論