北京2026年4月7日 /美通社/ -- 亞馬遜云科技宣布Amazon DevOps Agent現已正式可用。Amazon DevOps Agent是用戶全天候隨時待命的智能運維助手。它可跨亞馬遜云科技、多云及本地環境,快速排查故障、主動預防問題,優化應用可靠性與性能,并高效處理各類SRE任務。
運維團隊常因繁瑣排障、多工具數據比對、手動分類告警耗費大量時間,擠占創新與戰略工作精力。Amazon DevOps Agent可像資深DevOps工程師那樣排查問題。它能夠學習用戶的應用及其相互關系,與用戶的可觀測工具、運維手冊、代碼庫和CI/CD管道協同工作,并關聯所有這些工具中的遙測數據、代碼和部署數據。Amazon DevOps Agent預覽版數據顯示,客戶和合作伙伴的平均修復時間(MTTR)最多可降低75%,排查速度提高80%,根因定位準確率高達94%,故障解決速度提高3至5倍。
自預覽版發布以來,眾多行業客戶已將Amazon DevOps Agent集成到其運維工作流程中。他們已將其與Amazon CloudWatch以及Datadog、Dynatrace、New Relic、Splunk、GitHub、GitLab、ServiceNow和Slack等合作伙伴工具連接起來。在此次正式版發布中,Amazon DevOps Agent又新增對Azure、Azure DevOps、PagerDuty、Grafana等集成的支持,后續將持續拓展集成能力。
Amazon DevOps Agent的工作原理
Amazon DevOps Agent代表了一種新型的前沿Agent——自主系統,它們能夠獨立完成目標,大規模擴展以處理并發任務,并且無需持續的人工干預即可持久運行。Amazon DevOps Agent與用戶的運維團隊緊密協作,覆蓋故障從檢測、排查、恢復到預防的全生命周期。
自主響應故障:Amazon DevOps Agent會在收到警報后立即開始調查,無論是在凌晨兩點還是高峰時段。這可以縮短平均修復時間(MTTR),并快速將應用程序恢復到最佳性能。
主動預防事故:Amazon DevOps Agent幫助團隊從被動應對突發故障轉變為主動改進運營。它分析歷史故障中的規律,提供針對性的建議,以預防后續故障發生,并提升流程和系統的彈性。
按需處理SRE運維任務:憑借對運行環境的深入了解,Amazon DevOps Agent不僅能通過提問查詢,更能深入分析應用環境。用戶還可創建、保存和共享自定義圖表和報告。
正式版新增功能
Amazon DevOps Agent正式版發布吸取客戶反饋,功能全面擴展,進一步提升了用戶在多樣化運維環境中的故障響應能力,使其更加靈活、智能且易于擴展。
新增更多使用場景
Azure支持:Amazon DevOps Agent現已擴展到亞馬遜云科技環境之外,能夠調查Azure工作負載中的故障,可跨多云部署關聯數據,為運行在亞馬遜云科技、Azure或混合環境中的應用提供統一的故障響應能力。
本地部署支持:Amazon DevOps Agent現在使用模型上下文協議(MCP),可對本地部署的應用進行故障排查。它能夠通過分析指標、日志與代碼發現本地資源,構建完整架構拓撲,實現跨亞馬遜云科技、Azure及本地環境的統一故障響應。
按需執行SRE任務:通過對話式AI助手可使用自然語言查詢應用架構、分析系統健康狀況,覆蓋亞馬遜云科技、多云及本地環境。支持查詢資源信息、系統指標、告警狀態、部署歷史和故障規律,即時獲取關聯分析結果,還能創建自定義圖表和報告,保存并分享給團隊成員。
分診Agent:自動評估故障嚴重程度,識別重復工單。當檢測到重復工單時,會將其標記為"已關聯"并鏈接到主排查任務中。關聯任務不會自動執行,幫助減少無效告警干擾,讓團隊集中精力處理核心故障。
智能能力升級
技能學習:Amazon DevOps Agent可學習企業的排查模式、工具使用習慣與系統架構,基于團隊處理各類故障的方式沉淀專屬能力,長期使用后能更高效解決企業特有的運維難題。
技能自定義:可添加適配自身系統的排查流程、最佳實踐與內部運維知識,工作流一次創建即可在所有相關故障排查中自動復用。技能還可定向分配至不同類型Agent(按需查詢、故障分診、根因分析、故障緩解、效果評估),減少信息干擾,提升處理專注度。
代碼索引:支持為應用代碼倉庫建立索引,可理解代碼結構,在故障排查中識別潛在缺陷,并在緩解方案中提供代碼級修復建議。
全新集成能力
在與現有Datadog、Dynatrace、New Relic、Splunk、GitHub Actions、GitLab CI/CD和ServiceNow等集成基礎上,Amazon DevOps Agent正在添加以下集成功能:
PagerDuty:原生集成,用于由PagerDuty警報觸發的自動故障響應。
Grafana:內置的Grafana MCP服務器可連接到任意Grafana實例,包括自建實例、Grafana Cloud實例和Amazon Managed Grafana實例。連接后,即可訪問該實例下配置的所有數據源,如Prometheus、Loki、OpenSearch等,實現開源監控數據的采集與系統深度分析。
Azure DevOps:對接Azure Pipelines,可追蹤Azure環境中的部署記錄與代碼變更。
Amazon EventBridge:排查相關事件可通過Amazon EventBridge獲取,用于構建自定義自動化工作流程。
新增API:升級了對Amazon CLI、Amazon SDK和Amazon MCP Server的支持。
這些集成將使Amazon DevOps Agent能夠無縫融入用戶現有的運維工具體系。
企業級功能
區域擴展:Amazon DevOps Agent現已覆蓋全球六個亞馬遜云科技區域,包括北美地區的美國東部(弗吉尼亞)、美國西部(俄勒岡),歐洲地區的法蘭克福、愛爾蘭,以及亞太地區的悉尼和東京。全球部署讓Agent更貼近業務運行環境。既滿足數據駐留要求,又降低運維團隊操作延遲。
私有MCP:可連接私有MCP服務器以對接更多工具。讓Amazon DevOps Agent安全訪問內部工具、數據和工作流程,基于企業真實環境給出更精準的分析并自主執行操作,機密數據不會通過公網傳輸。
安全能力:Amazon DevOps Agent支持客戶托管密鑰,并可通過Okta、Microsoft Entra ID等身份提供商直接登錄操作員控制臺。
本地化支持:Amazon DevOps Agent會根據瀏覽器語言設置自動適配,包括回復內容翻譯。全球各地團隊均可用偏好語言與之交互。
客戶成功案例:首批客戶已實現運維效率大幅提升
西部州長大學
西部州長大學(WGU)是一所知名的在線大學,在校生超19.1萬人,也是首批將Amazon DevOps Agent投入生產環境的機構之一。作為Dynatrace深度用戶,該校用Amazon DevOps Agent與Dynatrace的原生集成,實現Dynatrace故障工單自動轉發排查,分析結果直接回傳。在最近一次生產環境故障調查中,WGU的SRE團隊借助Amazon DevOps Agent將預計2小時的修復時長縮短至28分鐘,平均修復時間降低77%。該Agent快速定位Lambda函數配置問題,挖掘出未歸檔的關鍵運維信息。WGU計劃啟用Amazon DevOps Agent Skills功能,有望進一步壓縮故障排查耗時。WGU技術運營總監Angel Marchena表示:"它直接找到了關鍵證據,確認是Amazon Lambda導致的問題。排查指標與前端觀測情況高度吻合。此次排查對我們而言是重大勝利。若能持續加快問題定位效率,對企業的價值將難以估量。"
Zenchef
Zenchef是一家餐飲技術平臺,它幫助餐廳通過一個免傭金的系統管理預訂、餐桌運營、電子菜單、支付和顧客營銷。其DevOps團隊曾在公司黑客松活動期間,突發面向用戶的線上問題,多數工程師正專注于活動,且監控系統未出現明確異常指向。團隊僅將問題描述輸入Amazon DevOps Agent,由其系統性排查,整個排查僅耗時20–30分鐘,相較傳統人工1–2小時的處理時長,效率提升約75%。分析結果可直接同步給對應工程師,實現無縫交接。Zenchef平臺工程經理Theo Massard表示:"黑客松期間我們幾乎無人手可用,而有了Amazon DevOps Agent后也無需額外投入。我們始終力求領先一步,但這類自主排查以往很難實現。Amazon DevOps Agent為我們提供了全新的平臺運行狀況分析方式。"
T-Mobile
T-Mobile US, Inc.是美國領先的無線運營商之一,為全美超過1.4億用戶提供移動語音、短信和數據服務。T-Mobile技術運營高級副總裁Aravind Manchireddy表示:"亞馬遜云科技推出Amazon DevOps Agent之初,T-Mobile就參與其中。作為設計合作伙伴,我們親眼見證了這款產品如何顯著提升生產環境的根因分析效率。我們來自真實業務場景的反饋,也直接推動了產品功能的迭代優化。我們的基礎設施覆蓋多云和本地機房環境,應用日志統一集中在本地部署的Splunk中。在持續試點過程中,Amazon DevOps Agent能夠與Splunk無縫集成,并跨這些復雜環境分析日志,這一點給我們帶來了非常大的價值。"
Granola
Granola是一款基于AI的記事本工具,能自動完成錄音轉寫和內容總結。Amazon DevOps Agent與Granola的AI故障管理工作流無縫集成,加快了根因定位速度,并縮短了故障平均恢復時間。Granola產品工程師Eddie Bruce表示:"我們已經把Amazon DevOps Agent直接接入故障響應流程,它會在收到高危CloudWatch告警時自動啟動排查。Amazon DevOps Agent的數據庫排查能力明顯優于我們測試過的其他工具,尤其是在分析PostgreSQL日志、挖掘RDS性能問題方面表現突出。隨著我們SRE能力不斷擴展,Amazon DevOps Agent已經成為故障管理工具中可靠的組成部分。"
審核編輯 黃宇
-
亞馬遜云科技
+關注
關注
0文章
115瀏覽量
478
發布評論請先 登錄
易點天下選擇亞馬遜云科技 以Agentic AI驅動營銷智能化升級
亞馬遜云科技正式推出Amazon Security Agent按需滲透測試功能
亞馬遜云科技Amazon S3重磅更新 引領企業云存儲未來方向
亞馬遜云科技推出全新前沿AI Agent,重塑軟件開發團隊協作邊界
亞馬遜云科技Amazon Bedrock AgentCore正式可用,引領Agent走向全面落地
亞馬遜云科技推出Amazon Quick Suite,引領Agentic AI驅動的工作新范式
亞馬遜云科技在中國區域推出Amazon Graviton4實例 以自研芯片驅動企業算力升級
亞馬遜云科技推出Amazon DocumentDB Serverless,簡化數據庫管理并大幅節省成本
亞馬遜云科技推出Amazon Nova Act SDK預覽版,加速瀏覽器自動化Agent落地
Oracle Database@Amazon Web Services現已正式可用
亞馬遜云科技在2025紐約峰會發布多項AI agent創新
亞馬遜功能最強模型Amazon Nova Premier現已正式可用
亞馬遜云科技Amazon DevOps Agent智能運維助手正式可用
評論