01. 告警事件管理三個(gè)階段
1)告警事件管理三大階段
告警事件的全生命周期管理可以分為三大階段:事前、事中、事后。其中事前核心關(guān)注的是預(yù)防以及發(fā)現(xiàn)問(wèn)題;事中核心關(guān)注的是快速發(fā)現(xiàn)和解決問(wèn)題,確保業(yè)務(wù)連續(xù)性,降低損失;事后核心關(guān)注的是問(wèn)題的復(fù)盤(pán)、知識(shí)沉淀積累以及持續(xù)優(yōu)化業(yè)務(wù)系統(tǒng),確保業(yè)務(wù)健康運(yùn)行。
2)告警事件管理關(guān)鍵指標(biāo)
業(yè)界最常用定義告警事件本身全生命周期的核心指標(biāo)包含MTBF(故障前平均時(shí)間)、MTTR(平均恢復(fù)、修復(fù)、響應(yīng)或解決時(shí)間)、MTTF(平均故障時(shí)間)和MTTA(平均確認(rèn)時(shí)間),這一系列指標(biāo)可以幫助技術(shù)團(tuán)隊(duì)了解故障發(fā)生的頻率以及事件恢復(fù)的速度。
嘉為藍(lán)鯨告警中心(以下簡(jiǎn)稱(chēng)“告警中心”)基于CMDB模型和實(shí)例,以告警事件為中心,圍繞告警接入、告警豐富、告警收斂、告警處理&通知以及告警分析對(duì)企業(yè)業(yè)務(wù)系統(tǒng)告警統(tǒng)一管理。以下為一條告警在告警中心的全生命周期的流轉(zhuǎn)路徑。
02. 告警中心產(chǎn)品功能
功能點(diǎn)1:告警接入
告警中心支持Zabbix、Prometheus、VMware、華為云、阿里云等20余種常見(jiàn)監(jiān)控系統(tǒng)的標(biāo)準(zhǔn)化插件,開(kāi)箱即用快速對(duì)接不同類(lèi)型的監(jiān)控系統(tǒng)。此外還支持通過(guò)REST API方式對(duì)第三方系統(tǒng)推送的告警進(jìn)行接入。
功能點(diǎn)2:告警豐富
功能點(diǎn)3:告警收斂
對(duì)于企業(yè)中的告警風(fēng)暴以及各類(lèi)告警誤報(bào)漏報(bào)的場(chǎng)景,告警中心具備成熟的告警收斂解決方案。包含自動(dòng)去重算法、告警抑制、告警屏蔽、告警合并。這些收斂方案可根據(jù)不同的業(yè)務(wù)場(chǎng)景進(jìn)行靈活配置使用,告警壓縮占比高達(dá)90%以上。
① 自動(dòng)去重算法
內(nèi)置自動(dòng)去重會(huì)根據(jù)一條告警的告警源ID、告警對(duì)象、告警指標(biāo)以及告警等級(jí)四個(gè)字段信息使用哈希算法生成告警事件ID,相同ID的告警將被系統(tǒng)自動(dòng)去重處理。
② 告警防抖抑制
防抖抑制主要針對(duì)抖動(dòng)較高的指標(biāo)例如CPU使用率,網(wǎng)卡流量等可以通過(guò)配置在一定周期內(nèi)出現(xiàn)多少次才會(huì)產(chǎn)生一條有效告警。
③ 關(guān)聯(lián)聚合抑制
可以根據(jù)自定義字段進(jìn)行相同的告警進(jìn)行抑制,例如:當(dāng)業(yè)務(wù)名稱(chēng)、告警對(duì)象、告警指標(biāo)、告警等級(jí)都一樣的告警可以認(rèn)為是同樣的告警,通過(guò)這些字段對(duì)原始告警進(jìn)行組合條件判斷,相同則被抑制掉。
④ 時(shí)間屏蔽
時(shí)間屏蔽通常會(huì)在企業(yè)系統(tǒng)維護(hù)期內(nèi)、業(yè)務(wù)系統(tǒng)需要的時(shí)候?qū)Ω婢M(jìn)行集中屏蔽,避免大量告警產(chǎn)生和通知。
⑤ 依賴(lài)屏蔽
依賴(lài)屏蔽,顧名思義即通過(guò)自定義依賴(lài)關(guān)系,或根據(jù)CMDB中模型之間的關(guān)聯(lián)關(guān)系進(jìn)行屏蔽告警策略的配置。
例如當(dāng)一臺(tái)服務(wù)器的網(wǎng)卡發(fā)生告警時(shí),此時(shí)該服務(wù)器上的交換機(jī)肯定也會(huì)產(chǎn)生一條告警。針對(duì)這類(lèi)場(chǎng)景我們就可以根據(jù)這些對(duì)象的關(guān)聯(lián)關(guān)系配置對(duì)應(yīng)的依賴(lài)屏蔽策略,這樣就可以減少干擾告警的產(chǎn)生。
⑥ 告警合并
告警合并功能針對(duì)企業(yè)中由于某一個(gè)故障導(dǎo)致產(chǎn)生大量與之相關(guān)的告警的場(chǎng)景進(jìn)行合并處理。
例如,當(dāng)某一業(yè)務(wù)領(lǐng)域的交易率偏低時(shí),這往往可能歸因于多種因素,如該業(yè)務(wù)所依賴(lài)的服務(wù)CPU使用率居高不下、服務(wù)響應(yīng)時(shí)間顯著延長(zhǎng)等。當(dāng)這些因素的告警信號(hào)同時(shí)觸發(fā)時(shí),為了提高處理效率,可以將它們整合為一條綜合性的有效告警。
功能點(diǎn)4:告警處理
在經(jīng)過(guò)一系列的告警收斂方案后,運(yùn)維人員只需要關(guān)注和處理那些有效的告警。告警中心提供人工&自動(dòng)處理方案,加快企業(yè)運(yùn)維人員對(duì)告警事件的響應(yīng)以及處理速率。此外,告警中心還具備豐富的通知渠道覆蓋PC端以及移動(dòng)端,讓企業(yè)相關(guān)人員第一時(shí)間收到通知,及時(shí)感知系統(tǒng)問(wèn)題。
① 自動(dòng)關(guān)閉
針對(duì)一些可能并不影響系統(tǒng)的核心功能或并不是緊急問(wèn)題的告警,比如:測(cè)試機(jī)器的性能告警、非工作日無(wú)需處理的告警。通過(guò)自動(dòng)關(guān)閉策略可以減少對(duì)告警管理的工作量。
② 自動(dòng)分派
可以根據(jù)運(yùn)維管理要求自動(dòng)將告警分派以及通知到對(duì)應(yīng)的人/組/值班人員。
例如,當(dāng)服務(wù)器宕機(jī)或者性能異常時(shí),告警中心會(huì)自動(dòng)分派給負(fù)責(zé)服務(wù)器維護(hù)的運(yùn)維團(tuán)隊(duì);當(dāng)遇到交換機(jī)、路由器、網(wǎng)絡(luò)設(shè)備故障告警時(shí),系統(tǒng)將自動(dòng)分派給網(wǎng)絡(luò)運(yùn)維團(tuán)隊(duì)。
③ 自愈處理
告警中心支持告警自愈處理能力,例如常見(jiàn)的自愈場(chǎng)景有服務(wù)器重啟、日志清理、磁盤(pán)清理等。根據(jù)這些場(chǎng)景,可以分別使用對(duì)應(yīng)的腳本去執(zhí)行自愈流程。并且支持自愈流程參數(shù)的填寫(xiě),可快速執(zhí)行自愈腳本對(duì)故障進(jìn)行處理。
④ 自動(dòng)轉(zhuǎn)工單
支持內(nèi)置對(duì)接ITSM以及第三方工單系統(tǒng),實(shí)現(xiàn)告警產(chǎn)生到生成工單的自動(dòng)化處理方案。并且支持工單模版的創(chuàng)建,可以快速套用模版對(duì)工單參數(shù)進(jìn)行快速填寫(xiě),方便運(yùn)維人員及時(shí)創(chuàng)建事件工單、變更工單等,加速告警故障問(wèn)題的流轉(zhuǎn)。
功能點(diǎn)5:告警通知
告警中心具備強(qiáng)大的告警通知能力,包含靈活的告警通知頻率的配置、多樣的告警通知渠道、自定義通知模版設(shè)置等。
① 通知頻率
針對(duì)那些重要且緊急的告警,例如主機(jī)CPU使用率、磁盤(pán)使用率、網(wǎng)絡(luò)不可達(dá)等核心關(guān)注的監(jiān)控項(xiàng),一旦觸發(fā)警報(bào),系統(tǒng)應(yīng)被配置為立即發(fā)送緊急通知;當(dāng)無(wú)人響應(yīng)時(shí),系統(tǒng)將按照一定周期進(jìn)行循環(huán)通知、響應(yīng)后告警持續(xù)未關(guān)閉的循環(huán)通知。
而對(duì)于那些相對(duì)不那么緊急,但仍需關(guān)注的預(yù)警信息,例如網(wǎng)絡(luò)帶寬使用率在70%左右達(dá)到預(yù)警時(shí),這種告警可以延遲進(jìn)行通知。
② 告警通知渠道
支持多樣的通知渠道配置如常見(jiàn)的郵件、短信、ESB微信、語(yǔ)音、釘釘、企微/釘釘移動(dòng)端、企微/飛書(shū)/釘釘群機(jī)器人、針對(duì)值班大屏使用的頁(yè)面語(yǔ)音播報(bào)功能。
③ 告警通知模版
針對(duì)不同的通知場(chǎng)景可以自定義配置通知模版,可以按照企業(yè)告警通知要求進(jìn)行配置,讓告警更快更詳細(xì)地通知到對(duì)應(yīng)負(fù)責(zé)人。
功能點(diǎn)6:告警分析
① 關(guān)聯(lián)拓?fù)?/strong>
聯(lián)動(dòng)CMDB,根據(jù)對(duì)象模型以及實(shí)例自動(dòng)拉取CMDB的拓?fù)潢P(guān)系圖,并在產(chǎn)生告警的節(jié)點(diǎn)上標(biāo)紅處理,直觀地了解故障上下游關(guān)聯(lián)關(guān)系,快速定位故障影響范圍。
② 告警報(bào)表
內(nèi)置多類(lèi)型、樣式的統(tǒng)計(jì)報(bào)表模塊,可直觀查看告警統(tǒng)計(jì)數(shù)據(jù)以及各個(gè)人員的MTTA、MTTR指標(biāo)情況。
③ 輔助分析
告警中心支持對(duì)接知識(shí)庫(kù)以及工單系統(tǒng),可以在告警產(chǎn)生后快速匹配關(guān)聯(lián)的解決方案以及關(guān)聯(lián)的歷史變更工單,輔助運(yùn)維人員對(duì)故障進(jìn)行定位以及處理。
功能點(diǎn)7:智能處理
告警中心基于大模型算法能力,進(jìn)一步加強(qiáng)告警處理的能力,降低運(yùn)維門(mén)檻,加速故障處理速度和效率。
① 關(guān)聯(lián)知識(shí)庫(kù)
目前內(nèi)置運(yùn)維知識(shí)庫(kù),開(kāi)箱即用。可批量導(dǎo)入知識(shí)庫(kù)文件,基于大模型算法對(duì)知識(shí)庫(kù)內(nèi)容進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)將告警內(nèi)容與知識(shí)庫(kù)進(jìn)行匹配,并且按照匹配度高低進(jìn)行展示。
② 智能助手
使用大模型生成式AI能力,支持ChatGPT、LLaMa2等模型,通過(guò)對(duì)話式方式進(jìn)行故障定位分析和推薦處理方案的建議。
ITSM運(yùn)營(yíng):服務(wù)請(qǐng)求管理持續(xù)改進(jìn)
查看詳細(xì)
AI驅(qū)動(dòng)IT運(yùn)維轉(zhuǎn)型:從審批流到AI工作流
查看詳細(xì)
國(guó)產(chǎn)化替代實(shí)踐:嘉為藍(lán)鯨全棧智能觀測(cè)中心對(duì)比IBM Tivoli
查看詳細(xì)
嘉為藍(lán)鯨平臺(tái):三位一體,打造云原生數(shù)字化基座
查看詳細(xì)
嘉為藍(lán)鯨DevOps研發(fā)效能管理平臺(tái):AI賦能研運(yùn),效能再進(jìn)化
查看詳細(xì)
ITSM運(yùn)營(yíng):事件管理持續(xù)改進(jìn)
查看詳細(xì)
申請(qǐng)演示