面對四代共生的大規(guī)模動態(tài)復雜網(wǎng)絡(luò),以及5G時代多用戶、多業(yè)務(wù)、多目標、多場景帶來的網(wǎng)絡(luò)運維管理挑戰(zhàn)與壓力,如何保障網(wǎng)絡(luò)的穩(wěn)定可靠并抑制運維成本線性增長?如何提高運維效率,釋放運維人員面臨的復雜技術(shù)挑戰(zhàn)?如何保障客戶差異化的數(shù)字業(yè)務(wù)體驗?傳統(tǒng)以人為主的運維管理模式已難以應(yīng)對,借助日趨成熟的AI、大數(shù)據(jù)等數(shù)字化技術(shù),向人機協(xié)同的數(shù)字化運維轉(zhuǎn)型勢在必行。
為了讓網(wǎng)絡(luò)懂業(yè)務(wù)、懂應(yīng)用、懂體驗,釋放運維新價值,浙江移動攜手華為打造了業(yè)界第一個智能故障管理平臺(如圖1所示),創(chuàng)造性地構(gòu)建了統(tǒng)一數(shù)據(jù)、AI、敏捷運研一體化框架,同時提供了全面實時感知、預測預防、智能診斷等智能化能力,并支持開放API和運維知識資產(chǎn),降低運維應(yīng)用開發(fā)門檻,加速運維人員面向數(shù)字化人才轉(zhuǎn)型,助力運營商實現(xiàn)網(wǎng)絡(luò)自動化、智能化的持續(xù)高效運營。
圖1 智能故障管理平臺架構(gòu)
針對不同類型的業(yè)務(wù),運營商對于業(yè)務(wù)管理的訴求也日益多樣化,這使得業(yè)務(wù)運維管理變得更加復雜和困難。智能故障管理平臺聚焦故障監(jiān)控、故障分析、新網(wǎng)絡(luò)與AI運維、業(yè)務(wù)智能編排和能力開放五大領(lǐng)域,有效提升運維管理效率,降低運維成本。
故障監(jiān)控
智能故障管理平臺提供了統(tǒng)一的網(wǎng)絡(luò)監(jiān)控能力,支持在統(tǒng)一Portal上集中監(jiān)控全網(wǎng)的設(shè)備告警和性能告警情況,通過對海量告警進行過濾、壓縮、關(guān)聯(lián),可有效過濾掉噪音告警,讓故障處理人員能快速找到關(guān)鍵告警以及影響業(yè)務(wù)的根因告警,提升故障監(jiān)控效率;提供告警視圖配置管理,能夠靈活地自定義多屏同時監(jiān)控,提升監(jiān)控便捷性;提供故障資產(chǎn)可視和全生命周期管理,實現(xiàn)故障從發(fā)生到閉環(huán)關(guān)鍵環(huán)節(jié)和處理時延全程可視,有效提升故障監(jiān)控的質(zhì)量。
此外,網(wǎng)絡(luò)拓撲監(jiān)控提供了網(wǎng)絡(luò)拓撲統(tǒng)一管理能力,支持運營商根據(jù)業(yè)務(wù)及其資源特點,將各類業(yè)務(wù)模型和網(wǎng)絡(luò)拓撲進行整合關(guān)聯(lián),形成統(tǒng)一的網(wǎng)絡(luò)拓撲模型并應(yīng)用到故障中心,快速適配新業(yè)務(wù)網(wǎng)絡(luò)拓撲監(jiān)控需求。支持運維人員直接在網(wǎng)絡(luò)拓撲上查看資源的詳細信息和設(shè)備的告警信息、調(diào)整拓撲布局等。提供的關(guān)鍵能力包括網(wǎng)絡(luò)拓撲定制能力、網(wǎng)絡(luò)拓撲統(tǒng)一管理和維護能力、可視化網(wǎng)絡(luò)拓撲視圖展示能力、北向RESTful接口能力。
故障分析
運維事件特性(CEAE)通過對告警等數(shù)據(jù)源的事件特征提取,識別并生成事件,實現(xiàn)對海量告警中故障特征的識別和定界,提供以特征值為核心的統(tǒng)一運維事件監(jiān)控框架,由傳統(tǒng)運維向標準化事件驅(qū)動的管理模式轉(zhuǎn)變,提高故障識別自動化率和準確率,縮短分析時長,提升故障處理效率,使得故障主動發(fā)現(xiàn)率提升50%,故障發(fā)現(xiàn)時長壓縮30%。支持用戶自定義標準事件場景和自定義事件識別規(guī)則及事件特征,系統(tǒng)根據(jù)所配的規(guī)則自動生成相應(yīng)的運維故障事件。
網(wǎng)絡(luò)問題自動化分析,提供了故障RCA(Root Cause Analysis)能力,能夠根據(jù)規(guī)則自動識別故障根因,并基于定義的處理策略自動對網(wǎng)絡(luò)事件進行恢復處理(例如:設(shè)備診斷、設(shè)備重啟等操作),嘗試自動解決網(wǎng)絡(luò)問題,幫助運營商縮短網(wǎng)絡(luò)問題解決時長,降低運維過程中的人力投入,實現(xiàn)網(wǎng)絡(luò)的自恢復。確保運維人員在監(jiān)控界面通過查看分析結(jié)果便可快速定位故障根因,優(yōu)先處理根因告警,從而縮短了故障處理周期,提升故障處理效率,壓縮告警預處理時長60%。
新網(wǎng)絡(luò)與AI運維能力
面對NFV、5G網(wǎng)絡(luò)的挑戰(zhàn),如組網(wǎng)復雜、監(jiān)控復雜、定界定位困難等問題,跨廠商故障智能分析提供了統(tǒng)一監(jiān)控(包括跨廠商統(tǒng)一故障監(jiān)控),以及分資源池、業(yè)務(wù)、租戶概覽等功能。跨層拓撲可視,包括分資源池NFV、分網(wǎng)元VNF拓撲,告警、資源快速查詢??焖俟收隙ń纾@著縮減故障定界定位時間,減少工單量和處理人力。
利用大數(shù)據(jù)及AI提升網(wǎng)絡(luò)風險的預測及防范能力,通過實時監(jiān)測5G數(shù)據(jù)業(yè)務(wù)相關(guān)的告警、配置、CHR、操作日志及系統(tǒng)日志等數(shù)據(jù),提前識別業(yè)務(wù)風險及故障,輔助原因診斷,縮短故障恢復時長。智能故障管理平臺能夠提前預測30%的5G數(shù)據(jù)業(yè)務(wù)失敗故障,同時通過快速定界,將重大中斷類故障的MTTR減少35%,彌補監(jiān)控室5GC監(jiān)控定界能力不足、隱患難發(fā)現(xiàn)等疑難課題。
基于AI框架,智能故障管理平臺提供了群障規(guī)則智能挖掘與診斷,通過故障傳播圖的形式,智能挖掘現(xiàn)網(wǎng)的關(guān)聯(lián)規(guī)則并進行診斷,快速識別故障根因。在大幅提升定位效率的同時,能夠有效降低人工維護的投入,減少對人的依賴;此外,提供了智能運維助手,包括意圖識別、情感分析、知識檢索等能力,以及典型場景(如無線CPI產(chǎn)品)知識問答、故障經(jīng)驗查詢。同時提供AI編排能力,方便快速調(diào)整。
業(yè)務(wù)智能編排
提供了通用的業(yè)務(wù)編排框架和監(jiān)控框架,采用“框架+資產(chǎn)包”模式,支持運營商根據(jù)業(yè)務(wù)場景(如云網(wǎng)融合場景、家庭寬帶業(yè)務(wù)場景、5G業(yè)務(wù)場景等)靈活定制業(yè)務(wù)資產(chǎn),實現(xiàn)業(yè)務(wù)自開通、自監(jiān)控、自運維的一站式E2E流程,以快速匹配新業(yè)務(wù)不斷變化的訴求。當有新的業(yè)務(wù)場景需求時,業(yè)務(wù)設(shè)計人員可在設(shè)計態(tài)工具中利用已有的資產(chǎn)和社區(qū)開放的資產(chǎn)進行二次編排,靈活設(shè)計新場景的業(yè)務(wù)資產(chǎn),然后導入智能故障管理平臺運行態(tài)中,智能故障管理平臺將自動對業(yè)務(wù)資產(chǎn)進行解析。
基于故障中心規(guī)則配置能力和“輕代碼”ADC編排工具,預處理和定界能力實現(xiàn)輕代碼、可視化編排,大部分主次、衍生規(guī)則支持可視化界面配置,上線時間由周、月縮短至天。完成大核心203個衍生規(guī)則優(yōu)化和積壓需求實現(xiàn)。通過自編排大幅縮短開發(fā)周期,從以前的7~15天縮短到現(xiàn)在的2天,效率大幅提升。
能力開放
支持開放API,支持靈活的定制和對接。提供了開放的API,支持與周邊系統(tǒng)快速集成,能夠?qū)崿F(xiàn)數(shù)據(jù)共享,與合作伙伴共同構(gòu)筑業(yè)務(wù)生態(tài)。基于微服務(wù)化,故障中心提供告警預處理、告警查詢、告警報表、告警規(guī)則、場景化API、實時告警六大類能力開放,滿足各種場景的故障排除能力需求。
智能運維轉(zhuǎn)型并非一蹴而就,浙江移動將攜手華為進一步打造智能故障管理平臺,為新網(wǎng)絡(luò)、新技術(shù)、新業(yè)務(wù)發(fā)展注入智能運維新動力,讓客戶享有更極致的業(yè)務(wù)體驗,讓網(wǎng)絡(luò)運營更智慧、更高效,釋放網(wǎng)絡(luò)新價值,加速電信行業(yè)數(shù)字化運維轉(zhuǎn)型的進程。