解決方案
  • 來源:
  • 日期: 2017-02-08

一、什么是智能運維?

       智能運維是相對傳統運維的一種升級和進化,智能運維能夠實現業務系統的自動化故障智能檢測,自動判斷哪些異常、哪有有告警,從而能夠輔助管理者進行故障根源判斷和處理

二、傳統運維軟件出現這么多年,為什么現在會提出來智能運維?

       幾年前一般的企業只有幾十個或者幾百個服務器資源,而今天隨著云計算、虛擬化技術的發展,互聯網技術的廣泛應用,一個企業擁有幾千臺或者上萬臺服務器資源也是常見的。這30-40倍的增長使得在運維層面的負擔變的更加嚴重。在監控層面要想獲得每一個服務器的每一個指標更加困難。

       另一方面,業務系統復雜度也在增長,架構更加復雜,cache數據、非關系型數據庫、大數據架構、離線的數據處理、app、PC端應用等,這些以傳統監控方式一個一個配置已經不能滿足管理需求。隨著管理資源的數量和負責度增加,監控出現了太多的指標和圖表,人的精力是有限的,工程師規模卻沒有太大的增長。那么如何從海量的指標中找到工程師關注的指標、關注的圖表,傳統的監控一個一個配置方式已經不能滿足需求。所以,今天的運維管理人員更需要智能化的運維來幫助他們降低運維的壓力。

三、如何利用大數據技術實現智能化運維

       從數據采集維度首先要獲得更加全面的海量數據。從業務的角度出發,首先監控要從三個部分采集更多的基礎輸出,包括基礎架構(軟硬件、日志、網絡信息、容器虛擬機)部分;用戶端(CDN、WEB、移動端、PC客戶端)數據,只控制了server端,用戶端出現問題也無法使用;應用部分(軟件層面、應用層面),包括WEBServer+APP Server+File Server+Load Balancer等。從采集數據的內容來看,基礎架構數據更多的事性能數據、銷售數據等,例如磁盤、CPU等;用戶側數據更多是流量、錯誤率、用戶訪問情況、用戶體驗、操作信息、操作記錄這些用戶關心的數據;

       從數據處理層面實現數據聚合。監控系統將采集回來的數據進行時間序列處理,原始的日志信息等很難用作處理判斷的,只有將它轉換成可識別的結構化數據或者時間序列數據,我們才能方便進行判斷。

       最簡單的方式就是把每一個單位時間采集的原始各類信息數據轉換為時間序列數據,然后對單位節點的數據之上再去做聚合?;褂幸恢址絞絞薔酆鮮前湊找滴裎染酆?。例如一個用戶的訪問系統時間、訪問的地域、使用的運營商、用戶的查詢的內容等,這一類信息包含了用戶訪問系統的業務維度是什么樣的數據。系統將監控數據按照業務維度進行聚合,按照業務維度計算,這個是在業務維度進行聚合,用戶看到的就是一種二維的業務運維維度。通過數據處理實現異常自動的檢測。

       傳統的監控方式一種是恒定閾值的方式(cpu小于10%報警),一種是同環比(周期性的對比,響應時間上漲20%報警等)。這些告警方式都比較簡單,簡單易懂。但是缺點一樣明顯,需要大量的工程師的投入,體現在兩個方面,一個就是監控的配置,一個是隨著環境變化人工閾值變化維護。

       但是一些情況下,傳統的監控方式是無法實現準確告警,例如數據在波峰的突降或者波谷的徒增情況,傳統的閾值監控就無法識別,出現遺漏。第二種就是緩慢偏移情況,系統的運行數據緩慢的偏離的閾值的設定,這類情況可能很難觸發恒定閾值,但是業務系統已經出現的問題,傳統恒定閾值是很難識別的。第三種就是不斷漂移的閾值范圍,例如流量信息在不同的節假日的或者上班高峰訪問流量是不確定的,這類監控是無法通過人工的設定去捕捉的,這樣容易出現很多監控誤報。

       利用大數據如何解決人工的閾值設定呢,首先可以利用統計學方式,根據數據的正態分布規律,利用標準差或者方差的方式推斷閾值來代替人工設定的閾值,這個方式可以解決大量的人力;另外一種方式針對同環比情況,可以利用同環比方差計算,例如把原始數據切分成很小的時間窗口,針對每一個小的時間窗口他的同環比區間內我們去計算均值和方差,最后會得到一個整體趨勢性數據的閾值范圍。

       那么讓機器去識別如何利用這兩種數據呢,這里就需要利用分類的算法,讓機器自動區分,數據是否是具有周期性分布,還是同環比情況。

       當然數據還是不斷變化的,這種情況可以利用數據針對不同的節假日、上班高峰的大量歷史數據進行比較,這里需要大量的歷史數據,同時需要對數據的對比分析,從中通過算法識別出來規律,從而避免監控移動或者誤報。

       利用大數據技術實現智能運維其實還有很多領域可以突破,這里只是列舉很小的一部分。例如數據可視化技術讓開發、運維人員更加直觀的處理問題;利用基于大數據預測、預警的能力來實現故障預判,在故障發生前就提前進行預判,從而提升業務系統可用性;利用大數據的處理能力,采集處理更多的服務端的數據,這樣使得監控運維的數據信息更加完整,形成全方位的運維數據覆蓋,實現用戶、服務、計算資源的無死角管理。

       未來我們還是希望能夠讓系統自動理解故障趨勢和模式,通過某種方式自動的理解運維人員思維方式,更深入的服務。例如通過監控系統通過歷史數據去分析、去學習,自主的分析分體和識別問題,幫助工程師識別問題,或者利用學習功能自動發現應用或者環境的變更,從而自適應的調整運維模式,這些都是可以利用大數據技術實現。

原創 2018-03-23 塔塔 德塔大數據研究院

上一篇: 智能軟件
企業文化

智能,令工作更輕松;

智慧,讓生活更美好;

誠信、公正、真誠、責任、進??;

成熟的銷售團隊、一流的技術服務

高效的管理模式、專業的研發團隊

聯系我們

上海浦敏科技發展股份有限公司

熱線電話:021-62304651

地       址:上海市普陀區安遠路518號1405室

公司網址:剑网3指尖江湖人物 www.fkulq.icu

Copyright © 上海浦敏科技發展股份有限公司

本站部分圖文來源網絡,如有侵權問題請通知我們處理!