1. <th id="orwrz"></th>
        <tbody id="orwrz"><pre id="orwrz"></pre></tbody>
      2. <rp id="orwrz"><object id="orwrz"></object></rp>
        首頁 運維干貨常用開源監控系統分析推薦(必備知識)

        常用開源監控系統分析推薦(必備知識)

        運維派隸屬馬哥教育旗下專業運維社區,是國內成立最早的IT運維技術社區,歡迎關注公眾號:yunweipai
        領取學習更多免費Linux云計算、Python、Docker、K8s教程關注公眾號:馬哥linux運維

        摘要:在互聯網信息爆炸式快速發展的今天,各類復雜多樣的平臺系統相繼涌出。如何選擇最佳的監控產品以更好地維護這些平臺和系統是每個 IT 人員都需面臨的難題。本文將從開源監控產品的起源和發展,詳細解析各個時代熱門監控產品的優勢和劣勢,并結合各個監控產品的使用場景,幫你選擇出最適合自己的開源監控產品。因篇幅和時間原因,下面介紹的資料和理解可能和實際情況有所偏差,歡迎大家留言或者加入微信群批評指正。

        作者:Ethan Chen ,云智慧解決方案架構師,擁有豐富的運維理論及實戰經驗。致力于將客戶需求有效地轉化為公司產品場景,讓客戶更有效率地理解公司產品并為其提供優質的技術支撐。

        開源監控軟件的前世今生

        如下面谷歌趨勢圖所示(因有些單詞有二義性,具體數值可忽略,只看趨勢),與其他開源監控產品相比,2004 年的Nagios仍處在較高位置,但由于Nagios沒有緊跟容器腳步、且配置復雜等缺點導致熱度直線式下降。反觀Zabbix,從2004年至今,由于其監控的全面性,使得其熱度一直處于平穩上升階段。此外,基于RRD存儲開發的Ganglia與Cacti由于產品自身的一些缺點,熱度也在逐漸下降。下文我們將詳細介紹各個產品的具體情況。

        常用開源監控系統分析推薦(必備知識)插圖

        古代(2000-2010)

        Zabbix(2004)

        Zabbix于1998年開發,2004年正式Release。較于其他開源監控產品,Zabbix擁有強大的指標數據存儲功能、畫圖功能,并且真正地做到了All in One全面監控,解決了運維人力和時間成本上的問題。

        基于以上功能優點,以及大量完善的教程文檔,Zabbix在國內迅速傳播發展?,F如今,Zabbix已經進入了5.X時代,前端界面的優化、ES及TimescaleDB等時序數據庫的支持,使得Zabbix又步入了一個的新的時代。

        常用開源監控系統分析推薦(必備知識)插圖1

        優勢

        • 豐富的插件。Zabbix擁有豐富的MiB庫資源以及模版等850多個插件;
        • 易用性、依賴少?;赑HP與MySQL搭建,可用性比較強;
        • 可進行一定顆粒度的權限控制;
        • 文檔完善。Zabbix本身定位為企業級分布式監控系統,故擁有完善的文檔,活躍的官方社區,且本身也更新得比較頻繁,開發比較積極;
        • 國內市場有相關的商業支持。

        劣勢

        • MySQL數據量問題。當MySQL數據量比較大時,存儲性能容易出現問題;
        • 可視化問題。自身可視化靈活性較差,需用Grafana等進行彌補;
        • 功能使用率低,80%的用戶使用的仍為監控、看圖、告警等基礎功能,大部分高級功能未能被使用。

        使用場景分析

        • 監控基礎設施。主機、網絡設備監控等;
        • 中小規模監控;
        • 對于大型場景的監控來說仍需注意數據問題。

        Nagios(2002)

        Nagios是一個主要用于監控系統運行狀態和網絡信息的監控系統。Nagios能監控所指定的本地或遠程主機以及服務,同時提供異常通知等功能。

        Nagios擁有4000多個插件,且在很早之前就開始擁有自己的官方插件社區。這里面包括很多應用級別的監控插件。此外,Nagios的通知雖然簡單但能覆蓋所有場景,以及本身擁有強大的監控任務調度的能力。

        img

        優勢

        • 功能簡單易用,主要的功能是主動檢測。

        劣勢

        • 功能過于單一,只能通過主動檢測告知結果是否匹配,被動檢測功能原生功能較弱;
        • 配置復雜,配置修改主機、報警、閾值等時,在原生Nagios中只能通過修改配置文件來實現,操作較為復雜。

        使用場景

        • 小場景簡單監控。對于一些網站、端口等可進行簡單監控;
        • 大型場景需要各種花式Hack,需要借助很多第三方的插件進行效率的提升和分布式的擴展。

        Centreon(2005)

        Centreon是一款開源的軟件,主要用于對Nagios的一些功能增強??赏ㄟ^頁面管理Nagios,通過第三方插件實現對網絡,操作系統,應用程序的監控。

        img

        優勢

        • 界面友好
        • 維護方便
        • 統一管理
        • 性能數據可追溯

        劣勢

        • 修改配置需要重啟或者重載Nagios主進程
        • MySQL依然存在數據問題
        • 文檔資料較少

        使用場景分析

        • 適用于百臺規模的中等監控
        • 仍需要解決原生Nagios的一些弊端

        Check_MK

        Check_MK是一款通用的Nagios/Icinga增強工具集。其插件有著相當成熟的檢測機制和對硬件服務器的檢測手段。非常適合對硬件服務器進行“體檢”。

        img

        優勢

        • 界面友好
        • 維護方便
        • 統一管理
        • 性能數據可追溯

        劣勢

        • 增加變更需要重啟Nagios主進程。
        • 因后端存儲使用RRD,導致分布式擴展較為困難。
        • 文檔資料較少。

        使用場景分析

        • 適用于百臺到千臺以內中等規模監控
        • 需要解決Nagios的一些弊端

        Cacti(2001)

        Cacti是用PHP語言實現的一個監控軟件,它的主要功能是用SNMP服務獲取數據,然后用RRD儲存和更新數據,當用戶需要查看數據的時候用RRD生成圖表呈現給用戶。

        img

        優勢

        • 網絡設備支持好
        • 有權限控制
        • 有漢化版
        • 早期在IDC覆蓋廣

        劣勢

        • SNMP依賴只適合特性場景
        • 資料老舊

        使用場景分析

        • 簡單的IDC托管
        • 網絡運維

        Ganglia(2001)

        Ganglia是UC Berkeley發起的一個開源集群監視項目,設計用于測量數以千計的節點。主要是用來監控系統性能,如:CPU 、內存、硬盤利用率, I/O負載、網絡流量情況等。

        img

        優勢

        • 數據集中,部署分布式
        • 適合大規模部署
        • 對集群熱點觀測性支持較好

        劣勢

        • 無告警
        • 集群內UDP廣播問題多

        使用場景分析

        • 大數據應用
        • 集群較多,關注整體資源使用率

        近代(2010-2015)

        監控寶( 2010)

        監控寶是云智慧推出的新一代用戶體驗監控工具,從全球節點主動模擬真實用戶訪問,提供網站性能監控、API監控等服務,持續監測應用程序、網站、網絡和數字化服務的可用性和性能,提前診斷,實時告警,幫助客戶提升網絡應用效能。

        img

        優勢

        • 全球分布式監測網絡。200+ 分布式監測節點覆蓋全球112個城市以及主要運營商網絡,網絡規模持續擴大中。
        • 主動監測。監測節點按照預設規則模擬真實用戶發起主動監測,實時掌控網絡性能,聚焦用戶體驗。
        • 立體化覆蓋。HTTP/HTTPS/TCP/UDP/TR/DNS/PING等多種協議類型,全面問診網絡、業務健康。
        • 面向業務。通過包含多步請求的事物監控實現業務流程的監測,保障業務的穩定性和可用性。
        • 持續監控。24/7小時全天候監測網站和網絡性能,多渠道服務支持,減少可能發生的中斷。
        • 快照+MTR。先進的問題診斷與分析機制,問題發生之前和問題恢復之后的數據盡在掌握,快速定位故障。
        • 靈活告警。短信、郵件、微信、語音、API等多種告警方式,確保告警能夠被即時送達。
        • 專業的分析報告。提供綜合排名、競品分析、同比/環比、日/周報等多維度的數據報告,滿足專業化定制需求。

        使用場景分析

        • 網絡鏈路質量監控與評估。通過采集不同地區、不同運營商鏈路的時延、丟包、網絡抖動情況,從時間、地域、運營商等維度綜合分析網絡鏈路質量及可用率,快速發現和準確定位網絡問題,便于及時進行鏈路調整,保障全網用戶的體驗。
        • CDN監控。通過海量的分布式節點模仿真實用戶訪問,監控CDN性能,評估CDN的加速情況,確保最佳的用戶體驗,可用于CDN選型評估、CDN加速效果評估、CDN故障排查與定位等使用場景。
        • API接口監測。通過監控API接口的響應時間、可用性和正確性并及時告警來保證API服務的可靠性,可用于API接口性能優化、第三方API接口監控等使用場景。

        Graphite(2008)

        Graphite是一個開源實時的、顯示時間序列度量數據的圖形系統,通過其后端接收度量數據,然后以實時方式查詢、轉換、組合這些度量數據。

        img

        優勢

        • 指標點分概念引入
        • Grafana支持較早的協議之一
        • 統計函數支持(140+)

        劣勢

        • 指標無Label支持

        使用場景分析

        • 在做好數據歸并時可用于大規模場景

        現代(2015-2021)

        Prometheus(2016 )

        Prometheus 是由 SoundCloud 開源的監控告警解決方案。存儲的是時序數據,即按相同時序(相同名稱和標簽),以時間維度存儲連續的數據的集合。

        img

        優勢

        • 時序型存儲、查詢效率高。
        • 支持集群模式,擴展性強。
        • CNCF項目,社區活躍。

        劣勢

        • 一些Exporter采集的指標眾多,需進行適當裁剪。
        • 自定義采集腳本需要腳本開發能力(Golang、Python),相比Shell腳本來說學習成本更高一些。

        使用場景分析

        • 對于云計算、容器化場景更適合

        夜鶯(2018)

        夜鶯是一套分布式高可用的運維監控系統,前身是國內大名鼎鼎的open-falcon?;谝恍﹪鴥忍厥獾倪\維場景和習慣,在運維圈中有著不俗的場景理解和用戶體驗。

        img

        優勢

        社區活躍,有open-falcon群眾基礎。

        產品設計靈活,人性化。

        v4版本自帶小型CMDB和自動化。

        v5版本全面擁抱開源體系(Prometheus Telegraf)。

        劣勢

        v5剛發布,仍然需要一定的時間積累

        后端存儲的選型多樣,需要根據場景進行選擇

        缺少日志類和Tracing類的監控場景

        使用場景分析

        所有指標類的監控

        未來(2022-)

        云原生的出現導致在k8s環境下的可觀測性難度極具增加,因此出現了eBPF等新技術,但無奈市場上大部分的客戶Linux內核還不足以支持相關的技術。但可以看到的是DataDog skywalking 云杉等目前都在向eBPF進行布局。

        除了增強程序自身的可觀測性之外,可以預見在不久的將來,隨著Linux內核的不斷的完善以及客戶環境逐漸的成熟。在運維角度可以發力的可觀測性的選擇一定會越來越多。

        本文鏈接:http://www.abandonstatusquo.com/40743.html

        網友評論comments

        發表評論

        您的電子郵箱地址不會被公開。

        暫無評論

        Copyright ? 2012-2022 YUNWEIPAI.COM - 運維派 京ICP備16064699號-6
        掃二維碼
        掃二維碼
        返回頂部
        十分钟免费观看视频高清下载