1. <em id="vzzs9"></em>
      <tbody id="vzzs9"></tbody>

    2. <span id="vzzs9"></span>
      <progress id="vzzs9"></progress>
      首頁 運維干貨看完這篇文章,你就明白運維監控體系了

      看完這篇文章,你就明白運維監控體系了

      運維派隸屬馬哥教育旗下專業運維社區,是國內成立最早的IT運維技術社區,歡迎關注公眾號:yunweipai
      領取學習更多免費Linux云計算、Python、Docker、K8s教程關注公眾號:馬哥linux運維

      總結歸納運維工作中的監控內容。

      監控目標

      明白監控的重要性以及使用監控要實現的業務目標

      通常包括以下三點:

      • 對目標系統進行實時監控
      • 監控可以實時反饋目標系統的當前狀態 目標系統硬件、軟件、業務是否正常、目前處于何種狀態
      • 保證目標系統可靠性,業務可以持續穩定運行 有問題第一時間反饋出來,便于運維人員處理

      監控方法

      • 了解監控對象 例如:CPU如何工作?
      • 性能基準指標 例如: CPU使用率、負載、用戶態、內核態、上下文切換
      • 報警閾值定義 例如: CPU負載高的定義,內核態、用戶態多少算高
      • 故障處理流程 如何更高效處理故障的流程

      監控核心

      • 發現問題
      • 定位問題
      • 解決問題
      • 總結問題,對故障原因及問題防范進行歸納總結,避免以后重復出現

      監控工具

      • 老牌監控
        • Cacti
        • Nagios
        • smokeping
      • 流行監控
        • Zabbix
        • OpenFalcon
        • Prometheus+Grafana
        • 滴滴開源夜鶯Nightingale
        • smartping(專用于網絡監控)
        • LEPUS天兔(專用于監控數據庫)
        • 自研
      • 第三方監控
        • 監控寶
        • 聽云
        • newrelic

      監控流程

      • 采集

      通過SNMP、Agent、ICMP、SSH、IPMI等對系統進行數據采集

      • 存儲

      各類數據庫服務,MySQL、PostgreSQL

      • 分析

      提供圖形及時間線情況信息,方便我們定位故障所在

      • 展示

      指標信息、指標趨勢展示

      • 報警

      電話、郵件、微信、短信、報警升級機制

      • 處理

      故障級別判定,找響應人員進行快速處理

      監控指標

      硬件監控

      • 機器硬件:CPU溫度、物理磁盤、虛擬磁盤、主板溫度、磁盤陣列
        IPMI工具無法獲取到硬件的狀態,可以借助MegaCli工具探測Raid磁盤隊列狀態
        https://www.ibm.com/developerworks/cn/linux/l-ipmi/

      系統監控

      • 主機存活
      • CPU、內存、硬盤、使用率
      • inode
      • 負載
      • 網卡出入帶寬
      • TCP連接數
      • 磁盤讀寫、只讀

      應用監控

      MySQL

      • 服務可用性
      • 內存使用率
      • 磁盤使用
      • 主從不同步及延遲
      • 備份情況
      • 連接數

      Redis、Redis Cluster

      • 負載
      • 內存使用率
      • 連接數量
      • qps

      Nginx

      • 狀態碼
      • 連接狀態信息
      • RabbitMQ
      • PHP-FPM
      • OpenLDAP
        • 接入IP
        • 調用次數
      • Zimbra
      • OpenVPN
        • 版本信息、當前在線
        • 用戶、分配IP、客戶端連接IP、通過IP獲取地址位置、接收發送流量 連接時間 時長 連接ID
      • ELK
      • Graylog
      • GitLab
      • Jenkins
      • MongoDB
      • HAproxy

      網絡監控

      • 網絡質量
      • 公網出口
      • 專線帶寬
      • 網絡設備

      流量分析

      日志監控

      安全監控

      • URL、API監控
      • 自研
      • 阿里云方案

      性能監控(APM)java|php|go|nodejs|分布式鏈路追蹤

      • PinPoint
      • Zipkin
      • SkyWalking
      • CAT、Jaeger

      業務監控

      電商業務為例:

      • 每分鐘產生多少訂單
      • 每分鐘注冊多少用戶
      • 每分鐘多少活躍用戶
      • 每天有多少推廣活動
      • 推廣活動引入多少用戶
      • 推廣活動引入多少流量
      • 推廣活動引入多少利潤

      其他

      • SSL證書監控
      • 存活性 進程是否還在,端口監聽、Log滾動
      • 健康指標 MQ消息堆積量
      • 接口監控 API成功率,延遲情況,QPS等等

      監控報警

      • 郵件
      • 短信
      • 釘釘、微信、企業微信等其他即時通信軟件
      • 電話

      報警處理

      故障自愈: 服務器宕機自動啟動。利用軟件機制supervisor,systemd或者自定義腳本實現

      綜合監控

      硬件監控

      通過SNMP來進行路由器交換機的監控、其他內容使用IPMI實現。如果都是公有云,可以忽略這部分內容。案例:Open-Falcon監控H3C-ER3260G2路由器

      系統監控

      服務監控

      • 服務自帶
        • Nginx自帶status模塊
        • PHP相應status模塊
        • MySQL利用percona官方工具進行監控
      • 通過自定義方法獲取數據
        • MySQL show global status xxx;
        • Redis info指令信息
      • 網絡監控(混合云架構)
        • smokeping
        • smartping
      • 安全監控
        • 云服務直接用云安全組即可,或者補充本機iptables
        • 硬件防火墻
        • Web服務使用Nginx+Lua實現Web層面的防火墻,或者Openresty
      • 日志監控
        ELK、Graylog實現異常日志,錯誤日志關鍵字的監控
      • 業務監控
        確定監控指標,監控起來,業務不同各不相同
      • 流量分析
        建議使用百度統計,google統計,商業,研發嵌入代碼實現?;蛘呤褂胮iwik
      • 可視化
        dashboard
      • 自動化監控
        通過API,批量操作

      監控總結

      完整的監控系統,需要對業務有詳盡的了解,軟件只是手段。

      來源:https://zhuanlan.zhihu.com/p/34280983

      本文鏈接:http://www.abandonstatusquo.com/42757.html

      網友評論comments

      發表評論

      您的電子郵箱地址不會被公開。

      暫無評論

      Copyright ? 2012-2022 YUNWEIPAI.COM - 運維派 京ICP備16064699號-6
      掃二維碼
      掃二維碼
      返回頂部
      久久久久亚洲国内精品|亚洲一区二区在线观看综合无码|欧洲一区无码精品色|97伊人久久超碰|一级a爱片国产亚洲精品