Skip to content

主机监控

展示主机列表对应的监控信息, 包括 CPU、内存、磁盘、网络等。

  • 安装: 选中主机后批量安装探针。
  • 开启/关闭自动刷新: 开启或关闭列表指标的刷新。
  • 上传发布包: 当监控探针新版本发布后, 在这里上传最新的探针发布包。
  • 详情: 跳转到对应主机的详情页面。
  • 修改配置: 修改主机监控配置。
  • 复制 Key: 复制 agentKey。
  • 安装探针: 安装监控探针。
  • 开启/关闭告警: 开启或关闭主机告警。
  • 安装成功: 当数据发生异常时, 强制修正安装状态。

监控详情

展示具体主机对应的主机概览、监控数据、告警事件。监控页面最上方展示了标签页以及主机的基本信息。

主机概览标签页

展示服务器的基本数据, 以及最后一次上报的指标信息。

监控图表标签页

最上方的右侧展示了时间选择、粒度选择、刷新、切换视图。内容区域展示了主机信息指标的时序图以及聚合方法。

告警事件标签页

展示主机相关的告警事件。

告警策略

配置和管理系统的告警策略, 包括告警规则、触发条件、通知方式等。

  • 新增: 新增告警策略。
  • 修改: 修改告警策略。
  • 删除: 删除告警策略。
  • 告警规则: 查看和编辑告警策略的规则。
  • 复制策略: 用于快速创建策略以及策略规则。

告警事件

查看系统产生的所有告警事件。

  • 标记误报: 标记告警的为误报。
  • 报警处理: 标记告警的处理状态。
  • 删除: 删除告警事件。
  • 清理: 快速删除告警事件。

监控指标

维护系统内的监控指标, 为二次开发预留接口, 目前只是为了翻译监控图表的名称。

  • 新增: 新增监控指标。
  • 修改: 修改监控指标。
  • 删除: 删除监控指标。

告警模板

模板标题与内容支持动态参数, 可通过 @{{ xxx }} 替换模板参数

参数名描述示例值
id告警事件 ID83
policyId告警策略 ID1
policyName告警策略名称测试
ruleId策略规则 ID4
hostId主机 ID1
hostName主机名称阿里云
hostCode主机编码ali
hostAddress主机 IP/地址127.0.0.1
tags告警标签 (JSON 格式){"name":"eth0"}
metricsId指标 ID26
metricsName指标名称网卡总接收字节大小
metricsMeasurement指标 measurement 名称network
metricsField指标字段名net_recv_bytes_total
metrics指标标识 (measurement.field)network.net_recv_bytes_total
level告警等级代码 如: P0P0
levelLabel告警等级中文标签严重
levelSeverity告警严重性Critical
levelColor等级颜色 (用于高亮显示)red
consecutiveCount连续触发次数1
triggerCondition触发条件运算符>=
alarmValue当前告警值161KB
alarmThreshold告警阈值0.1MB
alarmInfo告警描述信息网卡总接收字节大小 >= 0.1MB 当前值: 161KB
alarmTime告警触发时间2025-09-21 23:05:35

参数示例

json
{
  "id": 83,
  "policyId": 1,
  "policyName": "测试",
  "ruleId": 4,
  "hostId": 1,
  "hostName": "阿里云",
  "hostCode": "ali",
  "hostAddress": "127.0.0.1",
  "tags": "{\"name\":\"eth0\"}",
  "metricsId": 26,
  "metricsName": "网卡总接收字节大小",
  "metricsMeasurement": "network",
  "metricsField": "net_recv_bytes_total",
  "metrics": "network.net_recv_bytes_total",
  "level": "P0",
  "levelLabel": "严重",
  "levelSeverity": "Critical",
  "levelColor": "red",
  "consecutiveCount": 1,
  "triggerCondition": ">=",
  "alarmValue": "161KB",
  "alarmThreshold": "0.1MB",
  "alarmInfo": "网卡总接收字节大小 >= 0.1MB 当前值: 161KB",
  "alarmTime": "2025-09-21 23:05:35"
}

模板示例 - 站内信

html
🚨 [告警通知]

告警等级:
<sr>@{{ level }} @{{ levelLabel }}</sr>
策略名称:
<sb>@{{ policyName }}</sb>
主机:
<sb>@{{ hostName }} (@{{ hostAddress }})</sb>

指标:
<sb>@{{ metricsName }}</sb>
条件: @{{ triggerCondition }} @{{ alarmThreshold }}
当前值: <b>
  <sr>@{{ alarmValue }}</sr>
</b>
连续次数: @{{ consecutiveCount }}
时间: @{{ alarmTime }}

模板示例 - 钉钉

markdown
# 🚨 [@{{ level }} @{{ levelLabel }}] @{{ metricsName }}超阈值

- **主机**: @{{ hostName }} (@{{ hostAddress }})
- **指标**: @{{ metricsName }}
- **条件**: @{{ triggerCondition }} @{{ alarmThreshold }}
- **当前值**: @{{ alarmValue }}
- **连续次数**: @{{ consecutiveCount }}
- **时间**: @{{ alarmTime }}

模板示例 - 飞书

text
🚨 [@{{ level }} @{{ levelLabel }}] @{{ metricsName }} 超阈值

主机: @{{ hostName }} (@{{ hostAddress }})
指标: @{{ metricsName }}
条件: @{{ triggerCondition }} @{{ alarmThreshold }}
当前值: @{{ alarmValue }}
连续次数: @{{ consecutiveCount }}
时间: @{{ alarmTime }}

模板示例 - 企业微信

markdown
# 🚨 [<font color=@{{ levelColor }}>@{{ level }} @{{ levelLabel }}</font>] @{{ metricsName }}超阈值

- **主机**: @{{ hostName }} (@{{ hostAddress }})
- **指标**: @{{ metricsName }}
- **条件**: @{{ triggerCondition }} @{{ alarmThreshold }}
- **当前值**: <font color=@{{ levelColor }}>@{{ alarmValue }}</font>
- **连续次数**: @{{ consecutiveCount }}
- **时间**: @{{ alarmTime }}