主机监控
展示主机列表对应的监控信息, 包括 CPU、内存、磁盘、网络等。
- 安装: 选中主机后批量安装探针。
- 开启/关闭自动刷新: 开启或关闭列表指标的刷新。
- 上传发布包: 当监控探针新版本发布后, 在这里上传最新的探针发布包。
- 详情: 跳转到对应主机的详情页面。
- 修改配置: 修改主机监控配置。
- 复制 Key: 复制 agentKey。
- 安装探针: 安装监控探针。
- 开启/关闭告警: 开启或关闭主机告警。
- 安装成功: 当数据发生异常时, 强制修正安装状态。
监控详情
展示具体主机对应的主机概览、监控数据、告警事件。监控页面最上方展示了标签页以及主机的基本信息。
主机概览标签页
展示服务器的基本数据, 以及最后一次上报的指标信息。
监控图表标签页
最上方的右侧展示了时间选择、粒度选择、刷新、切换视图。内容区域展示了主机信息指标的时序图以及聚合方法。
告警事件标签页
展示主机相关的告警事件。
告警策略
配置和管理系统的告警策略, 包括告警规则、触发条件、通知方式等。
- 新增: 新增告警策略。
- 修改: 修改告警策略。
- 删除: 删除告警策略。
- 告警规则: 查看和编辑告警策略的规则。
- 复制策略: 用于快速创建策略以及策略规则。
告警事件
查看系统产生的所有告警事件。
- 标记误报: 标记告警的为误报。
- 报警处理: 标记告警的处理状态。
- 删除: 删除告警事件。
- 清理: 快速删除告警事件。
监控指标
维护系统内的监控指标, 为二次开发预留接口, 目前只是为了翻译监控图表的名称。
- 新增: 新增监控指标。
- 修改: 修改监控指标。
- 删除: 删除监控指标。
告警模板
模板标题与内容支持动态参数, 可通过 @{{ xxx }} 替换模板参数
| 参数名 | 描述 | 示例值 |
|---|---|---|
id | 告警事件 ID | 83 |
policyId | 告警策略 ID | 1 |
policyName | 告警策略名称 | 测试 |
ruleId | 策略规则 ID | 4 |
hostId | 主机 ID | 1 |
hostName | 主机名称 | 阿里云 |
hostCode | 主机编码 | ali |
hostAddress | 主机 IP/地址 | 127.0.0.1 |
tags | 告警标签 (JSON 格式) | {"name":"eth0"} |
metricsId | 指标 ID | 26 |
metricsName | 指标名称 | 网卡总接收字节大小 |
metricsMeasurement | 指标 measurement 名称 | network |
metricsField | 指标字段名 | net_recv_bytes_total |
metrics | 指标标识 (measurement.field) | network.net_recv_bytes_total |
level | 告警等级代码 如: P0 | P0 |
levelLabel | 告警等级中文标签 | 严重 |
levelSeverity | 告警严重性 | Critical |
levelColor | 等级颜色 (用于高亮显示) | red |
consecutiveCount | 连续触发次数 | 1 |
triggerCondition | 触发条件运算符 | >= |
alarmValue | 当前告警值 | 161KB |
alarmThreshold | 告警阈值 | 0.1MB |
alarmInfo | 告警描述信息 | 网卡总接收字节大小 >= 0.1MB 当前值: 161KB |
alarmTime | 告警触发时间 | 2025-09-21 23:05:35 |
参数示例
json
{
"id": 83,
"policyId": 1,
"policyName": "测试",
"ruleId": 4,
"hostId": 1,
"hostName": "阿里云",
"hostCode": "ali",
"hostAddress": "127.0.0.1",
"tags": "{\"name\":\"eth0\"}",
"metricsId": 26,
"metricsName": "网卡总接收字节大小",
"metricsMeasurement": "network",
"metricsField": "net_recv_bytes_total",
"metrics": "network.net_recv_bytes_total",
"level": "P0",
"levelLabel": "严重",
"levelSeverity": "Critical",
"levelColor": "red",
"consecutiveCount": 1,
"triggerCondition": ">=",
"alarmValue": "161KB",
"alarmThreshold": "0.1MB",
"alarmInfo": "网卡总接收字节大小 >= 0.1MB 当前值: 161KB",
"alarmTime": "2025-09-21 23:05:35"
}模板示例 - 站内信
html
🚨 [告警通知]
告警等级:
<sr>@{{ level }} @{{ levelLabel }}</sr>
策略名称:
<sb>@{{ policyName }}</sb>
主机:
<sb>@{{ hostName }} (@{{ hostAddress }})</sb>
指标:
<sb>@{{ metricsName }}</sb>
条件: @{{ triggerCondition }} @{{ alarmThreshold }}
当前值: <b>
<sr>@{{ alarmValue }}</sr>
</b>
连续次数: @{{ consecutiveCount }}
时间: @{{ alarmTime }}模板示例 - 钉钉
markdown
# 🚨 [@{{ level }} @{{ levelLabel }}] @{{ metricsName }}超阈值
- **主机**: @{{ hostName }} (@{{ hostAddress }})
- **指标**: @{{ metricsName }}
- **条件**: @{{ triggerCondition }} @{{ alarmThreshold }}
- **当前值**: @{{ alarmValue }}
- **连续次数**: @{{ consecutiveCount }}
- **时间**: @{{ alarmTime }}模板示例 - 飞书
text
🚨 [@{{ level }} @{{ levelLabel }}] @{{ metricsName }} 超阈值
主机: @{{ hostName }} (@{{ hostAddress }})
指标: @{{ metricsName }}
条件: @{{ triggerCondition }} @{{ alarmThreshold }}
当前值: @{{ alarmValue }}
连续次数: @{{ consecutiveCount }}
时间: @{{ alarmTime }}模板示例 - 企业微信
markdown
# 🚨 [<font color=@{{ levelColor }}>@{{ level }} @{{ levelLabel }}</font>] @{{ metricsName }}超阈值
- **主机**: @{{ hostName }} (@{{ hostAddress }})
- **指标**: @{{ metricsName }}
- **条件**: @{{ triggerCondition }} @{{ alarmThreshold }}
- **当前值**: <font color=@{{ levelColor }}>@{{ alarmValue }}</font>
- **连续次数**: @{{ consecutiveCount }}
- **时间**: @{{ alarmTime }}