答:应覆盖可用性(Availability)、延迟/响应时间(TTFB、p95/p99)、带宽与吞吐(Bandwidth/Throughput)、请求数(QPS)、缓存命中率(Cache Hit Ratio)、错误率(4xx/5xx)、丢包与抖动(Packet Loss / Jitter)、源站连通性(Origin Health)及资源利用(CPU/内存/磁盘)等。对越南本地节点,还应加监控链路质量和ISP差异。
答:采集频率建议:性能类(延迟、带宽、QPS)30s–60s,状态类(可用性、错误率)1–5分钟,非关键指标5–15分钟。常见阈值参考:可用性低于99.9%触发警告,低于99%触发严重告警;p95延迟>200ms为警告、>500ms为严重;带宽利用率>80%警告、>95%严重;缓存命中率低于70%需优化;5xx错误率>1%应立即调查。
答:建议按严重度分为Info/Warning/Critical三档。Critical(如节点不可达、5xx暴增、链路中断)即时触发短信/电话并自动演练Failover;Warning(延迟上升、带宽接近阈值)通过邮件/工单通知并开始自动采样;Info用于容量与趋势提醒。必须配置告警抑制(dedup、抑制窗口)、抖动过滤(持续n次或时间窗口)和自动化Runbook链接,明确值班与升级路径。
答:越南网络存在多ISP分散与国际出口瓶颈,应多点测量(河内、胡志明、岘港等PoP),关注与越南本地运营商的peering质量;跨境流量到新加坡/香港延迟和丢包要单独监控;告警语言、本地值班时区与短信投递稳定性要适配越南市场;合规与日志保留策略依据本地法规调整。
答:常用组合:Prometheus+Alertmanager+Grafana适合自建监控,Zabbix/Checkmk用于主机级监控,Datadog/ThousandEyes用于合规与合成监测,CDN厂商控制台提供边缘指标。示例Prometheus规则:avg_over_time(rate(http_requests_total{status=~"5.."}[5m])[5m]) > 0.01 → ALERT High5xxRate; 或 node_network_receive_bytes_total速率接近链路速率的80%触发BandwidthHigh。实现时务必加入告警抑制、自动恢复条件及Runbook跳转。