精选案例 · 工程接入与部署 / 数据处理与可视化

Fault Agent

作者： james

一款轻量级 Linux 主机故障监控 Agent，使用 Python 标准库实现（零外部依赖），单文件部署。支持 22 项系统监控项（内核错误、僵尸进程、systemd 失效、磁盘/内存/CPU 异常等），配置热加载，分组标签与访问控制，以及 --oneshot 单次运行调试模式。通过 crontab 定期执行，数据上报后可集中查看多台主机运行状态。

案例速读

该项目提供了一个实用的开源工具，基于 Python 标准库实现零外部依赖的 Linux 主机故障监控 Agent，单文件部署，支持 22 项系统状态检查，配置可热加载，适合需要快速部署轻量监控系统的运维团队。建议从「Fault Agent」、「项目简介」、「使用对象」、「开发简介」进入正文，先确认真实任务和模型辅助过程。

重点看零外部依赖的 Python 标准库实现方法、单文件 Agent 设计模式、配置热加载机制。结合工程接入与部署 / 数据处理与可视化 / 运维 / 监控和「Linux 服务器运维人员、需要集中监控多台主机健康状态的团队」，它更适合作为任务检索后的精读材料。
正文目录和原始材料仍然是判断依据；导读只帮助你更快定位阅读重点。

首读入口: 项目简介
读者: Linux 服务器运维人员、需要集中监控多台主机健康状态的团队
复用: 零外部依赖的 Python 标准库实现方法
结构: 5 个目录入口

原文内容

Fault Agent

项目简介

Linux 主机故障监控 Agent，定期检查系统故障状态并上报到集中服务器。零外部依赖，单文件部署。数据上报到 https://noc.ustc.edu.cn 后可集中查看各主机的运行状态。

项目地址：https://git.ustc.edu.cn/ustcnic/fault-agent

使用对象

Linux 服务器运维人员
需要集中监控多台主机健康状态的团队

开发简介

语言：Python
依赖：仅使用 Python 标准库，零外部依赖（可选 pyyaml）
配置文件格式：支持 JSON 和 YAML 两种格式
核心功能：
- 监控项：内核错误消息、僵尸进程、systemd 单元失效、磁盘/内存/CPU 异常等22项
- 配置热加载
- 支持分组标签（group）和访问控制（GID）
- 支持 --oneshot 单次运行调试模式
部署方式：git clone 到目标服务器，配置 crontab 定期执行
AI 使用：项目由 AI 辅助生成前后端代码

项目截图

图片暂时无法显示：运行截图

返回顶部