精选案例 · Agent / 实践案例

我们做了什么

可读标题 · 基于原文内容整理

原题：项目描述

这个案例围绕「项目描述」记录了一条真实 AI 实践线索，正文重点集中在「项目概述」「我们做了什么」，适合先按任务意图阅读再判断复用。

案例速读

README 标题「项目描述」下已经出现运行/配置路径、脚本或接口线索，正文重点集中在「项目概述」「我们做了什么」，比纯概念介绍更适合进入精选阅读流。这篇案例的阅读价值在于，它把真实任务、模型辅助过程和可迁移做法放在同一个上下文里，读者可以从「项目描述」、「项目概述」、「我们做了什么」进入正文。

建议重点看可参考其中的运行与配置路径、包含可迁移的命令、脚本或接口线索、继续补充结果证据后推荐度会更高。结合 Agent / 实践案例和「任务驱动用户、AI 实践者」这一受众定位，它更适合作为任务检索后的精读材料，而不是只看一句短摘要后快速跳过。
正文目录和原始材料仍然是判断依据；导读只帮助你更快定位阅读重点。

原文内容

lab-fault-ops 是一个面向 Linux/GPU 服务器的只读故障巡检 Agent。项目基于 fault-agent（https://git.ustc.edu.cn/ustcnic/fault-agent）的系统故障检查框架，扩展了适合课题组服务器运维场景的 GPU、硬件、存储和登录安全检查能力。

Agent 通过 Python 脚本定期执行本机巡检，生成完整 JSON 报告和人类可读摘要，并统一保存到配置文件指定的本地目录。项目不执行删除、清理、重启、kill 或配置修改等操作，主要用于发现故障、辅助分析和形成可追溯的巡检记录。

以 fault-agent（https://git.ustc.edu.cn/ustcnic/fault-agent）为基础整理出新的 lab-fault-ops 项目结构。
将原本较长的主脚本拆分为 utils/ 下的功能模块，主入口只保留 CLI 调用逻辑。
新增 GPU 和服务器硬件巡检能力，包括 GPU 状态、掉卡、ECC、GPU 进程、CPU/主板/磁盘温度、网卡错误、登录失败统计和硬件 RAID 检查。
调整 GPU 告警逻辑：GPU 利用率和显存占用只采集不报警，避免高强度训练任务产生误报。
针对课题组服务器的实际部署方式简化运行链路，保留单一的 JSON 配置和本地报告保存路径。
简化输出模型：每次运行只生成完整 JSON 报告和摘要文件，文件名包含主机名和时间戳。
同步更新 README、配置样例和技能说明，使文档与当前代码行为一致。