返回案例库

精选案例 · Agent / 实践案例

我们做了什么

可读标题 · 基于原文内容整理

原题:项目描述

这个案例围绕「项目描述」记录了一条真实 AI 实践线索,正文重点集中在「项目概述」「我们做了什么」,适合先按任务意图阅读再判断复用。

案例速读

README 标题「项目描述」下已经出现运行/配置路径、脚本或接口线索,正文重点集中在「项目概述」「我们做了什么」,比纯概念介绍更适合进入精选阅读流。 这篇案例的阅读价值在于,它把真实任务、模型辅助过程和可迁移做法放在同一个上下文里,读者可以从 「项目描述」、「项目概述」、「我们做了什么」 进入正文。

  • 建议重点看 可参考其中的运行与配置路径、包含可迁移的命令、脚本或接口线索、继续补充结果证据后推荐度会更高。结合 Agent / 实践案例 和「任务驱动用户、AI 实践者」这一受众定位,它更适合作为任务检索后的精读材料,而不是只看一句短摘要后快速跳过。
  • 正文目录和原始材料仍然是判断依据;导读只帮助你更快定位阅读重点。
看点
项目描述
读者
任务驱动用户、AI 实践者
复用
可参考其中的运行与配置路径
结构
3 个目录入口

原文内容

项目描述

项目概述

lab-fault-ops 是一个面向 Linux/GPU 服务器的只读故障巡检 Agent。项目基于 fault-agenthttps://git.ustc.edu.cn/ustcnic/fault-agent)的系统故障检查框架,扩展了适合课题组服务器运维场景的 GPU、硬件、存储和登录安全检查能力。

Agent 通过 Python 脚本定期执行本机巡检,生成完整 JSON 报告和人类可读摘要,并统一保存到配置文件指定的本地目录。项目不执行删除、清理、重启、kill 或配置修改等操作,主要用于发现故障、辅助分析和形成可追溯的巡检记录。

我们做了什么

  • fault-agenthttps://git.ustc.edu.cn/ustcnic/fault-agent)为基础整理出新的 lab-fault-ops 项目结构。
  • 将原本较长的主脚本拆分为 utils/ 下的功能模块,主入口只保留 CLI 调用逻辑。
  • 新增 GPU 和服务器硬件巡检能力,包括 GPU 状态、掉卡、ECC、GPU 进程、CPU/主板/磁盘温度、网卡错误、登录失败统计和硬件 RAID 检查。
  • 调整 GPU 告警逻辑:GPU 利用率和显存占用只采集不报警,避免高强度训练任务产生误报。
  • 针对课题组服务器的实际部署方式简化运行链路,保留单一的 JSON 配置和本地报告保存路径。
  • 简化输出模型:每次运行只生成完整 JSON 报告和摘要文件,文件名包含主机名和时间戳。
  • 同步更新 README、配置样例和技能说明,使文档与当前代码行为一致。

返回顶部