案例库

按任务、质量和标签检索真实案例

列表右侧直接呈现质量、来源和操作入口,先帮你判断值不值得点开。

103个结果1-12
精选工程接入与部署 / 科研阅读与计算 / Agent / 实践案例
Lab Fault Ops标题由系统识别整理 · 基于正文整理

Linux/GPU 服务器故障监控 Agent,基于 fault-agent(https://git.ustc.edu.cn/ustcnic/fault-agent)扩展了 GPU 状态、掉卡、ECC、硬件温度、网卡错误、登录失败统计和硬件 RAID 等服务器巡检项。脚本以只读检查为主,定期采集系统故障状态,并把完整报告和摘要保存到本地指定目录。