🚀 快速安装
复制以下命令并运行,立即安装此 Skill:
npx skills add https://skills.sh/anthropics/knowledge-work-plugins/incident-response
💡 提示:需要 Node.js 和 NPM
/incident-response
如果您看到不熟悉的占位符或需要检查哪些工具已连接,请参阅 CONNECTORS.md。
管理从检测到事后总结的整个事件响应流程。
用法 (Usage)
/incident-response $ARGUMENTS
模式 (Modes)
/incident-response new [描述] # 开始一个新事件 (Start a new incident)
/incident-response update [状态] # 发布状态更新 (Post a status update)
/incident-response postmortem # 根据事件数据生成事后总结 (Generate postmortem from incident data)
如果未指定模式,则询问事件当前处于哪个阶段。
工作原理 (How It Works)
┌─────────────────────────────────────────────────────────────────┐
│ 事件响应流程 (INCIDENT RESPONSE) │
├─────────────────────────────────────────────────────────────────┤
│ 阶段 1: 分类定级 (Phase 1: TRIAGE) │
│ ✓ 评估严重等级 (SEV1-4) (Assess severity SEV1-4) │
│ ✓ 识别受影响的系统和用户 (Identify affected systems and users) │
│ ✓ 分配角色(事件指挥、沟通、响应人员)(Assign roles: IC, comms, responders) │
│ │
│ 阶段 2: 沟通 (Phase 2: COMMUNICATE) │
│ ✓ 起草内部状态更新 (Draft internal status update) │
│ ✓ 起草客户沟通(如需要)(Draft customer communication if needed) │
│ ✓ 建立作战室和沟通节奏 (Set up war room and cadence) │
│ │
│ 阶段 3: 缓解 (Phase 3: MITIGATE) │
│ ✓ 记录已采取的缓解步骤 (Document mitigation steps taken) │
│ ✓ 跟踪事件时间线 (Track timeline of events) │
│ ✓ 确认已解决 (Confirm resolution) │
│ │
│ 阶段 4: 事后总结 (Phase 4: POSTMORTEM) │
│ ✓ 无责事后总结文档 (Blameless postmortem document) │
│ ✓ 时间线重建 (Timeline reconstruction) │
│ ✓ 根本原因分析(5 Whys 分析法)(Root cause analysis 5 whys) │
│ ✓ 带有责任人的行动项 (Action items with owners) │
└─────────────────────────────────────────────────────────────────┘
严重等级分类 (Severity Classification)
| 等级 (Level) | 标准 (Criteria) | 响应时间 (Response Time) |
|---|---|---|
| SEV1 | 服务中断,所有用户受影响 (Service down, all users affected) | 立即,全员响应 (Immediate, all-hands) |
| SEV2 | 主要功能降级,大量用户受影响 (Major feature degraded, many users affected) | 15 分钟内 (Within 15 min) |
| SEV3 | 次要功能问题,部分用户受影响 (Minor feature issue, some users affected) | 1 小时内 (Within 1 hour) |
| SEV4 | 外观或低影响问题 (Cosmetic or low-impact issue) | 下一个工作日 (Next business day) |
沟通指南 (Communication Guidance)
以固定的节奏提供清晰、基于事实的更新。内容包括:发生了什么、谁受影响、我们正在做什么、下一次更新的时间。
输出 — 状态更新 (Output — Status Update)
## 事件更新: [标题] (Incident Update: [Title])
**严重等级 (Severity):** SEV[1-4] | **状态 (Status):** 调查中 | 已识别 | 监控中 | 已解决 (Investigating | Identified | Monitoring | Resolved)
**影响 (Impact):** [谁/什么受影响 (Who/what is affected)]
**最后更新 (Last Updated):** [时间戳 (Timestamp)]
### 当前状态 (Current Status)
[我们现在知道的情况 (What we know now)]
### 已采取的行动 (Actions Taken)
- [行动 1 (Action 1)]
- [行动 2 (Action 2)]
### 下一步 (Next Steps)
- [接下来要做什么及预计完成时间 (What's happening next and ETA)]
### 时间线 (Timeline)
| 时间 (Time) | 事件 (Event) |
|------|-------|
| [HH:MM] | [事件 (Event)] |
输出 — 事后总结 (Output — Postmortem)
## 事后总结: [事件标题] (Postmortem: [Incident Title])
**日期 (Date):** [日期 (Date)] | **持续时间 (Duration):** [X 小时 (X hours)] | **严重等级 (Severity):** SEV[X]
**作者 (Authors):** [姓名 (Names)] | **状态 (Status):** 草稿 (Draft)
### 摘要 (Summary)
[2-3 句通俗语言摘要 (2-3 sentence plain-language summary)]
### 影响 (Impact)
- [受影响的用户 (Users affected)]
- [影响持续时间 (Duration of impact)]
- [如可量化的业务影响 (Business impact if quantifiable)]
### 时间线 (Timeline)
| 时间 (UTC) (Time UTC) | 事件 (Event) |
|------------|-------|
| [HH:MM] | [事件 (Event)] |
### 根本原因 (Root Cause)
[对事件起因的详细解释 (Detailed explanation of what caused the incident)]
### 5 Whys 分析 (5 Whys)
1. 为什么 [症状]? → [因为...] (Why did [symptom]? → [Because...])
2. 为什么 [原因 1]? → [因为...] (Why did [cause 1]? → [Because...])
3. 为什么 [原因 2]? → [因为...] (Why did [cause 2]? → [Because...])
4. 为什么 [原因 3]? → [因为...] (Why did [cause 3]? → [Because...])
5. 为什么 [原因 4]? → [根本原因] (Why did [cause 4]? → [Root cause])
### 哪些方面做得好 (What Went Well)
- [有效的方面 (Things that worked)]
### 哪些方面有待改进 (What Went Poorly)
- [效果不佳的方面 (Things that didn't work)]
### 行动项 (Action Items)
| 行动 (Action) | 负责人 (Owner) | 优先级 (Priority) | 截止日期 (Due Date) |
|--------|-------|----------|----------|
| [行动 (Action)] | [负责人 (Person)] | P0/P1/P2 | [日期 (Date)] |
### 经验教训 (Lessons Learned)
[团队的关键收获 (Key takeaways for the team)]
如果连接器可用 (If Connectors Available)
如果 ~~监控系统 (monitoring) 已连接:
- 拉取告警详情和指标 (Pull alert details and metrics)
- 显示受影响指标的图表 (Show graphs of affected metrics)
如果 ~~事件管理 (incident management) 已连接:
- 在 PagerDuty/Opsgenie 中创建或更新事件 (Create or update incident in PagerDuty/Opsgenie)
- 通知待命响应人员 (Page on-call responders)
如果 ~~聊天工具 (chat) 已连接:
- 向事件频道发布状态更新 (Post status updates to incident channel)
- 创建作战室频道 (Create war room channel)
提示 (Tips)
- 立即开始记录 (Start writing immediately) — 不要等待完整的信息。随着了解更多情况持续更新。 (Don’t wait for complete information. Update as you learn more.)
- 保持更新内容基于事实 (Keep updates factual) — 陈述我们知道什么、做了什么、下一步是什么。不做推测。 (What we know, what we’ve done, what’s next. No speculation.)
- 事后总结坚持无责原则 (Postmortems are blameless) — 关注系统和流程,而非个人。 (Focus on systems and processes, not individuals.)
📄 原始文档
完整文档(英文):
https://skills.sh/anthropics/knowledge-work-plugins/incident-response
💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)