🚀 快速安装

复制以下命令并运行,立即安装此 Skill:

npx skills add https://skills.sh/anthropics/knowledge-work-plugins/incident-response

💡 提示:需要 Node.js 和 NPM

/incident-response

如果您看到不熟悉的占位符或需要检查哪些工具已连接,请参阅 CONNECTORS.md

管理从检测到事后总结的整个事件响应流程。

用法 (Usage)

/incident-response $ARGUMENTS

模式 (Modes)

/incident-response new [描述]     # 开始一个新事件 (Start a new incident)
/incident-response update [状态]   # 发布状态更新 (Post a status update)
/incident-response postmortem      # 根据事件数据生成事后总结 (Generate postmortem from incident data)

如果未指定模式,则询问事件当前处于哪个阶段。

工作原理 (How It Works)

┌─────────────────────────────────────────────────────────────────┐
│                    事件响应流程 (INCIDENT RESPONSE)               │
├─────────────────────────────────────────────────────────────────┤
│  阶段 1: 分类定级 (Phase 1: TRIAGE)                               │
│  ✓ 评估严重等级 (SEV1-4) (Assess severity SEV1-4)               │
│  ✓ 识别受影响的系统和用户 (Identify affected systems and users)  │
│  ✓ 分配角色(事件指挥、沟通、响应人员)(Assign roles: IC, comms, responders) │
│                                                                    │
│  阶段 2: 沟通 (Phase 2: COMMUNICATE)                               │
│  ✓ 起草内部状态更新 (Draft internal status update)               │
│  ✓ 起草客户沟通(如需要)(Draft customer communication if needed) │
│  ✓ 建立作战室和沟通节奏 (Set up war room and cadence)            │
│                                                                    │
│  阶段 3: 缓解 (Phase 3: MITIGATE)                                  │
│  ✓ 记录已采取的缓解步骤 (Document mitigation steps taken)        │
│  ✓ 跟踪事件时间线 (Track timeline of events)                     │
│  ✓ 确认已解决 (Confirm resolution)                               │
│                                                                    │
│  阶段 4: 事后总结 (Phase 4: POSTMORTEM)                            │
│  ✓ 无责事后总结文档 (Blameless postmortem document)              │
│  ✓ 时间线重建 (Timeline reconstruction)                          │
│  ✓ 根本原因分析(5 Whys 分析法)(Root cause analysis 5 whys)    │
│  ✓ 带有责任人的行动项 (Action items with owners)                 │
└─────────────────────────────────────────────────────────────────┘

严重等级分类 (Severity Classification)

等级 (Level) 标准 (Criteria) 响应时间 (Response Time)
SEV1 服务中断,所有用户受影响 (Service down, all users affected) 立即,全员响应 (Immediate, all-hands)
SEV2 主要功能降级,大量用户受影响 (Major feature degraded, many users affected) 15 分钟内 (Within 15 min)
SEV3 次要功能问题,部分用户受影响 (Minor feature issue, some users affected) 1 小时内 (Within 1 hour)
SEV4 外观或低影响问题 (Cosmetic or low-impact issue) 下一个工作日 (Next business day)

沟通指南 (Communication Guidance)

以固定的节奏提供清晰、基于事实的更新。内容包括:发生了什么、谁受影响、我们正在做什么、下一次更新的时间。

输出 — 状态更新 (Output — Status Update)

## 事件更新: [标题] (Incident Update: [Title])
**严重等级 (Severity):** SEV[1-4] | **状态 (Status):** 调查中 | 已识别 | 监控中 | 已解决 (Investigating | Identified | Monitoring | Resolved)
**影响 (Impact):** [谁/什么受影响 (Who/what is affected)]
**最后更新 (Last Updated):** [时间戳 (Timestamp)]

### 当前状态 (Current Status)
[我们现在知道的情况 (What we know now)]

### 已采取的行动 (Actions Taken)
- [行动 1 (Action 1)]
- [行动 2 (Action 2)]

### 下一步 (Next Steps)
- [接下来要做什么及预计完成时间 (What's happening next and ETA)]

### 时间线 (Timeline)
| 时间 (Time) | 事件 (Event) |
|------|-------|
| [HH:MM] | [事件 (Event)] |

输出 — 事后总结 (Output — Postmortem)

## 事后总结: [事件标题] (Postmortem: [Incident Title])
**日期 (Date):** [日期 (Date)] | **持续时间 (Duration):** [X 小时 (X hours)] | **严重等级 (Severity):** SEV[X]
**作者 (Authors):** [姓名 (Names)] | **状态 (Status):** 草稿 (Draft)

### 摘要 (Summary)
[2-3 句通俗语言摘要 (2-3 sentence plain-language summary)]

### 影响 (Impact)
- [受影响的用户 (Users affected)]
- [影响持续时间 (Duration of impact)]
- [如可量化的业务影响 (Business impact if quantifiable)]

### 时间线 (Timeline)
| 时间 (UTC) (Time UTC) | 事件 (Event) |
|------------|-------|
| [HH:MM] | [事件 (Event)] |

### 根本原因 (Root Cause)
[对事件起因的详细解释 (Detailed explanation of what caused the incident)]

### 5 Whys 分析 (5 Whys)
1. 为什么 [症状]? → [因为...] (Why did [symptom]? → [Because...])
2. 为什么 [原因 1]? → [因为...] (Why did [cause 1]? → [Because...])
3. 为什么 [原因 2]? → [因为...] (Why did [cause 2]? → [Because...])
4. 为什么 [原因 3]? → [因为...] (Why did [cause 3]? → [Because...])
5. 为什么 [原因 4]? → [根本原因] (Why did [cause 4]? → [Root cause])

### 哪些方面做得好 (What Went Well)
- [有效的方面 (Things that worked)]

### 哪些方面有待改进 (What Went Poorly)
- [效果不佳的方面 (Things that didn't work)]

### 行动项 (Action Items)
| 行动 (Action) | 负责人 (Owner) | 优先级 (Priority) | 截止日期 (Due Date) |
|--------|-------|----------|----------|
| [行动 (Action)] | [负责人 (Person)] | P0/P1/P2 | [日期 (Date)] |

### 经验教训 (Lessons Learned)
[团队的关键收获 (Key takeaways for the team)]

如果连接器可用 (If Connectors Available)

如果 ~~监控系统 (monitoring) 已连接:

  • 拉取告警详情和指标 (Pull alert details and metrics)
  • 显示受影响指标的图表 (Show graphs of affected metrics)

如果 ~~事件管理 (incident management) 已连接:

  • 在 PagerDuty/Opsgenie 中创建或更新事件 (Create or update incident in PagerDuty/Opsgenie)
  • 通知待命响应人员 (Page on-call responders)

如果 ~~聊天工具 (chat) 已连接:

  • 向事件频道发布状态更新 (Post status updates to incident channel)
  • 创建作战室频道 (Create war room channel)

提示 (Tips)

  1. 立即开始记录 (Start writing immediately) — 不要等待完整的信息。随着了解更多情况持续更新。 (Don’t wait for complete information. Update as you learn more.)
  2. 保持更新内容基于事实 (Keep updates factual) — 陈述我们知道什么、做了什么、下一步是什么。不做推测。 (What we know, what we’ve done, what’s next. No speculation.)
  3. 事后总结坚持无责原则 (Postmortems are blameless) — 关注系统和流程,而非个人。 (Focus on systems and processes, not individuals.)

📄 原始文档

完整文档(英文):

https://skills.sh/anthropics/knowledge-work-plugins/incident-response

💡 提示:点击上方链接查看 skills.sh 原始英文文档,方便对照翻译。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。