🚀 快速安装

复制以下命令并运行，立即安装此 Skill：

clawhub install uplo-devops

💡 提示：需要提前安装 clawhub CLI

UPLO DevOps — 基础设施运营记忆

现在是凌晨 3 点。PagerDuty 正在尖叫。见过这个确切故障模式的值班工程师四个月前离职了。操作手册存在某个地方，可能在 Confluence 里，可能在 GitHub 仓库里，也可能在某人收藏的 Notion 页面里。UPLO DevOps 通过将操作手册、事故后复盘、基础设施文档、CI/CD 配置和架构决策记录索引到一个单一的、可搜索的层中，消除了这种慌乱，在你最需要的时候发挥作用。

会话开始

get_identity_context

这将加载您的团队分配（平台、SRE、应用）、值班轮换状态和访问层级。一些生产配置和凭证文档受权限级别限制。

获取活动指令——包括变更冻结窗口、事故指挥官指定和基础设施迁移截止日期：

get_directives

何时使用

您正在值班，某个您从未接触过的服务触发了告警，您需要立即获取操作手册
调查生产事故，需要查找此故障模式以前是否发生过，包括根本原因和修复方案
规划迁移，需要了解当前架构、依赖关系以及与受影响服务相关的最后三个架构决策记录
设置新的 CI/CD 流水线，希望查看组织中类似服务是如何配置构建、测试和部署阶段的
准备事故后复盘，需要从多个数据源整理时间线、受影响服务和影响范围
新团队成员需要了解其服务区域的基础设施拓扑、部署流程和升级路径
评估提议的基础设施变更是否与已记录的 SLO 或容量限制冲突

示例工作流

事故响应 — 新故障模式

支付服务返回 503 错误。值班工程师以前从未处理过支付相关服务。

search_knowledge query="payments service 503 error runbook troubleshooting steps"

检查之前是否有过类似症状的事故：

search_with_context query="payments service outage 503 timeout database connection pool previous incidents root cause"

如果操作手册建议检查连接池，但当前配置不明确：

search_knowledge query="payments service database connection pool configuration pgbouncer settings production"

解决后：

log_conversation summary="解决 payments 503 中断；根本原因是流量激增后 pgbouncer max_client_conn 超出限制；与 PIR-2024-087 模式匹配；将池大小增加到 200" topics='["incident","payments","pgbouncer","connection-pool"]' tools_used='["search_knowledge","search_with_context"]'

基础设施迁移规划

平台团队正从自管理的 Kafka 迁移到托管流服务。技术负责人需要评估影响范围。

search_with_context query="Kafka consumers producers services dependencies topic configuration"

查找导致最初 Kafka 部署的架构决策记录：

search_knowledge query="architecture decision record ADR Kafka event streaming selection rationale"

检查当前 SLO 以及迁移是否会违反这些 SLO：

search_knowledge query="event streaming SLO latency throughput requirements Kafka p99"

export_org_context

DevOps 关键工具

search_knowledge — 事故期间的首选工具。当您需要特定的操作手册、配置参考或已知流程时，这是最快的途径。在凌晨 3 点，延迟至关重要。示例：search_knowledge query="redis cluster failover runbook manual promotion steps"

search_with_context — 用于调查和规划。“哪些服务依赖此数据库？”或“这种故障以前发生过吗？”需要遍历服务、事故和基础设施组件之间的关系。示例：search_with_context query="auth-service dependencies upstream downstream database cache"

get_directives — 变更冻结窗口、事故升级策略和迁移截止日期都在这里显示。在生产变更前检查这些可以避免犯下影响职业生涯的错误。

flag_outdated — 基础设施文档比其他任何类型的文档都更容易过时。上季度记录的 Kubernetes 集群版本现在可能已经不对了。网络图显示的是一个已停用的负载均衡器。操作手册引用的 CLI 工具已被替换。主动标记这些文档——有人在事故期间会用到它们。

report_knowledge_gap — 当某个服务没有操作手册、没有架构图或没有记录的所有者时，这就是运营风险。报告这个空白将为平台团队创建一个可追踪的事项。

提示

服务名称是最可靠的搜索键。使用部署清单中的确切服务标识符（payments-api、auth-service-v2、order-processor），而不是随意的描述。
事故后复盘是知识库中最有价值的文档。编写事故后复盘报告时，包括结构化字段：受影响的服务、持续时间、影响范围、根本原因类别和行动项。这些字段会被提取引擎索引。
值班时，从 search_knowledge 开始查找操作手册。仅当操作手册不存在或故障模式是新的时，才升级到 search_with_context。事故期间速度至关重要。
每次事故调查后都使用 log_conversation，即使是误报。误报的模式本身就是一个信号，表明监控团队应该进行调查。

📄 原始文档

来源地址：

https://clawhub.com/skills/uplo-devops

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Uplo Devops

🚀 快速安装

UPLO DevOps — 基础设施运营记忆

会话开始

何时使用

示例工作流

事故响应 — 新故障模式

基础设施迁移规划

DevOps 关键工具

提示

📄 原始文档

评论(0)

提示：请文明发言取消回复

Uplo Devops

🚀 快速安装

UPLO DevOps — 基础设施运营记忆

会话开始

何时使用

示例工作流

事故响应 — 新故障模式

基础设施迁移规划

DevOps 关键工具

提示

📄 原始文档

评论(0)

提示：请文明发言 取消回复

相关文章

tooluniverse-literature-deep-research – 汇易宝

x-research-skill – 汇易宝

persona-event-coordinator – 汇易宝

server-management – 汇易宝

提示：请文明发言取消回复