1. 为什么需要 Runbook
没有 Runbook,线上问题只能靠临场反应。Runbook 的目标是:
- 每次发布动作可复现
- 故障处理路径可执行
- 责任分工可追溯
2. 发布前清单
- 合约版本、参数、地址已确认
- 部署脚本在测试网完整演练
- 权限已移交到多签/治理
- 监控与告警规则已启用
- 回滚或降级策略已准备
3. 发布中流程
- 执行脚本部署
- 立即验证源码
- 执行冒烟交易(读 + 写)
- 对外同步版本和地址
4. 发布后监控
重点监控指标:
- 失败交易率
- 核心函数调用量与异常比例
- 资金池余额变化异常
- 关键事件是否连续产出
5. 应急响应模板
当发现异常时:
- 触发告警并通知值班人
- 评估影响范围(资金/用户/链)
- 执行暂停或限流策略
- 发布状态公告
- 修复、复盘、更新 Runbook
6. 结语
安全上线的关键不只是“代码正确”,而是工程流程稳定。把 Runbook 写进仓库并持续演练,才能真正降低事故成本。