故障排查流程图和决策树有什么区别？

故障排查流程图就是用在事故上的决策树：几乎每个节点都是一个问题（服务可达？找到根因？恢复已验证？），其答案引向下一步动作。

如何画故障排查流程图（附模板）

故障排查流程图是一棵决策树，把事故响应或调试变成可复用的路径——它展示如何检查服务状态、何时收集更多日志、何时回滚、以及问题何时真正解决。

高压之下，人会跳步骤、靠记忆办事。故障排查流程图把决策路径写明确，让任何值班的人都能一致地照着走，从而加快恢复、减少事故中的失误。

事故进行中时，最糟糕的时机就是在生产宕机时才去想该检查什么。故障排查流程图把这种思考前移到事故之前——它把决策路径捕捉一次，让任何值班的人在高压下照着走，而不是凭记忆临场发挥。

本文梳理一个真实的事故响应流程。因为几乎每个节点都是分支问题，故障排查流程图本质上就是一棵决策树——更通用的模式见那篇。

两个工程师处理同一次宕机，会按不同顺序检查不同的东西。这种不一致既耗时又导致漏步。故障排查流程图把路径标准化：先查这个，根据答案再做那个。它还兼作培训——新的值班工程师可以照着图走，而不必呼叫资深的。

下面是我们故障排查流程图模板所画的流程：

1. 收到告警。 入口——一条告警、一次呼叫、一份「出问题了」的报告。

2. 检查服务状态。 第一个诊断：服务到底还可达吗？

3. 服务可达？（判断） 如果否，去重启或故障转移——在深入调试前先把服务拉回来。如果是，进入排查。

4. 查看日志和指标。 收集证据：错误日志、延迟、近期发布。

5. 找到根因？（判断） 如果否，转到收集更多上下文，扩大范围回退到日志排查。如果是，继续。这条环符合现实——你很少第一遍就找到原因。

6. 应用修复。 做出应该能解决问题的改动。

7. 恢复已验证？（判断） 关键关卡。如果否，转到回滚并继续——撤销改动继续排查，而不是把一个没修好的修复留在那。如果是，继续。

8. 观察 30 分钟 → 已解决。 别急着宣布胜利。一段观察窗口确认修复稳住了，再到达已解决终点。

三个判断点（可达、根因、恢复验证）连同它们的回退环，正是让这成为可用事故手册而非线性清单的关键。用这个模板打开流程图工具，就能看到回滚和重新排查的路径。

没有回滚路径。 如果「应用修复」直接通到「已解决」、中间没有验证关卡，那这张图就假设了每个修复都有效。「恢复已验证？→ 否 → 回滚」这条分支是事故流程里最重要的部分。

过早宣布解决。 没有观察窗口，一个只是看起来有效的修复就会被标为已解决——然后事故重开。把等待内建进流程。

跳过可达性检查。 对一个干脆已经宕掉的服务深入调试，浪费了最关键的头几分钟。先查可达性、先恢复、再排查。

故障排查流程图是一棵决策树，把事故响应或调试变成可复用的路径——状态检查、日志排查、回滚、恢复验证。

高压之下人会跳步骤、靠记忆办事。流程图把决策路径写明确，让任何值班的人都能一致地照着走。

想搭建自己的事故手册？从故障排查流程图模板开始——它已经预置了状态检查、回滚和验证关卡，无需注册。