第 39 章
风险量化与业务连续性
把风控从检查清单升级为治理系统。明确风险容忍度、剩余风险、控制责任、恢复目标、依赖关系和演练验收。
★ 风控不是追求零风险
零风险通常意味着零增长或不可接受的运营成本。专业风控是在业务目标下明确哪些风险不能接受、哪些可以受控承担、事故发生后多快恢复,以及谁对每个控制负责。
39.1 先定义风险偏好、容忍度和红线#
| 概念 | 回答的问题 | 示例 |
|---|---|---|
| 风险偏好 | 为增长愿意承担多大不确定性? | 新市场可用小预算实验,但不允许绕过政策 |
| 风险容忍度 | 偏离到什么程度必须升级处理? | 消耗、转化中断、页面故障、付款失败分别定义阈值 |
| 红线 | 哪些情况无论收益多高都不能接受? | 虚假资料、共享密码、cloaking、未授权素材、敏感数据泄露 |
| 例外审批 | 谁可以在什么条件下临时放宽控制? | 记录原因、范围、期限、补偿控制和复核日期 |
39.2 固有风险、控制有效性和剩余风险#
风险评分不是为了制造精确幻觉,而是帮助团队排序。先评估没有控制时的固有风险,再评估现有控制是否真正运行,最后判断剩余风险是否可接受。
| 字段 | 问题 | 常见证据 |
|---|---|---|
| 固有风险 | 如果什么都不做,概率和影响多大? | 行业、预算、权限、数据敏感度、历史事故 |
| 控制设计 | 控制理论上能否降低风险? | SOP、审批矩阵、告警规则、回滚方案 |
| 控制运行 | 控制是否真的执行并留下证据? | 日志、截图、工单、抽查、演练记录 |
| 剩余风险 | 控制后仍有什么风险?是否接受? | 风险 owner 签字、补偿控制、升级决定 |
39.3 用蝴蝶结模型连接原因、事故和后果#
风控不能只列风险名称。对每个重大场景画出:威胁 → 关键事件 → 后果。事件左侧放预防控制,右侧放侦测、止损、恢复和证据控制。
| 场景 | 左侧威胁 | 关键事件 | 右侧后果 | 关键控制 |
|---|---|---|---|---|
| 异常消耗 | 误操作、脚本失控、权限泄露 | 预算或投放范围非预期扩大 | 超支、客户投诉、利润损失 | 审批、白名单、告警、下线开关、对账 |
| 转化数据中断 | 网站发布、标签变更、导入失败 | 模型收到错误或缺失反馈 | 误判效果、出价漂移、报表失真 | 版本管理、对账、失败队列、回滚、Data Exclusion 评估 |
| 账户被盗 | 密码泄露、恢复信息失效、恶意授权 | 未知人员获得账户控制 | 违规广告、异常花费、数据泄露 | 两步验证、最小权限、登录治理、止损和取证 |
| 政策暂停 | 业务违规、页面变更、重复拒登、关联账户风险 | 账户停止投放 | 收入中断、客户关系受损 | 准入、上线 QA、证据台账、修复和准确申诉 |
39.4 控制矩阵:每个控制都要有 owner 和证据#
=== 控制矩阵最小字段 ===
风险场景:[ ]
保护资产:[ ]
控制名称:[ ]
控制类型:[预防 / 侦测 / 纠正 / 证据]
执行频率:[实时 / 每日 / 每周 / 每次变更 / 每季度]
执行人 Responsible:[ ]
最终负责 Accountable:[ ]
协作 Consulted:[ ]
知会 Informed:[ ]
证据位置:[ ]
失败后的补偿控制:[ ]
最后测试日期:[ ]
下一次演练日期:[ ]
只有写在文档里但没有 owner、频率、证据和测试日期的控制,不应被视为有效控制。
39.5 恢复目标:明确 RTO、RPO 和降级方案#
| 概念 | 定义 | 广告业务中的用法 |
|---|---|---|
| RTO | 事故后允许多长时间恢复关键能力 | 页面故障、转化跟踪中断、异常权限、报告中断分别设恢复目标 |
| RPO | 最多允许丢失多长时间的数据或配置 | 决定标签版本、配置导出、CRM 上传队列和日志保留频率 |
| 降级方案 | 无法立即完全恢复时,如何限制损失继续运行 | 暂停高风险 Campaign、保留品牌保护、关闭自动化、切回稳定页面 |
| 恢复验收 | 什么证据证明可以逐步放量 | 页面、标签、权限、预算、政策状态和对账结果均通过检查 |
39.6 告警体系要减少漏报,也要控制误报#
告警过少会错过事故,告警过多会导致团队麻木。每条告警必须定义基线、阈值、持续时间、静默条件、owner、升级路径和关闭标准。
| 告警 | 不要只看 | 至少结合 |
|---|---|---|
| 异常消耗 | 单日超过平均预算 | 预算规则、同星期基线、促销、预算变更、served 与 billed cost |
| 转化归零 | Google Ads 单一列 | GA4、CRM、订单后台、失败队列、页面监控 |
| 页面不可用 | 首页状态码 | 落地页清单、移动端、目标地区、结账或表单关键路径 |
| 权限异常 | 人员名单 | MCC 关联、管理员、第三方工具、API 凭证、离职台账 |
39.7 第三方依赖必须纳入风险登记册#
| 依赖 | 常见故障 | 最低治理 |
|---|---|---|
| 网站、CDN、DNS、支付 | 页面不可用、地区失败、结账中断 | owner、监控、升级联系人、备用方案、演练 |
| GTM、GA4、CRM、离线导入 | 标签错误、重复、延迟、失败队列堆积 | 版本、对账、回滚、重放流程、访问控制 |
| Feed、Merchant Center、库存系统 | 价格库存错误、商品拒登、缺货仍投放 | 同步频率、抽样、异常阈值、暂停流程 |
| 脚本、API、连接器、SaaS | 批量误改、权限过大、供应商中断 | 白名单、日志、下线开关、替代路径、合同责任 |
| 客户团队与代理团队 | 离职、无人审批、知识只在个人手中 | 双人覆盖、交接、权限回收、运行手册 |
39.8 演练不是走流程,要验证控制真的有效#
| 演练场景 | 注入条件 | 验收问题 |
|---|---|---|
| 转化中断 | 测试环境模拟标签或导入失败 | 多久发现?谁响应?能否回滚?是否知道影响点击日期? |
| 异常消耗 | 模拟脚本计划扩大预算 | Preview、审批、阈值和下线开关是否阻止执行? |
| 员工离职 | 选择一个测试身份执行回收 | MCC、Ads、GA4、GTM、工具和凭证是否全部覆盖? |
| 页面故障 | 测试环境模拟关键路径不可用 | 监控是否覆盖真实落地页?降级页和客户沟通是否可用? |
| 账户接管 | 桌面推演未知管理员和违规 Campaign | 能否止损、取证、联系支持并完成恢复验收? |
39.9 风险仪表盘:管理趋势而不是堆工单#
管理层每月复盘
- 高剩余风险数量、逾期整改、未测试控制和即将到期资质
- 事件数量、严重等级、发现时间、止损时间、恢复时间和重复发生率
- 预算告警、数据中断、页面故障、政策拒登、权限异常和第三方故障趋势
- 哪些控制只存在于文档,哪些已有运行证据,哪些需要补偿控制
- 本季度演练完成率、失败项、owner 和整改截止日期
本章要点
- 风控先明确风险偏好、容忍度、红线和例外审批
- 控制必须有 owner、频率、证据和测试日期,否则不能算有效
- RTO、RPO、降级方案和恢复验收让事故处理从经验变成系统
- 依赖治理、告警质量和定期演练决定代理商是否真的具备恢复能力