第 39 章

风险量化与业务连续性

把风控从检查清单升级为治理系统。明确风险容忍度、剩余风险、控制责任、恢复目标、依赖关系和演练验收。

★ 风控不是追求零风险

零风险通常意味着零增长或不可接受的运营成本。专业风控是在业务目标下明确哪些风险不能接受、哪些可以受控承担、事故发生后多快恢复,以及谁对每个控制负责。

39.1 先定义风险偏好、容忍度和红线#

概念回答的问题示例
风险偏好为增长愿意承担多大不确定性?新市场可用小预算实验,但不允许绕过政策
风险容忍度偏离到什么程度必须升级处理?消耗、转化中断、页面故障、付款失败分别定义阈值
红线哪些情况无论收益多高都不能接受?虚假资料、共享密码、cloaking、未授权素材、敏感数据泄露
例外审批谁可以在什么条件下临时放宽控制?记录原因、范围、期限、补偿控制和复核日期

39.2 固有风险、控制有效性和剩余风险#

风险评分不是为了制造精确幻觉,而是帮助团队排序。先评估没有控制时的固有风险,再评估现有控制是否真正运行,最后判断剩余风险是否可接受。

字段问题常见证据
固有风险如果什么都不做,概率和影响多大?行业、预算、权限、数据敏感度、历史事故
控制设计控制理论上能否降低风险?SOP、审批矩阵、告警规则、回滚方案
控制运行控制是否真的执行并留下证据?日志、截图、工单、抽查、演练记录
剩余风险控制后仍有什么风险?是否接受?风险 owner 签字、补偿控制、升级决定

39.3 用蝴蝶结模型连接原因、事故和后果#

风控不能只列风险名称。对每个重大场景画出:威胁 → 关键事件 → 后果。事件左侧放预防控制,右侧放侦测、止损、恢复和证据控制。

场景左侧威胁关键事件右侧后果关键控制
异常消耗误操作、脚本失控、权限泄露预算或投放范围非预期扩大超支、客户投诉、利润损失审批、白名单、告警、下线开关、对账
转化数据中断网站发布、标签变更、导入失败模型收到错误或缺失反馈误判效果、出价漂移、报表失真版本管理、对账、失败队列、回滚、Data Exclusion 评估
账户被盗密码泄露、恢复信息失效、恶意授权未知人员获得账户控制违规广告、异常花费、数据泄露两步验证、最小权限、登录治理、止损和取证
政策暂停业务违规、页面变更、重复拒登、关联账户风险账户停止投放收入中断、客户关系受损准入、上线 QA、证据台账、修复和准确申诉

39.4 控制矩阵:每个控制都要有 owner 和证据#

=== 控制矩阵最小字段 ===
风险场景:[ ]
保护资产:[ ]
控制名称:[ ]
控制类型:[预防 / 侦测 / 纠正 / 证据]
执行频率:[实时 / 每日 / 每周 / 每次变更 / 每季度]
执行人 Responsible:[ ]
最终负责 Accountable:[ ]
协作 Consulted:[ ]
知会 Informed:[ ]
证据位置:[ ]
失败后的补偿控制:[ ]
最后测试日期:[ ]
下一次演练日期:[ ]

只有写在文档里但没有 owner、频率、证据和测试日期的控制,不应被视为有效控制。

39.5 恢复目标:明确 RTO、RPO 和降级方案#

概念定义广告业务中的用法
RTO事故后允许多长时间恢复关键能力页面故障、转化跟踪中断、异常权限、报告中断分别设恢复目标
RPO最多允许丢失多长时间的数据或配置决定标签版本、配置导出、CRM 上传队列和日志保留频率
降级方案无法立即完全恢复时,如何限制损失继续运行暂停高风险 Campaign、保留品牌保护、关闭自动化、切回稳定页面
恢复验收什么证据证明可以逐步放量页面、标签、权限、预算、政策状态和对账结果均通过检查

39.6 告警体系要减少漏报,也要控制误报#

告警过少会错过事故,告警过多会导致团队麻木。每条告警必须定义基线、阈值、持续时间、静默条件、owner、升级路径和关闭标准。

告警不要只看至少结合
异常消耗单日超过平均预算预算规则、同星期基线、促销、预算变更、served 与 billed cost
转化归零Google Ads 单一列GA4、CRM、订单后台、失败队列、页面监控
页面不可用首页状态码落地页清单、移动端、目标地区、结账或表单关键路径
权限异常人员名单MCC 关联、管理员、第三方工具、API 凭证、离职台账

39.7 第三方依赖必须纳入风险登记册#

依赖常见故障最低治理
网站、CDN、DNS、支付页面不可用、地区失败、结账中断owner、监控、升级联系人、备用方案、演练
GTM、GA4、CRM、离线导入标签错误、重复、延迟、失败队列堆积版本、对账、回滚、重放流程、访问控制
Feed、Merchant Center、库存系统价格库存错误、商品拒登、缺货仍投放同步频率、抽样、异常阈值、暂停流程
脚本、API、连接器、SaaS批量误改、权限过大、供应商中断白名单、日志、下线开关、替代路径、合同责任
客户团队与代理团队离职、无人审批、知识只在个人手中双人覆盖、交接、权限回收、运行手册

39.8 演练不是走流程,要验证控制真的有效#

演练场景注入条件验收问题
转化中断测试环境模拟标签或导入失败多久发现?谁响应?能否回滚?是否知道影响点击日期?
异常消耗模拟脚本计划扩大预算Preview、审批、阈值和下线开关是否阻止执行?
员工离职选择一个测试身份执行回收MCC、Ads、GA4、GTM、工具和凭证是否全部覆盖?
页面故障测试环境模拟关键路径不可用监控是否覆盖真实落地页?降级页和客户沟通是否可用?
账户接管桌面推演未知管理员和违规 Campaign能否止损、取证、联系支持并完成恢复验收?

39.9 风险仪表盘:管理趋势而不是堆工单#

管理层每月复盘
  • 高剩余风险数量、逾期整改、未测试控制和即将到期资质
  • 事件数量、严重等级、发现时间、止损时间、恢复时间和重复发生率
  • 预算告警、数据中断、页面故障、政策拒登、权限异常和第三方故障趋势
  • 哪些控制只存在于文档,哪些已有运行证据,哪些需要补偿控制
  • 本季度演练完成率、失败项、owner 和整改截止日期

本章要点

  • 风控先明确风险偏好、容忍度、红线和例外审批
  • 控制必须有 owner、频率、证据和测试日期,否则不能算有效
  • RTO、RPO、降级方案和恢复验收让事故处理从经验变成系统
  • 依赖治理、告警质量和定期演练决定代理商是否真的具备恢复能力