风控体系:策略与模型

策略思维:从规则到模型的认知升级

什么是风控策略

风控策略是连接风险识别与处置决策之间的桥梁。在一个完整的风控链路中,数据采集负责感知环境,特征工程负责提炼信息,而策略则负责将这些信息转化为具体的决策动作——放行、拦截、挑战验证或人工审核。

从系统论的角度理解,风控策略本质上是一个决策函数:

f(用户画像, 行为特征, 环境信息, 历史数据) → 决策动作

这个函数的输入是多维度的风险信号,输出是离散的决策结果。策略设计的核心命题在于:如何构建这个函数,使其在准确率与召回率之间取得最优平衡,同时满足业务的实时性要求和可解释性需求。

风控策略并非孤立存在,它嵌入在一个更大的风控体系之中。向上,它依赖数据层和特征层提供的信息;向下,它驱动处置层执行具体动作。策略本身也不是一成不变的,它需要根据风险态势的变化、黑产手段的演进、业务目标的调整而持续迭代。这种"感知-决策-反馈-迭代"的闭环,是风控策略区别于一般业务逻辑的根本特征。

规则策略的优势与天花板

规则策略是风控领域最早、最直观的策略形式。其核心逻辑是通过人工定义的条件表达式来识别风险。例如:"单日转账金额超过 50 万元,触发人工审核";"同一设备 1 小时内注册超过 3 个账户,直接拦截"。

规则策略具有显著的优势:

优势 具体表现
高可解释性 每条规则对应明确的业务逻辑,审计和合规友好
快速上线 发现新的欺诈模式后,规则可以在分钟级别完成部署
确定性强 输入确定时输出确定,便于调试和回溯
业务可控 业务人员可直接参与规则设计,降低沟通成本

然而,规则策略存在明确的天花板:

维度爆炸问题。 当风险信号的维度增加时,人工编写规则的复杂度呈指数增长。假设有 10 个风险特征,每个特征有 3 个阈值区间,理论上的组合空间是 3^10 = 59049 种。人工不可能穷举所有有意义的组合,只能凭经验挑选少量规则,必然存在大量覆盖盲区。

泛化能力不足。 规则是对已知模式的精确描述,对未见过的欺诈变种天然缺乏识别能力。黑产只需微调行为模式(例如将单笔大额拆分为多笔小额),就能轻松绕过基于固定阈值的规则。

维护成本递增。 随着业务发展和黑产演进,规则数量不断膨胀。当规则数量达到数百甚至数千条时,规则之间的冲突检测、优先级管理、失效清理都成为沉重的负担。很多团队最终陷入"不敢删旧规则、不断加新规则"的困境。

阈值脆弱性。 规则中的阈值通常基于历史数据的统计分析确定,但风险分布是动态变化的。一个在当前数据下表现良好的阈值,可能在业务增长、用户结构变化后失去区分能力。持续的阈值调优消耗大量分析师人力。

模型策略的价值

模型策略通过机器学习算法从数据中自动学习风险模式,弥补了规则策略在高维空间中的覆盖不足。

模型策略的核心价值体现在几个层面:

自动学习复杂模式。 机器学习模型能够捕捉特征之间的非线性关系和高阶交互效应。一个 GBDT 模型可以在数百个特征构成的空间中,自动发现"深夜 + 新设备 + 小额试探 + 高频操作"这样的复合风险模式,而无需人工逐一定义。

处理高维数据。 现代风控场景中,可用的风险信号维度极为丰富——设备信息、地理位置、行为序列、社交关系、历史交易等。模型能够有效处理数百甚至数千维特征,从中提取有效信息。

连续化风险量化。 规则策略的输出通常是二值的(通过/拦截),而模型输出连续的风险评分。这使得下游决策更加灵活:可以根据分数的高低执行不同强度的处置措施,实现风险处置的精细化。

更强的泛化能力。 训练良好的模型对未见过的样本具有一定的泛化能力。即使黑产调整了具体的行为参数,只要底层的风险模式没有根本改变,模型仍然能够识别出异常。

但模型策略同样存在局限:

局限 影响
可解释性不足 深度学习模型难以给出拒绝理由,合规审计面临挑战
冷启动困难 新业务场景缺乏标注数据,模型无法训练
迭代周期较长 从数据准备到模型上线通常需要数周时间
对数据质量敏感 标签噪声、样本偏差都会严重影响模型表现

规则 + 模型的混合策略体系

在实际的风控系统中,规则策略和模型策略并非互斥关系,而是互补关系。成熟的风控体系通常采用混合策略架构:

规则负责"确定性防御"。 对于已经被明确识别的、高置信度的风险模式,使用规则进行硬拦截。例如:命中黑名单的账户直接拦截;使用已知欺诈设备指纹的请求直接拒绝。这类场景不需要模型参与,规则的确定性和低延迟反而是优势。

模型负责"概率性识别"。 对于无法用简单条件描述的、存在灰度地带的风险,使用模型进行评分。例如:一笔交易的综合风险评分为 0.78,高于阈值 0.7,触发二次验证。模型在这类场景中的优势是能够综合考量大量特征的联合分布。

规则为模型兜底。 模型存在盲区——当输入特征分布发生剧烈变化(如遭遇新型攻击手段)时,模型的预测可能失准。此时,基于业务常识设计的兜底规则可以提供最后一道防线。

模型指导规则优化。 模型的特征重要性分析可以揭示哪些风险维度最具区分能力,反过来指导规则设计。例如,当模型分析发现"注册后首次交易的时间间隔"是一个强特征时,可以据此设计针对性的规则。

这种混合体系的核心思想是:用规则保证安全底线,用模型提升识别上限。二者的协同配合,远比单独使用任何一种方式更为有效。


策略类型与设计范式

规则型策略的细分类型

规则型策略按照条件结构的复杂度,可以细分为以下几类:

阈值型策略。 最简单的规则形式,对单一特征设定上限或下限。例如:单笔交易金额 > 100000 元,触发审核。阈值型策略的优势在于直观、高效,但其覆盖能力有限,且阈值的选取高度依赖经验。

组合条件型策略。 对多个特征进行逻辑组合,形成更精确的规则。例如:(新注册用户 AND 首笔交易 AND 金额 > 5000 元 AND 收款方为新账户),触发拦截。组合条件通过特征交叉提升了规则的精度,但也增加了维护复杂度。

时间窗口型策略。 引入时间维度,计算指定时间窗口内的统计量。例如:过去 1 小时内,同一 IP 地址发起的注册请求超过 10 次,触发拦截。时间窗口型策略对于识别频率异常类风险非常有效,常见的窗口粒度包括 1 分钟、5 分钟、1 小时、24 小时、7 天等。

频次型策略。 时间窗口型策略的特例,专注于行为频次的统计。例如:同一银行卡 24 小时内交易次数超过 20 次;同一手机号 7 天内绑定银行卡数超过 3 张。频次型策略在反洗钱和反薅羊毛场景中广泛使用。

速率变化型策略。 关注特征的变化速率而非绝对值。例如:用户的交易金额在过去 7 天内增长幅度超过 500%;登录地点在 2 小时内跨越 2000 公里(物理上不可能的位移)。这类策略能够捕捉行为突变,对账户盗用等场景有较好的识别能力。

模型型策略的主要范式

模型型策略按照模型复杂度和可解释性的递进关系,主要包括以下几种范式:

评分卡模型。 评分卡是金融风控领域最经典的模型形式,其本质是逻辑回归模型的线性化表示。将每个特征的取值映射为分数,各维度分数相加得到总分。评分卡的最大优势在于极高的可解释性——每一分的来源都可以追溯到具体的特征维度。在信贷审批、反欺诈等对合规要求严格的场景中,评分卡仍然是主力模型。

梯度提升树模型(GBDT/XGBoost/LightGBM)。 集成学习模型通过组合大量弱学习器(决策树)实现强预测能力。相比逻辑回归,梯度提升树能够自动捕捉特征间的非线性关系和交互效应,在大多数结构化数据的风控场景中表现优异。其可解释性介于评分卡和深度学习之间——虽然单棵树可以理解,但数百棵树的组合效果难以直观解释。

深度学习模型。 在处理序列数据(用户行为序列、交易时间序列)和非结构化数据(文本、图像)方面具有独特优势。例如,使用 LSTM 或 Transformer 对用户的操作序列进行建模,可以捕捉传统特征工程难以表达的时序模式。深度学习在风控中的应用场景包括:行为序列异常检测、验证码图像识别、文本语义分析等。其主要限制在于可解释性差、训练成本高、对数据量要求大。

无监督/半监督模型。 在标签稀缺或缺失的场景下,无监督方法(如 Isolation Forest、Autoencoder)可以通过检测离群点来发现异常行为。半监督方法则利用少量标注数据和大量未标注数据进行联合训练。这类方法在新业务冷启动阶段和新型欺诈模式发现方面具有重要价值。

名单型策略

名单型策略是风控体系中最基础也最直接的策略形式,通过维护特定实体的列表来进行快速判定。

黑名单。 记录已确认的高风险实体(用户 ID、手机号、设备指纹、IP 地址、银行卡号等)。命中黑名单的请求通常直接拦截或强制拒绝,无需经过后续的规则和模型判定。黑名单的核心问题在于时效性管理——长期不更新的黑名单会误伤已经解除风险的正常用户,而更新不及时的黑名单则无法覆盖新增的风险实体。

白名单。 记录已确认的低风险实体。命中白名单的请求可以跳过部分或全部风控检查,享受更快的处理速度。白名单常用于优质客户的绿色通道、内部测试账号的豁免等场景。白名单的管理风险在于:一旦白名单中的实体被攻击者利用(如账户被盗),可能造成严重损失。

灰名单。 介于黑白之间的观察名单。灰名单中的实体被标记为"可疑但未确认",对其施加加强监控或限制部分功能。灰名单是一种缓冲机制,避免了"非黑即白"的二值判定带来的误伤或漏放。

名单管理需要关注以下核心问题:

管理维度 具体内容
入库标准 什么条件下实体被加入名单,需要明确的判定标准
生命周期 名单条目是否有过期时间,过期后如何处理
关联扩展 一个实体命中黑名单后,其关联实体(如同设备、同 IP)是否自动加入灰名单
申诉机制 被误加入黑名单的正常用户如何申诉解除
跨维度关联 不同维度的名单(手机号、设备、IP)之间如何联动

策略的组合与编排

单一策略的覆盖能力和判定精度都是有限的,实际风控系统需要将多条策略进行组合编排,形成完整的决策链路。常见的组合模式包括:

串行模式(Pipeline)。 策略按照预定义的顺序依次执行。前一个策略的输出作为后一个策略的输入或前置条件。例如:先检查黑名单 → 再执行规则策略 → 最后执行模型评分。串行模式的优势在于逻辑清晰、可控性强;劣势在于整体延迟是各策略延迟之和。

并行模式(Parallel)。 多条策略同时执行,最终综合所有策略的结果做出决策。例如:规则策略和模型策略同时运行,任意一个输出"拦截"则最终拦截。并行模式的优势在于低延迟(取决于最慢的策略),但需要设计合理的结果融合逻辑。

投票模式(Voting)。 多个策略各自独立判定,按照"多数投票"或"加权投票"的方式做出最终决策。例如:3 个模型中有 2 个判定为高风险,则最终判定为高风险。投票模式能够降低单一策略的误判率,但要求参与投票的策略之间具有一定的差异性和互补性。

层叠模式(Cascade)。 策略按照粗粒度到细粒度的顺序逐层过滤。第一层使用计算成本低的简单规则快速过滤掉明显正常或明显异常的请求;第二层使用更精细的策略处理中间灰度地带的请求。这种模式在高流量场景下能够显著降低计算开销。

策略的优先级与冲突处理

当多条策略同时生效时,不可避免地会出现冲突——一条规则判定放行,另一条规则判定拦截。策略冲突处理需要遵循以下原则:

安全优先原则。 在大多数场景下,当放行策略和拦截策略发生冲突时,应以拦截(安全)为优先。宁可误拦也不漏放,特别是在涉及资金安全的场景中。

策略优先级体系。 为每条策略设定明确的优先级。高优先级策略的判定结果覆盖低优先级策略的判定结果。通常,黑名单策略 > 硬规则策略 > 模型策略 > 白名单策略。

场景化优先级。 不同业务场景的策略优先级可能不同。例如,在支付场景下安全优先,允许更高的误拦率;在注册场景下体验优先,需要控制误拦对用户转化的影响。优先级体系需要与业务目标对齐。

冲突日志与审计。 所有策略冲突的实例都需要记录日志,定期回顾分析冲突原因。如果某两条策略频繁冲突,通常意味着策略设计存在冗余或逻辑矛盾,需要优化调整。


多层防御策略设计

风控系统的策略并非平铺在一个平面上,而是按照防御维度分层组织,形成纵深防御体系。每一层聚焦于特定类型的风险信号,层与层之间既独立运作又协同联动。

账户层策略

账户层策略关注的是"谁在操作"这个核心问题,覆盖用户生命周期中的关键节点。

注册风险识别。 注册环节是黑产的第一道攻击面。批量注册(养号)是后续欺诈行为的前置条件。注册风控需要关注的信号维度包括:

  • 注册速率异常: 同一设备、同一 IP 在短时间内的注册频次。正常用户几乎不会在同一设备上注册多个账户。
  • 信息填充模式: 批量注册的表单填写行为与正常用户显著不同——填写速度过快、字段内容模式化(如手机号段连续)、缺乏犹豫和修改行为。
  • 注册信息质量: 使用虚拟号段、一次性邮箱、随机生成的用户名等低质量注册信息,是批量注册的典型特征。
  • 设备环境异常: 使用模拟器、多开工具、改机软件进行注册,设备属性呈现异常特征。

登录异常检测。 登录环节面临的主要威胁包括撞库攻击、暴力破解和会话劫持。关键的检测维度包括:

  • 登录地点跳变: 用户在短时间内从两个地理距离遥远的位置登录,物理上不可能实现。需要注意的是,这一检测需要排除 VPN 和代理的影响,避免对正常使用 VPN 的用户产生误判。
  • 设备变更: 账户突然从从未使用过的新设备登录,且伴随敏感操作(如修改密码、绑定新手机号)。
  • 密码尝试模式: 短时间内大量失败的密码尝试,可能是暴力破解。需要区分"忘记密码的正常用户"和"自动化攻击工具"——后者的尝试间隔极为规律,且通常针对多个账户。
  • 异常时段登录: 用户的登录时间严重偏离其历史行为模式。虽然单独来看不足以判定风险,但作为辅助特征可以增强其他维度的判定置信度。

身份核验策略。 在高风险操作(如大额转账、密码重置)之前,通过多因素认证确认操作者身份。常见的核验手段包括短信验证码、人脸识别、安全问题等。核验策略的设计需要平衡安全性和用户体验——过于频繁的核验会导致用户流失,过于宽松的核验则形同虚设。

交易层策略

交易层策略聚焦于"这笔交易是否正常",是风控体系中直接与资金安全相关的核心防线。

金额异常检测。 交易金额的异常表现有多种形式:

  • 绝对金额异常: 单笔交易金额超过业务设定的上限,或者远超用户的历史交易水平。例如,一个月均交易额 2000 元的用户突然发起一笔 50000 元的交易。
  • 金额模式异常: 交易金额呈现非自然模式,如精确的整数(10000、20000)、连续相同金额(多笔 9999 元)、金额递减序列(测试性交易)。
  • 累计金额异常: 单笔金额不大,但在短时间窗口内累计金额异常。例如,1 小时内分 20 笔向同一收款方转账,每笔 4999 元(刚好低于单笔 5000 元的阈值),累计近 10 万元。这种"化大为小"的分拆行为是逃避规则检测的常见手段。

频次异常检测。 交易频次反映了用户的活跃模式,异常的频次通常意味着自动化工具介入或欺诈行为:

  • 短时高频: 同一用户在极短时间内发起大量交易,超出正常人类操作速度。
  • 规律性交易: 交易间隔极为规律(如精确的 30 秒一笔),暗示程序化操作。
  • 集中爆发: 长期沉默的账户突然在短时间内密集交易后再次沉默,典型的"被盗用"模式。

地域跳变检测。 用户的交易发起地点在短时间内发生不合理的跳变。例如,用户 10 分钟前在北京完成一笔交易,10 分钟后又在广州发起交易。考虑到两地距离和交通工具,这种跳变在物理上不可能实现。地域跳变检测需要建立用户的"地域活动基线",区分正常的出差/旅行和异常的地域切换。

设备异常检测。 交易发起设备的异常是高风险信号:

  • 设备首次出现: 从从未使用过的设备发起高风险交易。
  • 设备属性篡改: 设备指纹的关键属性(如 IMEI、MAC 地址)在短时间内发生变化,可能使用了改机工具。
  • 设备关联异常: 同一设备在短时间内被多个不同用户使用,或同一用户在短时间内频繁切换设备。

行为层策略

行为层策略深入到用户的操作行为序列中,分析其行为模式是否符合正常用户的特征。行为分析是近年来风控领域的重点发展方向,因为相比静态的属性特征,行为特征更难伪造。

用户行为序列分析。 正常用户的操作行为通常具有明确的目的性和自然的序列逻辑。例如,一个正常的购物行为序列可能是:搜索商品 → 浏览详情 → 查看评价 → 加入购物车 → 选择地址 → 确认支付。而欺诈行为的序列往往呈现不同的特征——跳过浏览环节直接下单、操作序列高度模板化、缺乏正常用户的探索和犹豫行为。

行为序列分析的关键维度包括:

维度 正常行为特征 异常行为特征
序列完整性 包含浏览、比较等探索行为 直接跳转到目标操作,缺乏前置行为
序列多样性 不同用户的行为序列存在差异 大量用户的行为序列高度雷同
操作间隔 间隔不规律,有自然停顿 间隔极为规律,呈现机器化特征
行为丰富度 包含页面滚动、缩放、长按等丰富的交互行为 仅包含核心操作,缺乏辅助交互

页面停留模式。 用户在不同页面的停留时间可以反映其真实意图。正常用户在商品详情页可能停留数十秒甚至数分钟,仔细阅读描述和评价;而自动化脚本或有目的性的欺诈行为则会在关键页面的停留时间极短。需要注意的是,页面停留时间分析需要建立分场景的基线,因为不同类型的页面(首页、列表页、详情页、支付页)的正常停留时间分布差异很大。

操作轨迹异常。 移动端可以采集用户的触摸轨迹和传感器数据,用于分析操作行为是否来自真实的人类用户:

  • 触摸轨迹分析: 真实用户的触摸轨迹具有曲线性、速度变化和自然抖动;模拟器或自动化工具的"触摸"轨迹通常是精确的直线,速度恒定。
  • 陀螺仪/加速度计数据: 真实的手机操作会产生微小的设备倾斜和震动数据;固定在桌面上的设备或模拟器则缺乏这些信号。
  • 键盘输入模式: 不同用户的打字速度、按键间隔具有个体差异性(生物特征),可用于辅助身份确认。

环境层策略

环境层策略关注的是用户操作所处的技术环境,从设备、网络、软件等维度识别风险。

设备指纹。 设备指纹是通过采集设备的硬件参数、软件配置、浏览器特征等信息,生成设备的唯一标识。一个健壮的设备指纹方案需要具备以下特性:

  • 唯一性: 不同设备生成不同的指纹,能够区分不同设备。
  • 稳定性: 同一设备在合理的时间范围内指纹保持稳定,不因应用升级、系统更新等正常变化而改变。
  • 抗篡改性: 对改机工具、Hook 框架等篡改手段具有一定的抵抗能力。

设备指纹在风控中的应用极为广泛:关联分析(发现使用同一设备的多个账户)、环境检测(识别模拟器、Root/越狱设备)、设备信誉评估(基于设备历史行为构建设备层面的风险评分)。

IP 风险评估。 IP 地址虽然容易被代理和 VPN 隐藏,但仍然是重要的风险维度:

  • IP 信誉库: 维护已知的高风险 IP 列表,包括数据中心 IP(非正常用户使用)、已知代理/VPN 出口 IP、历史欺诈关联 IP 等。
  • IP 聚集度分析: 大量不同用户从同一 IP 或同一 IP 段发起请求,可能存在集中化的攻击行为。
  • IP 地理位置比对: 将 IP 地理位置与用户声称的位置、手机基站定位进行比对,检测不一致。

代理检测。 使用代理服务器、VPN 或 Tor 网络是黑产隐藏真实身份的常见手段。代理检测的方法包括:

  • 已知代理 IP 库匹配: 维护并持续更新已知代理服务的 IP 列表。
  • 网络协议分析: 检测 HTTP 头部中的代理相关字段(如 X-Forwarded-For、Via),分析 TCP/IP 协议层的异常特征(如 TTL 值不一致)。
  • WebRTC 泄露检测: 在浏览器环境中,WebRTC 可能泄露用户的真实 IP 地址,将其与请求 IP 比对可以发现代理使用。

模拟器识别。 模拟器是黑产批量操作的重要工具。模拟器的识别维度包括:

  • 硬件特征异常: 模拟器的硬件参数(如传感器数量、CPU 型号、电池信息)与真实设备存在差异。
  • 软件环境特征: 模拟器中某些系统属性的值与真实设备不同(如 Build.FINGERPRINT、ro.hardware)。
  • 行为特征: 模拟器缺乏真实的传感器数据(陀螺仪、加速度计输出为零或恒定值),蓝牙、Wi-Fi 等模块缺失或行为异常。

四层联动防御的整体思路

四层防御(账户层、交易层、行为层、环境层)并非独立运作,而是通过数据共享和策略联动形成完整的防御纵深。

纵向联动:同一请求经过多层检测。 一笔交易请求会依次(或并行)经过环境层、账户层、行为层和交易层的检测。每一层输出自己的风险信号和判定结果,最终由决策中心综合所有层的输出做出最终决策。

横向关联:跨层信息增强。 不同层的风险信号可以相互增强。例如:环境层检测到用户使用了代理 IP(单独来看不足以判定风险),同时交易层检测到金额异常(单独来看也不足以判定风险),两个信号的叠加显著提升了综合风险判定的置信度。

动态权重调整。 不同业务场景下,各层的权重应有所不同。例如,在网贷申请场景中,账户层(身份核验)和交易层(额度评估)的权重较高;在电商促销场景中,行为层(薅羊毛行为识别)和环境层(批量工具检测)的权重较高。

信息流转方向。 四层之间的信息不仅自下而上(从环境层向交易层汇聚),也应该自上而下反馈。当交易层确认一笔交易为欺诈时,应将相关的设备指纹、IP 地址等环境信息反馈到环境层,更新其风险评估基线。


评分体系设计

为什么需要评分体系

传统的规则策略输出二值判定——要么放行,要么拦截。这种"非黑即白"的决策方式在实际业务中存在明显局限。

考虑以下场景:用户 A 的一笔交易触发了"金额超过历史均值 3 倍"的规则,金额从日均 500 元上升到 1500 元。用户 B 的一笔交易同样触发了这条规则,金额从日均 200 元上升到 80000 元。如果规则输出统一的"拦截"动作,显然对用户 A 不够合理——金额上升幅度温和,可能只是偶尔的大额消费。而用户 B 的情况更可能是账户被盗或欺诈交易。

评分体系解决的核心问题是:将离散的二值判定转化为连续的风险量化。通过输出一个 0-1000(或 0-100)区间的风险分数,下游决策可以根据分数的高低执行不同强度的处置措施:

分数区间 风险等级 处置动作
0 - 300 低风险 直接放行
300 - 500 中低风险 放行,异步监控
500 - 700 中高风险 触发二次验证(短信/人脸)
700 - 900 高风险 人工审核
900 - 1000 极高风险 直接拦截

这种连续化的风险量化带来了几个关键优势:

精细化处置。 不同风险等级的请求匹配不同强度的处置措施,避免"一刀切"带来的误伤(过度拦截正常用户)或漏放(放过高风险请求)。

灵活的阈值管理。 通过调整阈值切分点,可以在不修改模型的前提下调整策略松紧度。在大促期间可以适当放宽阈值减少误拦,在高风险时期可以收紧阈值加强防御。

可比较性。 不同时间、不同用户、不同交易的风险分数可以横向比较,支撑更丰富的后续分析(如风险分布分析、人群画像分析等)。

评分卡的设计方法论

评分卡是风控领域最经典的评分模型,其设计流程已经形成成熟的方法论体系。

第一步:变量选择与预筛选。 从候选特征集中筛选出具有区分能力的变量。筛选标准包括:

  • 缺失率不超过一定阈值(通常 70%),缺失过多的变量信息量有限。
  • 单一值占比不超过一定阈值(通常 95%),取值过于集中的变量区分能力弱。
  • 与目标变量存在统计显著的相关性(通过卡方检验或 IV 值评估)。
  • 具有明确的业务含义和合理的因果逻辑,避免纳入"数据噪声"变量。

第二步:变量分箱(Binning)。 将连续变量离散化为若干区间(箱),将类别变量合并为若干组。分箱的目的有两个:一是处理非线性关系(同一变量的不同取值范围可能具有不同的风险含义),二是提高模型的稳定性和鲁棒性。

分箱方法主要包括:

  • 等频分箱: 每个箱中的样本量大致相等。
  • 等距分箱: 每个箱的宽度(取值范围)相等。
  • 最优分箱(基于决策树/卡方合并): 通过优化算法寻找使得目标变量区分度最大的分箱方案。
  • 业务经验分箱: 根据业务知识人工设定分箱边界,如年龄分为"18-25、25-35、35-50、50 以上"。

第三步:WOE(Weight of Evidence)编码。 对每个箱计算 WOE 值,将原始特征转化为风险度量。WOE 的计算公式为:

WOE_i = ln(好样本占比_i / 坏样本占比_i)

其中,好样本占比_i 表示第 i 个箱中好样本(非欺诈)占全部好样本的比例,坏样本占比_i 类似。WOE 为正值表示该箱中好样本的比例高于坏样本(低风险),WOE 为负值则表示该箱中坏样本比例较高(高风险)。

WOE 编码的核心价值在于:将不同量纲、不同分布的原始特征统一转化为具有风险语义的度量值,且 WOE 编码后的变量与目标变量之间呈线性关系,天然适合逻辑回归建模。

第四步:逻辑回归建模。 使用 WOE 编码后的变量作为输入,训练逻辑回归模型。逻辑回归的输出是一个概率值 p,表示样本为坏样本(欺诈)的概率。模型系数的大小和方向具有直观的业务解释——系数为正表示该变量的 WOE 值增大时,坏样本的概率增大。

第五步:概率到分数的映射。 将逻辑回归输出的概率值映射到评分区间。常用的映射公式基于 odds(几率)的对数变换:

Score = A - B × ln(odds)

其中 odds = p / (1-p),A 和 B 是常数,通过设定"基准分"和"翻倍分"来确定。例如,设定基准分 600 分对应 odds = 1:50,翻倍分 20(即 odds 翻倍时分数减少 20 分)。

多维度评分体系

成熟的风控系统通常不是只有一个综合评分,而是建立多维度的评分体系,每个维度聚焦于特定的风险视角。

用户信用评分。 反映用户的整体信用水平和历史行为质量。输入特征包括注册时长、实名认证状态、历史交易行为、投诉率、违规记录等。用户信用评分通常是一个慢变量——更新频率较低(如每日或每周更新一次),反映的是用户的长期信用趋势。

交易风险评分。 针对每一笔具体交易实时计算的风险分数。输入特征包括交易金额、收款方信息、交易时间、支付方式、设备信息等。交易风险评分是一个快变量——每笔交易实时计算,反映的是当前这笔交易的即时风险水平。

商户评分。 针对平台上的商户(卖家)计算的风险分数。输入特征包括商户的经营时长、交易量、退款率、投诉率、关联关系等。商户评分用于识别高风险商户(如虚假交易、套现、洗钱),并据此调整对其交易的风控策略松紧度。

设备评分。 基于设备指纹构建的设备层面的风险分数。输入特征包括设备类型、是否 Root/越狱、是否安装风险应用、设备被多少用户使用过、设备关联的历史风险事件等。设备评分可以在用户身份未确定之前就提供初步的风险判断。

评分的融合策略

当存在多个维度的评分时,需要设计合理的融合策略将多个分数综合为最终的决策依据。

加权平均。 最简单的融合方式,为每个维度的评分分配权重,加权求和得到综合分数。权重的确定可以基于各维度模型的历史表现(如 AUC 值),也可以通过优化算法(如训练一个融合模型)来学习最优权重。加权平均的优势在于简单透明,劣势在于假设各维度评分之间是线性可加的,可能忽略维度间的交互效应。

级联判定。 按照从严到松的顺序依次检查各维度的评分。如果任何一个维度的评分超过其对应的高风险阈值,直接判定为高风险,无需检查后续维度。级联判定的逻辑类似于"短路求值"——在任何一个维度上表现出极高风险的请求会被快速拦截。

分层决策。 根据业务场景动态选择参考的评分维度和权重。例如,对于首次交易的新用户,由于缺乏用户信用评分的基础,应加大设备评分和交易风险评分的权重;对于老用户的常规小额交易,用户信用评分的权重可以适当增大。

矩阵决策。 使用两个或多个维度的评分构建决策矩阵。例如,以用户信用评分和交易风险评分构成二维矩阵,在矩阵的不同区域设定不同的处置策略。矩阵决策能够更直观地表达"综合考虑多个因素"的决策逻辑。

评分阈值的动态调整策略

评分阈值的设定直接影响策略的拦截率和准确率。静态阈值在风险环境变化时可能失效,因此需要建立动态调整机制。

基于风险态势的调整。 当检测到风险事件激增(如短时间内多起欺诈投诉)时,自动收紧阈值(降低拦截门槛),加强防御。当风险态势平稳时,适当放宽阈值,减少对正常用户的干扰。这种调整可以基于预设的风险指标(如欺诈率、投诉率)自动触发。

基于业务周期的调整。 不同的业务周期对风控策略的松紧要求不同。大促期间,交易量激增,正常交易的行为模式也会发生变化(如大量用户在非常规时段集中购物),此时需要适当放宽某些阈值避免误伤。日常运营期间则恢复常规阈值。

基于人群分层的调整。 对不同风险等级的用户群体使用不同的阈值。高信用用户享受更宽松的阈值(减少摩擦),低信用或新用户使用更严格的阈值(加强防御)。这种差异化的阈值策略需要建立在可靠的用户分层体系之上。

A/B 测试驱动的优化。 将不同的阈值方案部署到不同的用户群组中,通过对比观察各方案的拦截率、准确率和业务指标(如交易成功率、用户流失率),确定最优的阈值设定。A/B 测试是阈值优化的科学方法,避免了凭直觉调整带来的不确定性。


特征工程:风控模型的核心竞争力

特征工程的重要性

在风控建模领域,有一个被广泛认同的观点:数据和特征决定了模型的上限,算法和调参只是在逼近这个上限。这意味着,在同等算法条件下,特征工程的质量差异往往决定了模型效果的差异。

这一论断背后的逻辑是清晰的。机器学习模型本质上是一个函数拟合器,它能够拟合的函数形式取决于输入特征所构成的空间。如果关键的风险信号没有被特征化地表达出来,再强大的模型也无法从中提取有效信息。例如,如果只提供用户的单次交易信息,不包含任何历史行为特征,模型就无法学习到"行为突变"这一重要的风险模式。

风控特征工程的难度在于:

  • 风险信号隐蔽。 欺诈行为通常会刻意模仿正常行为,风险信号隐藏在高维数据的细微模式中。
  • 特征时效性强。 随着黑产手段的演进,某些特征的区分能力会快速衰减。
  • 业务知识要求高。 有效的风控特征设计需要深入理解业务场景和欺诈手法,纯粹的数据驱动往往不够。
  • 工程实现复杂。 许多有价值的特征(如实时统计特征、图谱特征)的计算需要复杂的工程支撑。

风控特征的分类体系

风控特征按照其构造复杂度和语义层次,可以分为以下几个类别:

基础特征(原始特征)。 直接从原始数据中提取的特征,不需要额外的计算或聚合。例如:

  • 用户属性:年龄、性别、注册时长、实名状态、认证等级
  • 交易属性:金额、币种、支付方式、收款方类型
  • 设备属性:设备型号、操作系统版本、屏幕分辨率、是否 Root
  • 环境属性:IP 地址、地理位置、网络类型(Wi-Fi/4G/5G)、登录时段

基础特征的优势在于获取简单、实时性好,但区分能力通常较弱——欺诈者很容易在这些维度上模仿正常用户。

统计特征(聚合特征)。 通过对历史数据进行统计聚合得到的特征,是风控特征中最核心的一类。统计特征引入了时间维度和频次维度,能够捕捉用户的行为模式和变化趋势。

常见的统计特征设计模式:

统计类型 示例 风控含义
计数 过去 7 天交易次数 活跃度/频次异常
求和 过去 30 天累计交易金额 资金流转规模
均值 过去 90 天日均交易金额 行为基线
标准差 过去 30 天交易金额标准差 行为稳定性
最大/最小值 过去 7 天单笔最大交易金额 极端行为
去重计数 过去 7 天交易的不同收款方数量 交易分散度
比率 夜间交易占比 时段偏好
偏离度 本次交易金额 / 历史均值 行为突变

统计特征的设计需要关注两个关键参数:时间窗口聚合维度

时间窗口的选择影响特征的语义:短窗口(如 1 小时、1 天)捕捉突发异常,长窗口(如 30 天、90 天)反映长期趋势。实践中通常设计多个时间窗口的同一统计量(如"1 天内交易次数""7 天内交易次数""30 天内交易次数"),让模型自己学习不同窗口信号的权重。

聚合维度决定了"从谁的角度统计":按用户聚合、按设备聚合、按 IP 聚合、按收款方聚合。不同聚合维度揭示不同的风险视角——按用户聚合反映个体行为异常,按设备聚合反映设备级别的异常,按收款方聚合反映资金流向的异常。

时序特征。 在统计特征的基础上进一步提炼时间维度的信息,关注行为的时间模式和趋势变化:

  • 趋势特征: 某指标在连续多个时间窗口中的变化趋势。例如,过去 4 周中每周交易金额是否呈持续上升趋势。
  • 周期性特征: 用户行为的周期性模式。例如,将用户的交易时间分布编码为 24 维向量(每小时一个维度),检测当前交易时间是否偏离历史分布。
  • 间隔特征: 相邻事件之间的时间间隔。例如,距上次交易的间隔时长、距上次登录的间隔时长。异常短的间隔可能指示自动化攻击,异常长的间隔可能指示休眠账户被激活。
  • 序列模式特征: 对行为序列进行编码,提取序列级别的模式特征。例如,使用 n-gram 方法统计行为序列中高频出现的子序列,或使用 session 级别的统计(一次会话中的操作数量、操作类型分布等)。

关系特征(图谱特征)。 基于实体之间的关联关系构建的特征。在风控场景中,用户、设备、手机号、银行卡、IP 地址等实体通过交易行为形成复杂的关联网络。从这个网络中可以提取丰富的风险信号:

  • 度中心性: 一个实体(如手机号)关联了多少其他实体(如用户账户)。关联度过高的实体可能是中介工具。
  • 团伙特征: 一组用户通过共享设备、共享 IP、互相转账等行为形成密切关联,可能是团伙欺诈。
  • 社区发现: 使用图算法(如 Louvain 社区发现)识别关联网络中的社区结构,判断某用户所在社区的整体风险水平。
  • 传播特征: 某实体的风险标签是否通过关联链路"传播"到相邻实体。例如,一个已确认的欺诈账户使用过的设备,该设备上的其他账户也应被标记为高风险。

交叉特征。 两个或多个特征的组合,用于表达特征之间的交互效应:

  • 比率交叉: 当前交易金额 / 用户历史平均交易金额,表达"本次交易相对于用户习惯的偏离程度"。
  • 差异交叉: 用户声称的地理位置与 IP 定位的距离差,表达"声称位置与实际位置的一致性"。
  • 条件交叉: 新设备 × 大额交易、夜间时段 × 异地登录,这类二元特征的乘积能够捕捉特定条件组合下的风险。

交叉特征的设计空间巨大(n 个特征的两两交叉就有 n(n-1)/2 种组合),需要结合业务知识和特征重要性分析有针对性地设计,避免盲目交叉带来的维度灾难。

IV(Information Value)分析:系统化评估特征区分能力

IV(Information Value,信息价值)是评估特征对目标变量区分能力的核心指标。IV 基于 WOE 计算,其公式为:

IV = Σ (好样本占比_i - 坏样本占比_i) × WOE_i

IV 的取值范围是 [0, +∞),值越大表示特征的区分能力越强。行业经验中常用的 IV 判定标准:

IV 值区间 区分能力评价 建模建议
< 0.02 几乎无区分能力 通常不纳入模型
0.02 - 0.1 弱区分能力 酌情使用,需结合业务判断
0.1 - 0.3 中等区分能力 有价值,建议纳入模型
0.3 - 0.5 强区分能力 重要特征,优先纳入
> 0.5 极强区分能力 需警惕——可能存在信息泄露或过拟合

关于 IV > 0.5 的特别说明:在实际建模中,IV 值过高的特征需要谨慎对待。过高的 IV 可能意味着:

  • 信息泄露(Data Leakage): 特征中包含了目标变量的信息。例如,"是否被风控拦截"作为特征去预测"是否为欺诈",由于拦截本身就是基于欺诈判定的,所以两者存在因果关系而非相关关系。
  • 时间穿越: 使用了在决策时刻尚不可用的未来信息。例如,用"30 天内是否被投诉"来预测交易时刻的风险,但投诉发生在交易之后。
  • 样本量不足导致的统计偏差: 在小样本下,某些特征可能偶然呈现出极高的区分度,但实际上缺乏统计稳健性。

WOE(Weight of Evidence)编码的深入理解

WOE 编码不仅是评分卡建模的技术手段,更蕴含着重要的风控语义。

从概率论的角度,WOE 可以理解为"证据权重"——一个特征取某个值时,这个值提供了多少"证据"来支持"该样本是好样本"的判断。WOE 为正值意味着"该值倾向于好样本",WOE 为负值意味着"该值倾向于坏样本"。

WOE 编码有几个重要的性质:

单调性约束。 在评分卡建模中,通常要求 WOE 在分箱序列上呈现单调趋势(单调递增或单调递减)。例如,对于"账户注册时长"这个变量,合理的预期是注册时长越长,WOE 越高(越安全)。如果分箱后 WOE 呈现非单调的波动,可能意味着分箱不合理或变量存在复杂的非线性关系,需要重新审视。

缺失值处理。 WOE 编码天然支持缺失值处理——将缺失值单独作为一个箱,计算其 WOE 值。如果缺失值的 WOE 显著不同于非缺失值的各箱,说明"信息缺失"本身就是一个有意义的风险信号。例如,在信贷申请中,收入信息缺失的申请人可能有更高的违约率,"收入缺失"这个状态本身就携带了风险信息。

异常值鲁棒性。 通过分箱和 WOE 编码,原始特征中的异常值被自然地归入某个箱中,不会对模型造成过大的影响。这比直接使用原始值进行建模更加鲁棒。

VOI(Value of Information)分析

VOI(Value of Information)分析是评估额外信息获取成本与收益的框架。在风控特征工程中,并非所有理论上有价值的特征都值得获取——获取特征需要付出成本(数据采购成本、计算成本、延迟成本、隐私合规成本),只有当特征带来的模型提升足够弥补获取成本时,才值得纳入。

VOI 分析的基本框架:

信息增益评估。 定量评估一个新特征加入后,模型预测能力的提升幅度。常用的度量包括:

  • 增量 AUC:新特征加入后 AUC 的提升值。
  • 增量 KS:新特征加入后 KS 统计量的提升值。
  • 条件互信息:新特征在已有特征集条件下,与目标变量的互信息。

成本评估。 量化获取该特征的各项成本:

  • 数据采购成本:外部数据源(如征信报告、第三方风控数据)的查询费用。
  • 计算成本:实时计算复杂特征的算力消耗。
  • 延迟成本:获取特征所需的时间对用户体验的影响。
  • 合规成本:使用某些数据(如位置信息、通讯录)可能带来的隐私合规风险。

净价值判定。 当信息增益的经济价值(通过减少欺诈损失来量化)大于获取成本时,该特征具有正的 VOI,值得纳入。反之,即使特征的 IV 值不低,如果获取成本过高,也应放弃。

特征加工的实时性分层

在工程实现层面,特征按照计算时效性可以分为三个层次,每个层次的设计取舍不同。

实时特征(毫秒级)。 在请求到达时即时计算的特征,要求在毫秒级别完成。典型的实时特征包括:

  • 本次请求的基础属性(金额、设备信息、IP 地址等)
  • 基于内存计数器的简单统计(如近 1 分钟内的请求次数)
  • 名单匹配结果(黑名单/白名单命中情况)

实时特征的设计约束在于计算延迟——任何需要复杂计算或大量数据扫描的操作都不适合作为实时特征。工程上通常使用内存数据库(如 Redis)维护预计算的计数器和近期滑动窗口统计。

准实时特征(秒级到分钟级)。 通过流式计算引擎(如 Flink、Kafka Streams)在近实时窗口内更新的特征。典型的准实时特征包括:

  • 过去 1 小时内的交易统计(次数、金额、去重收款方数等)
  • 过去 24 小时内的登录统计
  • 短时间窗口内的行为序列编码

准实时特征在精度和时效之间取得平衡,适合中等复杂度的统计特征。其工程挑战在于流式计算的稳定性和窗口管理的精确性。

离线特征(T+1 或更长周期)。 通过批处理任务(如 Hive/Spark 作业)在日级别或更长周期更新的特征。典型的离线特征包括:

  • 过去 30 天、90 天的长周期统计
  • 关系图谱特征(社区发现、度中心性等图算法的输出)
  • 用户画像标签(信用等级、活跃等级等综合标签)

离线特征的优势在于可以使用全量历史数据进行复杂计算,不受实时性约束;劣势在于信息的滞后性——T+1 的特征无法反映最近 24 小时内的行为变化。

三个层次的特征在模型中各有分工:

层次 时效性 复杂度 典型作用
实时特征 毫秒级 捕捉当下异常,快速响应
准实时特征 秒-分钟级 捕捉短期行为模式变化
离线特征 T+1 及以上 提供长期画像和深度分析

一个完整的风控特征集通常由三个层次的特征混合组成,兼顾即时反应能力和深度分析能力。


模型构建的方法论

样本设计:标签、窗口与比例

样本设计是建模的第一步,也是影响模型质量的关键步骤。"垃圾进,垃圾出"——如果样本设计有偏差,后续的特征工程和模型训练都无法弥补。

标签定义。 在风控建模中,"好样本"和"坏样本"的定义并非总是显而易见的。以信贷风控为例:

  • 什么程度的逾期算"坏"?逾期 1 天、逾期 30 天还是逾期 90 天?
  • 逾期后又还款的算"好"还是"坏"?
  • 因系统原因导致的逾期如何处理?

标签定义需要与业务目标对齐。如果业务目标是控制严重违约风险,通常以"逾期 90 天以上"(即 M3+)作为坏样本的定义。如果目标是早期风险预警,可能以"逾期 30 天以上"为标准。

在交易反欺诈场景中,标签定义面临的挑战更大:

  • 确认为欺诈的案例(通过用户投诉、调查确认)数量有限,且可能存在延迟(用户数天甚至数周后才发现账户被盗)。
  • 被风控拦截的交易中,部分可能是误判(正常交易被拦截),如果简单地将"被拦截"等同于"欺诈",会引入标签噪声。
  • 大量交易从未被审查,其真实标签未知。

观察期与表现期。 在信贷风控中,样本的时间设计涉及两个关键窗口:

  • 观察期(Observation Window): 用于提取特征的时间段。例如,使用用户在"申请日期前 12 个月"的行为数据来构建特征。
  • 表现期(Performance Window): 用于确定标签的时间段。例如,观察用户在"申请日期后 12 个月"内是否发生逾期来确定好坏标签。

观察期和表现期之间通常不设间隔(即表现期紧接观察期结束时刻),但在某些场景中会设置"缓冲期",排除观察期末尾行为对标签的直接影响。

观察期和表现期的长度设定需要权衡:

  • 表现期过短:坏样本定义不充分(部分实际坏样本在短表现期内尚未暴露),导致标签不准确。
  • 表现期过长:数据时效性降低,用于训练的数据过于陈旧,模型对近期风险趋势的捕捉能力下降。
  • 观察期过短:可用于构建特征的历史数据不足,某些长周期统计特征无法计算。
  • 观察期过长:早期的行为数据可能已经过时,对当前风险的预测价值有限。

好坏样本比例。 在大多数风控场景中,坏样本(欺诈/违约)的占比远低于好样本,通常在 1%-5% 甚至更低。这种极端的类别不平衡会导致模型倾向于将所有样本预测为好样本(因为这样做的"准确率"就已经很高)。

处理样本不平衡的常见方法:

  • 过采样(Oversampling): 对坏样本进行复制或合成(如 SMOTE 算法),增加其在训练集中的比例。优点是保留了所有好样本的信息,缺点是可能导致过拟合。
  • 欠采样(Undersampling): 随机抽取部分好样本,降低其在训练集中的比例。优点是减少了训练数据量加速训练,缺点是丢失了部分好样本的信息。
  • 调整损失权重(Cost-sensitive Learning): 在模型训练时,对坏样本的误分类赋予更高的惩罚权重。这种方法不改变样本分布,而是在算法层面进行调整。
  • 分层抽样: 确保训练集、验证集、测试集中好坏样本的比例一致。

拒绝推断(Reject Inference)

拒绝推断是风控建模中一个重要但经常被忽视的问题。

问题本质。 在构建风控模型时,可用的标注数据仅来自"被批准"的样本(即通过了现有风控策略的请求)。那些被拦截的请求,由于从未被执行,无法观察到其真实结果——被拦截的交易中,有多少是真正的欺诈,又有多少是被误拦的正常交易?这是未知的。

如果仅使用被批准的样本训练模型,模型只能学习到"在已批准人群中区分好坏"的能力,而非"在全量人群中区分好坏"的能力。这种样本选择偏差(Selection Bias)会导致模型在全量人群上的表现低于预期。

用一个类比来说明:假设一所大学只招收高考分数 600 分以上的学生,然后用这些学生的大学 GPA 来建模预测"高考分数对学业表现的影响"。由于样本中不包含 600 分以下的学生,模型对低分段的预测能力是缺失的。

常见的拒绝推断方法:

简单赋值法。 将所有被拒绝的样本统一标记为坏样本(假设拒绝决策是正确的),或按照一定比例分配好坏标签。这种方法简单但粗糙,假设过强。

外推法(Extrapolation)。 使用在已批准样本上训练的模型,对被拒绝样本进行预测,将预测结果作为其"伪标签"。然后将伪标签样本加入训练集重新训练模型。这种方法的问题在于:模型在被拒绝样本所处的特征空间区域可能缺乏泛化能力,伪标签的准确性难以保证。

加权法。 对已批准样本按照"被批准的概率"进行反概率加权(Inverse Probability Weighting)。被批准概率低(即"差点被拒绝")的样本获得更高的权重,以弥补样本分布中对"边界样本"的低估。这种方法需要准确估计被批准的概率,通常通过拟合一个"审批模型"来实现。

半硬截断法(Parcelling)。 使用现有模型对被拒绝样本评分,将评分较高(即模型判定为好样本概率较大)的部分标记为好样本,将评分较低的部分标记为坏样本,中间段丢弃。然后使用扩展后的数据集重新建模。这种方法比简单赋值更精细,但截断阈值的选取具有主观性。

拒绝推断的实践建议:

  • 在样本被拒绝比例较低(如 < 10%)时,样本偏差的影响相对有限,可以暂不进行拒绝推断。
  • 当被拒绝比例较高(如 > 30%)时,必须认真处理拒绝推断问题,否则模型在全量人群上的表现会显著下降。
  • 定期进行"策略穿透"实验——随机放行少量被策略拦截的请求,观察其真实结果,积累被拒绝人群的标注数据。这是获取无偏样本最直接的方法,但需要严格控制风险敞口。

模型选型思路

风控模型的演进遵循着从简单到复杂、从可解释到高精度的发展路径。每种模型范式都有其最适合的场景。

逻辑回归(Logistic Regression)。

逻辑回归是风控领域的"基准模型",也是评分卡模型的数学基础。其优势在于:

  • 模型系数具有直观的业务解释——系数的符号和大小直接反映特征对风险的影响方向和强度。
  • 训练速度快,内存占用小,可以在大规模数据上高效训练。
  • 输出的概率值经过良好校准(calibrated),可以直接用于概率判断。
  • 满足监管对模型可解释性的要求,特别是在金融领域。

逻辑回归的局限在于:只能学习特征与目标之间的线性关系,对非线性模式和特征交互效应的捕捉能力有限。这意味着特征工程的负担更重——需要人工设计交叉特征和非线性变换来弥补模型本身的表达能力不足。

GBDT(Gradient Boosted Decision Trees)。

GBDT 是结构化数据建模的主力模型,通过迭代训练决策树并对残差进行拟合,能够自动处理非线性关系和特征交互。在风控场景中,GBDT 的优势包括:

  • 不需要对特征进行 WOE 编码或标准化,能够直接处理原始特征。
  • 对缺失值具有天然的处理能力(决策树在分裂时可以选择将缺失值归入左子树或右子树)。
  • 自动捕捉特征间的交互效应,减少了人工特征工程的工作量。
  • 在大多数结构化数据的风控任务中,GBDT 的预测精度显著优于逻辑回归。

GBDT 的演进版本——XGBoost、LightGBM、CatBoost——在工程效率和模型精度上进一步优化。LightGBM 通过直方图近似和叶子增长策略大幅提升了训练速度;CatBoost 对类别特征的原生支持减少了预处理工作。

深度学习模型。

深度学习在处理非结构化数据和序列数据方面具有独特优势,在风控中的典型应用场景包括:

  • 行为序列建模: 使用 LSTM 或 Transformer 对用户的操作行为序列进行编码,捕捉序列级别的异常模式。例如,将用户过去 N 次操作的类型、时间戳、金额等信息作为序列输入,学习"正常行为序列"和"异常行为序列"的区别。
  • 图神经网络(GNN): 将用户-设备-交易构成的关联图作为输入,通过图卷积操作学习节点的嵌入表示,用于团伙检测和关联风险评估。
  • 自编码器(Autoencoder): 通过学习正常样本的压缩-重建过程,将重建误差大的样本判定为异常。适用于标签稀缺的无监督异常检测场景。

深度学习在风控中的应用需要注意几个约束:可解释性差(金融监管可能不接受"黑盒"模型作为拒绝理由)、需要大量标注数据、训练和推理成本较高、模型调参复杂度大。

模型选型的决策框架:

决策维度 逻辑回归 GBDT/XGBoost 深度学习
数据类型 结构化 结构化 结构化 + 非结构化 + 序列
数据量需求
可解释性
特征工程依赖 高(需要人工设计) 中(可自动交互) 低(可端到端学习)
训练成本
推理延迟 极低 中-高
适用场景 合规要求严格的信贷审批 通用风控场景 行为序列分析、图谱挖掘

实践中的常见做法是:使用逻辑回归/评分卡作为主模型满足合规要求,同时使用 GBDT 作为辅助模型提供更精确的风险评分。两个模型的输出可以通过融合策略综合使用。

特征重要性分析与模型可解释性

模型的可解释性在风控领域具有特殊的重要性。一方面,金融监管要求金融机构能够说明拒绝客户的理由;另一方面,模型的可解释性分析能够帮助风控分析师理解风险模式,指导策略优化。

逻辑回归的可解释性。 逻辑回归模型的每个系数直接对应一个特征的影响方向和强度。通过计算每个特征的 WOE × 系数,可以量化该特征对最终评分的贡献。对于单个样本,可以展示"该用户被判定为高风险的主要原因是:注册时长短(贡献 -30 分)+ 设备首次出现(贡献 -25 分)+ 交易金额偏高(贡献 -20 分)"。

GBDT 的特征重要性。 树模型可以通过多种方式计算特征重要性:

  • 分裂增益(Gain): 每个特征在所有树的分裂节点上带来的信息增益之和。增益越大,特征越重要。
  • 分裂频次(Frequency): 每个特征被用于分裂的次数。频次越高,特征越常被使用。
  • 覆盖度(Coverage): 每个特征分裂所覆盖的样本量。覆盖度越大,特征的影响范围越广。

三种方式各有侧重:Gain 反映特征的区分质量,Frequency 反映特征的使用广度,Coverage 反映特征的影响范围。实践中通常以 Gain 为主要参考。

SHAP(SHapley Additive exPlanations)。 SHAP 基于博弈论中的 Shapley 值,为每个特征的每个取值计算其对模型预测的边际贡献。SHAP 的优势在于:

  • 能够同时提供全局解释(哪些特征总体最重要)和局部解释(对于单个样本,哪些特征贡献了最多的风险分数)。
  • 保证了特征贡献的加和性——所有特征的 SHAP 值之和等于模型预测与基准预测的差值。
  • 适用于任意类型的模型,包括深度学习模型。

SHAP 在风控中的典型应用:为被拒绝的申请生成"拒绝原因说明",列出对拒绝决定贡献最大的前 N 个因素及其贡献值。这不仅满足了合规要求,也为客户申诉和人工审核提供了有价值的参考信息。


模型监控与策略迭代

模型上线后的核心监控指标

模型上线并不意味着建模工作的结束,而是监控和维护工作的开始。模型在线上运行过程中,其表现会受到数据分布变化、业务环境变化、黑产对抗等因素的影响,持续监控是确保模型有效性的必要手段。

AUC(Area Under the ROC Curve)。 AUC 衡量的是模型的整体排序能力——模型将坏样本排在好样本前面的概率。AUC 值的含义:

AUC 区间 模型质量评价
0.5 无区分能力(等同于随机猜测)
0.5 - 0.7 区分能力较弱,需优化
0.7 - 0.8 区分能力可接受
0.8 - 0.9 区分能力良好
0.9 - 1.0 区分能力优秀(需警惕过拟合)

在模型监控中,需要关注 AUC 的时间趋势——如果 AUC 在数周或数月内持续下降,说明模型的区分能力在衰减,需要启动模型重训或优化。

KS(Kolmogorov-Smirnov)统计量。 KS 衡量的是模型在好坏样本之间的最大区分度。具体计算方法是:将样本按模型得分从低到高排序,计算每个得分点上好样本的累积分布与坏样本的累积分布之差,取最大差值即为 KS 值。

KS 值的解读:

KS 值 区分能力评价
< 0.2 区分能力弱
0.2 - 0.3 区分能力可接受
0.3 - 0.5 区分能力良好
0.5 - 0.75 区分能力优秀
> 0.75 需检查是否存在过拟合或信息泄露

KS 与 AUC 的关系:AUC 反映模型在全分数段的综合排序能力,KS 反映模型在最佳切分点的区分强度。两者通常正相关,但不完全等价。一个模型可能 AUC 较高但 KS 一般(区分能力分散在多个分段),也可能 AUC 一般但 KS 较高(在某个分数段的区分能力特别强)。

在实际监控中,KS 的下降趋势是模型衰减的重要预警信号。当 KS 相比上线时的基准值下降超过一定比例(如 10%-20%)时,应触发模型重训流程。

PSI(Population Stability Index):分布漂移检测

PSI 是衡量模型评分分布是否发生漂移的核心指标。其本质是比较两个时间段内模型评分分布的差异程度。

计算方法。 将模型评分按分段划分为若干个区间(通常 10-20 个等频分段),分别计算基准期和监控期在每个区间的样本占比,然后计算两个分布的差异:

PSI = Σ (实际占比_i - 预期占比_i) × ln(实际占比_i / 预期占比_i)

其中,"预期占比"来自基准期(如模型上线时的验证集),"实际占比"来自监控期(如近一周的线上数据)。

PSI 的判定标准:

PSI 值 稳定性评价 建议动作
< 0.1 稳定,分布无显著变化 正常监控
0.1 - 0.25 轻微漂移,需要关注 深入分析漂移原因,评估影响
> 0.25 显著漂移,模型可能失效 启动模型重训或策略调整

PSI 漂移的常见原因:

  • 用户结构变化: 新业务拓展带来了新的用户群体,其特征分布与建模时的样本不同。
  • 业务策略调整: 上游的营销策略或产品调整改变了流量结构,间接影响了风控场景的数据分布。
  • 季节性/周期性变化: 电商大促、节假日等季节性因素导致交易行为模式的周期性变化。
  • 黑产策略变化: 黑产调整了攻击策略,导致欺诈样本的特征分布发生变化。

PSI 的监控不仅针对模型总分,也应该对每个重要特征分别计算 PSI,这样能够定位具体是哪些特征的分布发生了漂移,为模型优化提供方向指引。

A/B 测试与冠军挑战者模型机制

模型的迭代更新需要科学的验证机制,避免"新模型上线后效果反而变差"的风险。A/B 测试和冠军挑战者机制是保障模型安全迭代的标准做法。

A/B 测试。 将线上流量按照一定比例分配给新模型(实验组)和旧模型(对照组),在相同的时间段内对比两个模型的表现。A/B 测试需要注意的关键点:

  • 流量分配的随机性: 实验组和对照组的用户应该是随机分配的,确保两组在用户特征分布上没有系统性差异。
  • 样本量的充分性: 风控场景的坏样本率通常很低,需要积累足够的坏样本才能得到有统计意义的结论。这意味着 A/B 测试的运行时间可能需要数周。
  • 多指标综合评估: 不仅要看 AUC/KS 等模型指标,还要看业务指标(如拦截率对交易成功率的影响、用户投诉率等)。

冠军挑战者机制(Champion-Challenger)。 这是 A/B 测试在风控领域的一种特殊形式:

  • 冠军模型(Champion): 当前线上运行的主力模型,处理绝大部分流量(如 90%)。
  • 挑战者模型(Challenger): 新训练的候选模型,处理少量流量(如 10%),用于验证其表现。
  • 切换条件: 当挑战者模型在多个评估周期内持续优于冠军模型,且通过了统计显著性检验,则将挑战者提升为新的冠军。

冠军挑战者机制的优势在于:即使新模型表现不佳,由于只处理少量流量,对整体业务的影响有限(风险敞口可控)。

策略效果评估体系

风控策略的效果评估不能只看单一指标,需要建立多维度的评估体系。

拦截率(Interception Rate)。 被策略拦截的请求占全部请求的比例。拦截率过低意味着策略过于宽松,可能漏放风险;拦截率过高意味着策略过于严格,可能误伤正常用户。

准确率(Precision)。 被拦截的请求中,真正为欺诈的比例。准确率反映了策略的精确度——是否做到了"拦得准"。

召回率(Recall)。 全部欺诈请求中,被策略成功拦截的比例。召回率反映了策略的覆盖度——是否做到了"拦得全"。

F1 值。 准确率和召回率的调和平均值,综合反映策略的整体效果。在风控场景中,准确率和召回率的权重往往不对等——资金安全场景可能更重视召回率(宁可多拦也不漏放),用户体验场景可能更重视准确率(减少误拦)。此时可以使用加权 F1 值(F-beta Score)来调整两者的权重。

误伤率(False Positive Rate)。 正常请求中被误拦截的比例。误伤率直接影响用户体验和业务指标(如交易成功率、用户流失率)。降低误伤率是风控策略优化的永恒主题。

策略效果评估的矩阵视图:

实际欺诈 实际正常
预测拦截 真正例(TP) 假正例(FP)→ 误伤
预测放行 假负例(FN)→ 漏放 真负例(TN)
  • 准确率 = TP / (TP + FP)
  • 召回率 = TP / (TP + FN)
  • 误伤率 = FP / (FP + TN)

在实际的策略评估中,需要同时监控这些指标的绝对值和变化趋势,并与业务目标设定的基线进行对比。

策略复盘与迭代的闭环流程

策略的生命周期并非"上线即结束",而是一个持续的"设计 → 上线 → 监控 → 复盘 → 优化"的闭环过程。

定期复盘机制。 按照固定频率(如每周或每月)对在线策略进行全面复盘:

  • 有效性评估: 每条策略的拦截量、准确率、召回率是否达到预期?哪些策略的效果在下降?
  • 冗余检测: 是否存在多条策略覆盖范围高度重叠的情况?冗余策略增加了系统复杂度但不增加防御效果。
  • 空转策略识别: 哪些策略长期未触发?这些策略要么是因为所针对的风险模式已经消失,要么是阈值设定不合理导致永远无法触发。
  • 误杀案例分析: 分析被策略拦截但经人工审核确认为正常的案例,寻找策略的优化方向。

迭代优化的优先级排序。 不是所有的策略问题都需要立即修复,需要根据影响范围和紧急程度进行优先级排序:

问题类型 紧急度 处理方式
策略漏放导致资金损失 紧急修复,必要时临时收紧阈值
策略误伤率异常升高 中高 尽快分析原因并调整
模型 KS/AUC 缓慢下降 纳入迭代计划,排期重训
冗余策略清理 列入优化清单,择机处理

策略版本管理。 每次策略变更都应记录版本信息,包括:变更内容、变更原因、变更时间、预期效果、实际效果。策略版本管理不仅是合规要求,更是策略复盘和问题回溯的基础设施。


对抗性思维:攻防博弈下的策略进化

黑产的进化路径

理解风控策略的进化,首先需要理解对手——黑产——的进化路径。黑产的演进大致经历了三个阶段:

工具化阶段。 早期的欺诈行为以人工操作为主,效率有限。随着简单工具(如批量注册脚本、自动化登录工具)的出现,欺诈行为开始从"手工作坊"向"工具辅助"升级。这一阶段的特征是:攻击者使用通用化的工具,攻击手法相对简单,通过基础规则即可有效防御。

产业化阶段。 黑产逐渐形成上下游分工的产业链:上游负责资源供应(手机黑卡、虚假身份信息、代理 IP 池);中游负责工具开发和攻击执行;下游负责变现(虚假交易套现、积分兑换、优惠券售卖)。产业化带来了规模效应——攻击成本降低,攻击效率提升,防御难度显著增加。

这一阶段的典型特征包括:

  • 资源丰富: 黑产拥有大量的手机号、身份信息、银行卡等"弹药",单个维度的黑名单难以覆盖。
  • 分工精细: 注册账号、养号、实施欺诈、变现由不同的团队分阶段完成,单一环节的防御难以阻断整个链路。
  • 快速迭代: 黑产对风控策略的反应速度极快——一条新规则上线后,黑产可能在数小时内找到绕过方式。

智能化阶段。 随着机器学习和人工智能技术的普及,黑产开始使用智能化手段对抗风控:

  • 行为模拟: 使用深度学习生成模拟正常用户行为的操作序列,绕过行为层面的异常检测。
  • 对抗样本: 刻意构造能够欺骗风控模型的输入,使模型输出错误的低风险评分。
  • 自适应攻击: 通过反复试探,自动学习风控策略的判定边界,然后将攻击参数调整到边界之内。

对抗性样本与策略适应问题

风控建模面临一个与通用机器学习不同的根本挑战:样本分布不是静态的——对手会主动适应你的策略

在传统的机器学习场景(如图像识别、语音识别)中,数据的生成过程不受模型的影响——猫的照片不会因为你训练了一个猫分类器而改变。但在风控场景中,黑产会观察和学习你的策略,并主动调整自己的行为来规避检测。

这种对抗性产生了几个深远的影响:

模型的效果存在天花板。 即使模型在上线时表现优异,随着黑产的适应,那些被模型成功识别的欺诈模式会逐渐消失(因为黑产放弃了这些模式),而新的、模型无法识别的欺诈模式会出现。模型的性能会在上线后逐渐衰减,直到趋近于一个新的平衡。

训练数据的时效性约束。 使用历史数据训练的模型,学到的是"历史上的欺诈模式"。如果黑产已经调整了策略,历史模式可能不再出现,模型等于在识别一个已经不存在的目标。因此,风控模型的训练数据需要尽量使用近期数据,并设置合理的数据窗口。

评估指标的"蜜月期"现象。 新模型上线初期,由于黑产尚未完全适应,模型的拦截率和准确率通常很高——这是"蜜月期"。随着黑产逐步适应,模型的指标会逐渐回落。因此,不能仅以上线初期的指标来评估模型的长期价值。

策略的时效性衰减与更新节奏

基于对抗性的分析,风控策略存在天然的时效性衰减。不同类型的策略衰减速度不同:

简单阈值规则:衰减最快。 如"单笔金额 > X 元触发拦截"这类规则,黑产只需将金额调整到 X 以下即可绕过。衰减周期通常在天到周的量级。

组合条件规则:衰减较快。 多维度组合提高了绕过难度,但黑产通过试探仍然可以在较短时间内找到绕过路径。衰减周期在周到月的量级。

机器学习模型:衰减较慢。 模型综合了大量特征的复杂模式,黑产难以在所有维度上同时调整。衰减周期在月到季度的量级。

深层行为特征:衰减最慢。 如操作轨迹的生物特征、行为序列的时序模式等,这些特征难以被伪造或模拟。衰减周期在季度到年的量级。

基于衰减速度的差异,不同类型的策略应采用不同的更新节奏:

策略类型 典型衰减周期 建议更新频率
阈值型规则 天-周 每周审视,按需调整
组合条件规则 周-月 每月复盘,季度性重构
名单策略 持续变化 实时更新入库,定期清理过期
评分卡模型 季度-半年 每季度监控,半年-年重训
ML 模型 月-季度 每月监控,季度性重训
深度学习模型 季度-年 每季度监控,按需重训

关系图谱在团伙识别中的应用思路

团伙欺诈是风控领域最棘手的问题之一。单个欺诈行为可能难以识别——一个精心伪装的欺诈账户在行为特征上可能与正常用户无异。但当多个欺诈账户通过共享资源(设备、IP、银行卡)形成关联时,团伙的结构特征就成为一个强有力的识别信号。

关系图谱的构建。 将风控场景中的关键实体(用户、设备、手机号、银行卡、IP 地址、收货地址等)作为图的节点,将实体之间的关联关系(用户使用设备、用户绑定银行卡、设备登录 IP、交易转账关系等)作为图的边,构建多类型实体的异构关系图。

团伙检测的图分析方法:

社区发现算法。 使用 Louvain、Label Propagation 等社区发现算法识别图中的紧密连通子图(社区)。一个异常的社区特征可能包括:

  • 社区内部连接紧密,但与社区外部的连接稀疏(信息封闭)。
  • 社区内的用户在短时间内集中注册或集中交易(时间聚集)。
  • 社区内的用户共享大量公共资源(设备、IP),超出正常用户的资源共享程度。

关键节点识别。 识别图中的关键中介节点——这些节点连接了多个不同的社区或子图,可能是欺诈网络中的"枢纽"。例如,一个设备被 50 个不同用户使用过,或一个银行卡被绑定在 20 个不同账户上,这些异常的高连接度节点值得重点关注。

风险传播。 基于标签传播(Label Propagation)的思想,将已确认的欺诈节点的风险标签沿着图的边向相邻节点传播。传播的强度随着距离的增加而衰减。通过风险传播,可以发现与已知欺诈账户存在关联但自身行为暂未暴露的潜在风险账户。

图谱分析的工程挑战:

  • 图的规模: 大型互联网平台的关系图可能包含数亿节点和数十亿条边,图算法的计算复杂度和存储需求是重大的工程挑战。
  • 实时性: 图谱的更新和查询需要在可接受的延迟内完成。对于实时风控决策,图谱查询通常需要在毫秒级别返回结果,这对图数据库的性能提出了极高的要求。
  • 图的动态性: 关系图不是静态的——新的关系不断产生,旧的关系可能失效。图谱的增量更新和时效性管理是持续的工程挑战。

从规则对抗到智能对抗的范式转换

风控体系的进化可以概括为三个范式阶段:

范式一:规则对抗。 风控团队基于经验编写规则,发现新的欺诈模式后手动添加新规则。这一范式的特点是"人对人"——风控分析师与黑产攻击者之间的直接对抗。效率受限于风控团队的人力和经验,且响应速度较慢。

范式二:模型对抗。 引入机器学习模型,利用数据驱动的方式自动发现风险模式。这一范式的特点是"数据对人"——用历史数据中蕴含的模式来对抗黑产的攻击。效率显著提升,但模型的更新仍然依赖人工的重训周期。

范式三:智能对抗。 构建自适应的风控系统,能够自动感知风险态势的变化、自动调整策略参数、自动发现新的风险模式。这一范式的特点是"系统对系统"——风控系统与黑产工具之间的自动化对抗。

智能对抗阶段的核心能力包括:

自动化特征发现。 系统能够自动从原始数据中生成和评估候选特征,减少对人工特征工程的依赖。通过自动化的 IV 评估和交叉验证,筛选出有价值的新特征。

在线学习(Online Learning)。 模型能够从最新的数据中持续更新参数,而不需要完整的离线重训周期。这使得模型能够更快速地适应风险模式的变化。在线学习面临的主要挑战是标签延迟——欺诈标签通常在事件发生后数天甚至数周才能确认,而在线学习需要及时的反馈信号。

异常检测与主动发现。 不依赖已知的欺诈模式,而是通过无监督学习(如 Isolation Forest、DBSCAN)自动发现数据中的异常群体。这些异常群体经过人工审核后,可以被确认或排除,形成新的标注数据,反哺模型训练。

动态策略编排。 根据实时的风险态势自动调整策略的组合方式和阈值参数。例如,当检测到针对某一业务场景的攻击激增时,自动提升该场景下相关策略的优先级和严格度;当攻击缓解后,自动恢复到常规设置。

对抗训练。 在模型训练阶段引入对抗性样本生成,训练模型对对抗性攻击的鲁棒性。通过模拟黑产可能采用的规避手段,预训练模型的防御能力。

范式转换并非一蹴而就,大多数风控系统当前处于"规则对抗"向"模型对抗"的过渡阶段,少数头部平台开始探索"智能对抗"的早期实践。无论处于哪个阶段,核心思想是一致的:风控不是一个静态的系统,而是一个持续进化的系统。策略的有效性取决于进化速度是否快于对手。


体系化思考:策略、模型与组织能力

将前述各章节的内容串联起来,一个完整的风控策略与模型体系可以概括为以下架构:

数据层 → 采集多维度的原始数据(用户、设备、行为、环境)

特征层 → 通过特征工程将原始数据转化为风险信号(基础特征、统计特征、时序特征、关系特征、交叉特征),并通过 WOE/IV 分析评估特征质量

策略层 → 组合规则策略、模型策略和名单策略,通过串行/并行/投票/层叠等模式进行编排,在账户、交易、行为、环境四个维度构建纵深防御

评分层 → 通过多维度评分体系(用户评分、交易评分、设备评分、商户评分)实现风险的连续量化,并通过融合策略综合决策

决策层 → 基于评分和策略输出执行处置动作(放行、验证、审核、拦截),并根据风险态势动态调整阈值

监控层 → 持续监控模型指标(AUC、KS、PSI)和策略效果(准确率、召回率、误伤率),检测模型衰减和分布漂移

迭代层 → 通过 A/B 测试、冠军挑战者机制和策略复盘闭环驱动持续优化,并在对抗性思维的指导下保持策略的时效性

这个体系的核心支撑有三个:

数据基础设施。 包括数据采集的完整性和实时性、特征存储与计算的工程能力(实时/准实时/离线三层特征体系)、关系图谱的构建与查询能力。没有坚实的数据基础设施,再精巧的策略和模型都无法落地。

方法论体系。 包括科学的样本设计方法(标签定义、观察期/表现期、拒绝推断)、系统化的特征评估方法(IV/WOE/VOI)、严谨的模型评估方法(AUC/KS/PSI)、完善的策略评估方法(准确率/召回率/误伤率/F1)。方法论体系确保了每个环节的质量可控、效果可量化。

组织能力。 包括风控策略团队的业务理解深度(能够将欺诈手法转化为策略和特征)、建模团队的技术能力(能够构建、评估和优化模型)、工程团队的系统支撑能力(能够将策略和模型高效部署到线上)。三个团队的紧密协作是风控体系持续进化的组织保障。

风控策略与模型的建设不是一次性的项目,而是一个与风险共同进化的持续过程。在这个过程中,数据驱动的方法论提供了量化的决策依据,对抗性思维提供了战略层面的方向指引,而系统化的工程实践则确保了理论到落地之间的有效衔接。最终,衡量一个风控体系的成熟度,不在于它当下的拦截率有多高,而在于它面对不断变化的风险态势时,能否保持稳定的识别能力和快速的迭代响应。


风控体系专栏

加载导航中...

评论