MAW 产品测试评估指南

1. 介绍

本文档旨在提供一套标准化框架,用于在回溯测试(Backtesting)及POC(概念验证)阶段评估 Smile MAW 产品的效果,确保以下方面的一致性:

  • 黑名单识别逻辑
  • 风险分层表现
  • 业务审批策略匹配

2. 黑名单定义与数据处理

2.1 黑名单判定规则

  • 真实黑名单定义:
    • 来自 短信(SMS) 和 语音(Voice) 渠道中的 L5 等级信号,代表已确认的高风险 / 欺诈 / 违约用户

2.2 Seat 数据处理方式

  • Seat 数据必须从黑名单统计中剔除

原因:

  • Seat 数据包含多种运营行为:
    • 营销外呼
    • 客服沟通
    • 还款提醒
    • 催收行为
  • 这些行为会引入标签噪音(label noise),从而影响黑名单识别的准确性

但需要注意:

  • Seat 数据仍应作为行为特征用于风险分析(但不用于标签定义)

3. 基于场景的风险评估框架

3.1 新客获取(数据覆盖率 ≥ 80%)

3.1.1 提高通过率的指标(Pass Rate ↑)

以下用户画像通常被视为低风险用户

  • 存在以下特征:
    • 在短信或语音中存在多个 L1 / L3 信号
    • 不存在 L4 / L5 信号
  • Seat 数据表现:
    • 存在 L5,但具备正常通话时长(通话时长多过0)
    • 需要结合以下维度判断:
      • 接通频率
      • 通话时长稳定性

解读:

  • 通常代表正常金融行为 / 活跃用户

3.1.2 降低通过率的指标(Pass Rate ↓)

以下用户画像通常被视为高风险用户

  • 近期异常行为(约近7天):
    • 多次外呼尝试
    • 无成功接通(通话时长为0)
  • 通信数据风险信号:
    • 多次 L4 命中
    • 即使是少量 L5 命中
  • 激进借贷行为:
    • 不同 CID 数量过高
    • 示例阈值:
      • 超过 10 个唯一 CID

解读:

  • 表明存在过度借贷、潜在欺诈或资金压力风险

3.2 老客场景(提额 / 复贷)

3.2.1 优质客户特征

  • Seat 数据:
    • L5 且具备正常通话时长(良好互动行为)
  • 借贷行为:
    • CID 使用数量可控:
      • 建议范围:3–5 次 CID 命中
  • 风险结果指标:
    • 无违约风险迹象
    • CID 行为未出现极端值

解读:

  • 可作为提额或重点维护用户

3.2.2 欺诈或不确定风险特征

  • CID 活跃度极低
  • 0–1 次 CID 命中

解读:

  • 行为数据不足
  • 需要结合其他数据源进行交叉验证(如设备信息、KYC、征信数据等)

4. 关键评估参数

4.1 时间窗口设置

需根据产品类型进行匹配:

  • 新客:
    • 短期借贷产品:
      • 使用近 6–12 个月数据
    • 分期产品:
      • 优先使用全量历史数据
  • 老客:
    • 根据以下因素调整:
      • 贷款周期
      • 还款周期
      • 授信复审频率

4.2 动态阈值设定

阈值不应固定,需根据不同客户进行动态调整:

示例指标:

  • 外呼次数
  • 接通率
  • 不同 CID 数量
  • L4 / L5 命中频率

调整依据:

  • 目标客群风险水平
  • 审批通过率目标
  • 不同市场差异(如菲律宾 / 印尼 / 拉美 / 非洲)

5. 回溯测试方法论

5.1 样本分层

将测试样本划分为:

  • 通过 vs 拒绝(客户当前审批结果)
  • 好客户 vs 坏客户(真实还款表现)
  • MAW 风险分层(L1–L5 分布)

5.2 核心评估指标

  • 命中率(黑名单识别能力):
    • 通过 L5 正确识别坏客户的比例
  • KS / AUC(如转化为评分模型)
  • 审批通过率影响:
    • 使用 MAW 规则前后的通过率变化
  • 坏账率改善:
    • 对比:
    • 使用 MAW 规则
    • 未使用 MAW 规则

5.3 规则模拟

进行策略模拟:

  • 拒绝策略:
    • 任意 L5(SMS/语音)
    • 高 CID 数(超过阈值)
    • 多个 L4
  • 通过策略:
    • 仅存在 L1–L3
    • Seat 行为稳定

然后对比:

  • 通过率 vs 坏账率之间的权衡关系

6. POC / 线上测试建议

  • 初期建议:
    • 小流量上线(10%–30%)
  • 重点监控:
    • 早期逾期(D7、D14)
    • 审批通过率变化
  • 逐步优化:
    • CID 阈值
    • L4 / L5 敏感度
    • 时间窗口设置

7. 总结

  • MAW 属于基于通信行为的特征数据,并非独立信用评分
  • 最佳效果通常来自多数据融合:
    • 设备信息(Device Intelligence)
    • 征信数据(Credit Bureau)
    • 其他替代数据(如 Smile Footprint Score)
  • Seat 数据:
    • 在行为分析中具有价值
    • 不适用于标签定义(黑名单判定)