MAW 产品测试评估指南

1. 介绍

本文档旨在提供一套标准化框架，用于在回溯测试（Backtesting）及POC（概念验证）阶段评估 Smile MAW 产品的效果，确保以下方面的一致性：

黑名单识别逻辑
风险分层表现
业务审批策略匹配

2. 黑名单定义与数据处理

2.1 黑名单判定规则

真实黑名单定义：
- 来自短信（SMS）和语音（Voice）渠道中的 L5 等级信号，代表已确认的高风险 / 欺诈 / 违约用户

2.2 Seat 数据处理方式

Seat 数据必须从黑名单统计中剔除

原因：

Seat 数据包含多种运营行为：
- 营销外呼
- 客服沟通
- 还款提醒
- 催收行为
这些行为会引入标签噪音（label noise），从而影响黑名单识别的准确性

但需要注意：

Seat 数据仍应作为行为特征用于风险分析（但不用于标签定义）

3. 基于场景的风险评估框架

3.1 新客获取（数据覆盖率 ≥ 80%）

3.1.1 提高通过率的指标（Pass Rate ↑）

以下用户画像通常被视为低风险用户：

存在以下特征：
- 在短信或语音中存在多个 L1 / L3 信号
- 不存在 L4 / L5 信号
Seat 数据表现：
- 存在 L5，但具备正常通话时长（通话时长多过0）
- 需要结合以下维度判断：
  - 接通频率
  - 通话时长稳定性

解读：

通常代表正常金融行为 / 活跃用户

3.1.2 降低通过率的指标（Pass Rate ↓）

以下用户画像通常被视为高风险用户：

近期异常行为（约近7天）：
- 多次外呼尝试
- 无成功接通（通话时长为0）
通信数据风险信号：
- 多次 L4 命中
- 即使是少量 L5 命中
激进借贷行为：
- 不同 CID 数量过高
- 示例阈值：
  - 超过 10 个唯一 CID

解读：

表明存在过度借贷、潜在欺诈或资金压力风险

3.2 老客场景（提额 / 复贷）

3.2.1 优质客户特征

Seat 数据：
- L5 且具备正常通话时长（良好互动行为）
借贷行为：
- CID 使用数量可控：
  - 建议范围：3–5 次 CID 命中
风险结果指标：
- 无违约风险迹象
- CID 行为未出现极端值

解读：

可作为提额或重点维护用户

3.2.2 欺诈或不确定风险特征

CID 活跃度极低：
仅 0–1 次 CID 命中

解读：

行为数据不足
需要结合其他数据源进行交叉验证（如设备信息、KYC、征信数据等）

4. 关键评估参数

4.1 时间窗口设置

需根据产品类型进行匹配：

新客：
- 短期借贷产品：
  - 使用近 6–12 个月数据
- 分期产品：
  - 优先使用全量历史数据
老客：
- 根据以下因素调整：
  - 贷款周期
  - 还款周期
  - 授信复审频率

4.2 动态阈值设定

阈值不应固定，需根据不同客户进行动态调整：

示例指标：

外呼次数
接通率
不同 CID 数量
L4 / L5 命中频率

调整依据：

目标客群风险水平
审批通过率目标
不同市场差异（如菲律宾 / 印尼 / 拉美 / 非洲）

5. 回溯测试方法论

5.1 样本分层

将测试样本划分为：

通过 vs 拒绝（客户当前审批结果）
好客户 vs 坏客户（真实还款表现）
MAW 风险分层（L1–L5 分布）

5.2 核心评估指标

命中率（黑名单识别能力）：
- 通过 L5 正确识别坏客户的比例
KS / AUC（如转化为评分模型）
审批通过率影响：
- 使用 MAW 规则前后的通过率变化
坏账率改善：
- 对比：
- 使用 MAW 规则
- 未使用 MAW 规则

5.3 规则模拟

进行策略模拟：

拒绝策略：
- 任意 L5（SMS/语音）
- 高 CID 数（超过阈值）
- 多个 L4
通过策略：
- 仅存在 L1–L3
- Seat 行为稳定

然后对比：

通过率 vs 坏账率之间的权衡关系

6. POC / 线上测试建议

初期建议：
- 小流量上线（10%–30%）
重点监控：
- 早期逾期（D7、D14）
- 审批通过率变化
逐步优化：
- CID 阈值
- L4 / L5 敏感度
- 时间窗口设置

7. 总结

MAW 属于基于通信行为的特征数据，并非独立信用评分
最佳效果通常来自多数据融合：
- 设备信息（Device Intelligence）
- 征信数据（Credit Bureau）
- 其他替代数据（如 Smile Footprint Score）
Seat 数据：
- 在行为分析中具有价值
- 不适用于标签定义（黑名单判定）

Updated 12 days ago