Footprints 产品测试评估指南

1. 介绍

本文档旨在帮助 Smile 的潜在客户评估 Footprint ScorePhone FootprintEmail Footprint 属性的回溯测试结果。

Footprint 属性应始终基于具体的业务决策场景use case)进行评估。

在欺诈识别中表现较强的变量,未必适用于信贷风险评估,反之亦然。

建议客户:

  • 在相关的业务背景下评估关键成功因素 (KS)、隐含波动率 (IV) 和稳定性指标

  • 避免在未区分使用场景的情况下,对全部属性进行统一评估


2. 常见使用场景

2.1 开户(Onboarding)场景

目标:

  • 在用户进入阶段防止虚假或不可触达账户
  • 过滤低质量或一次性身份信息
  • 降低注册流程摩擦

核心原则:

  • 不用于深度风险区分

  • 避免对新用户或薄档用户过度惩罚


2.1.1 Phone Footprint 推荐属性

  • 有效性与可触达性

    • valid, active
  • 号码类型

    • phoneType
  • 一次性指标

    • disposable
  • 运营商信息

    • 存在且不为空

2.1.2 Email Footprint 推荐属性

  • 邮箱有效性

    • registered, deliverable
  • 域名类型

    • isFreeWebmail, disposable
  • 基础存续时间

    • tenure

2.2 KYC(身份验证)场景

目标:

  • 提升身份验证能力

  • 评估身份的长期稳定性

核心原则:

  • 使用时间较长的身份更可靠
  • 稳定性信号至关重要

2.2.1 Phone Footprint 推荐属性

  • 存续时间与稳定性
    • tenure, minTenure, maxTenure
  • 运营商一致性
    • originalCarrier vs currentCarrier
  • 活跃度信号
    • 长期活跃

2.2.2 Email Footprint 推荐属性

  • 邮箱年龄
    • tenure
  • 域名注册信息
    • creationTime, registrarName
  • 企业关联
    • companyName

2.3 欺诈检测场景

目标:

  • 识别合成身份及高风险用户

核心原则:

  • 欺诈通常集中在一次性和异常模式
  • 通常具有较高的 KS 表现

2.3.1 Phone Footprint 推荐属性

  • 一次性与风险指标
    • disposable, phoneType
  • 异常存续时间
    • 极短 tenure, phoneNumberAge
  • 运营商异常
    • 未知 / 虚拟运营商
  • 行为不一致
    • active = false 但近期有使用记录

2.3.2 Email Footprint 推荐属性

  • 一次性指标
    • disposable
  • 免费邮箱 + 短存续
    • isFreeWebmail + 低 tenure
  • 数据泄露 / 声誉
    • breached
  • 域名注册异常
    • 非常新的 creationTime

2.4 信贷风险(Lending Risk)场景

目标:

  • 提升信贷审批与风险判断能力

核心原则:

  • 更适合作为模型特征,而非硬规则
  • 关注长期稳定性

2.4.1 Phone Footprint 推荐属性

  • 存续深度
    • tenure
  • 运营商稳定性
    • 无频繁更换
  • 长期活跃
    • 持续活跃

2.4.2 Email Footprint 推荐属性

  • 邮箱年龄
    • tenure
  • 域名质量
    • 非一次性
    • 非免费或长期使用的免费邮箱
  • 声誉
    • breached, firstBreachDate, lastBreachDate
    • 优先无泄露或距离最近泄露时间较久

2.5 催收(Collection)场景

目标:

  • 提升触达率与催收效率

核心原则:

  • 不用于审批或风险评分

  • 重点在渠道有效性


2.5.1 Phone Footprint 推荐属性

  • 当前活跃度
    • active
  • 运营商可靠性
    • 已知运营商
  • 运营商异常
    • 未知 / 虚拟运营商
  • 号码活跃状态
    • Active 状态

2.5.2 Email Footprint 推荐属性

  • 可投递性
    • deliverable
  • 邮箱活跃度
    • registeredProfileCount
  • 域名声誉
    • 非一次性

3. Footprint 数据评估原则

3.1 Footprint 特征的组合属性

Smile Footprint Score 以及 Email / Phone Footprint 属性在设计上具有组合性(compositional)

这些特征的价值体现在:

作为整体在模型中发挥作用,而不是单独作为强预测变量存在。


3.2 单变量评估的局限性

3.2.1 无法捕捉特征交互

  • 很多特征依赖于交互关系发挥作用

  • 示例:

    • email.registeredProfilesCount 单独表现较弱

    • 但与以下变量结合时显著增强:

      • mobile.registeredProfilesCount

      • analysis.fraudScore

  • 单变量评估无法捕捉这种联合效果


3.2.2 共线性被误读

  • 很多变量天然相关(如社交注册类信号)

  • 单独 IV 评估:

    • 可能重复计算信号
    • 或低估整体贡献
  • 信号更多存在于特征组合层面


3.2.3 线性指标的局限

  • IV / KS 基于线性与单调关系
  • Footprint 数据通常包含:
    • 非线性关系
    • 条件依赖关系
  • 更适合用:
    • 树模型
    • 集成模型

4. 推荐评估方法

4.1 Model-Based Evaluation (Primary Method)

使用全部 Footprint 特征训练模型:

  • Logistic Regression(基线模型)

  • Gradient Boosted 模型:

    • XGBoost
    • LightGBM

独立验证集上评估:

  • AUC-ROC
  • Gini 系数

这才是数据真实预测能力的体现。


4.2 增量提升 / 消融分析

步骤:

  1. 构建或使用现有基线模型
  2. 加入 Footprint 特征
  3. 评估增量提升:
    • Δ AUC
    • Δ Gini
    • 业务指标(通过率、坏账率)

衡量对现有模型的真实贡献


4.3 特征贡献分析 (SHAP)

模型训练后:

  • 使用 SHAP 分析特征重要性

优势:

  • 能捕捉特征交互
  • 提供方向与影响强度
  • 比 IV 更适用于该类数据

5. 总结

  • Footprint 数据本质上是一组协同工作的信号集合

  • 单变量评估会显著低估其价值

  • 正确的评估方式是:

    基于模型的整体性能提升,尤其是加入 Footprint 特征后的 AUC / Gini 增量


6. 核心结论

Smile Footprint 的价值不在于单个变量,而在于这些信号在模型中的相互作用,从而在不同业务场景中提升整体预测能力。