1. 介绍

本文档旨在帮助 Smile 的潜在客户评估 Footprint Score、Phone Footprint 及 Email Footprint 属性的回溯测试结果。

Footprint 属性应始终基于具体的业务决策场景（use case）进行评估。

在欺诈识别中表现较强的变量，未必适用于信贷风险评估，反之亦然。

建议客户：

在相关的业务背景下评估关键成功因素 (KS)、隐含波动率 (IV) 和稳定性指标
避免在未区分使用场景的情况下，对全部属性进行统一评估

2. 常见使用场景

2.1 开户（Onboarding）场景

目标：

在用户进入阶段防止虚假或不可触达账户
过滤低质量或一次性身份信息
降低注册流程摩擦

核心原则：

不用于深度风险区分
避免对新用户或薄档用户过度惩罚

2.1.1 Phone Footprint 推荐属性

有效性与可触达性
- valid, active
号码类型
- phoneType
一次性指标
- disposable
运营商信息
- 存在且不为空

2.1.2 Email Footprint 推荐属性

邮箱有效性
- registered, deliverable
域名类型
- isFreeWebmail, disposable
基础存续时间
- tenure

2.2 KYC（身份验证）场景

目标：

提升身份验证能力
评估身份的长期稳定性

核心原则：

使用时间较长的身份更可靠
稳定性信号至关重要

2.2.1 Phone Footprint 推荐属性

存续时间与稳定性
- tenure, minTenure, maxTenure
运营商一致性
- originalCarrier vs currentCarrier
活跃度信号
- 长期活跃

2.2.2 Email Footprint 推荐属性

邮箱年龄
- tenure
域名注册信息
- creationTime, registrarName
企业关联
- companyName

2.3 欺诈检测场景

目标：

识别合成身份及高风险用户

核心原则：

欺诈通常集中在一次性和异常模式
通常具有较高的 KS 表现

2.3.1 Phone Footprint 推荐属性

一次性与风险指标
- disposable, phoneType
异常存续时间
- 极短 tenure, phoneNumberAge
运营商异常
- 未知 / 虚拟运营商
行为不一致
- active = false 但近期有使用记录

2.3.2 Email Footprint 推荐属性

一次性指标
- disposable
免费邮箱 + 短存续
- isFreeWebmail + 低 tenure
数据泄露 / 声誉
- breached
域名注册异常
- 非常新的 creationTime

2.4 信贷风险（Lending Risk）场景

目标：

提升信贷审批与风险判断能力

核心原则：

更适合作为模型特征，而非硬规则
关注长期稳定性

2.4.1 Phone Footprint 推荐属性

存续深度
- tenure
运营商稳定性
- 无频繁更换
长期活跃
- 持续活跃

2.4.2 Email Footprint 推荐属性

邮箱年龄
- tenure
域名质量
- 非一次性
- 非免费或长期使用的免费邮箱
声誉
- breached, firstBreachDate, lastBreachDate
- 优先无泄露或距离最近泄露时间较久

2.5 催收（Collection）场景

目标：

提升触达率与催收效率

核心原则：

不用于审批或风险评分
重点在渠道有效性

2.5.1 Phone Footprint 推荐属性

当前活跃度
- active
运营商可靠性
- 已知运营商
运营商异常
- 未知 / 虚拟运营商
号码活跃状态
- Active 状态

2.5.2 Email Footprint 推荐属性

可投递性
- deliverable
邮箱活跃度
- registeredProfileCount
域名声誉
- 非一次性

3. Footprint 数据评估原则

3.1 Footprint 特征的组合属性

Smile Footprint Score 以及 Email / Phone Footprint 属性在设计上具有组合性（compositional）。

这些特征的价值体现在：

作为整体在模型中发挥作用，而不是单独作为强预测变量存在。

3.2 单变量评估的局限性

3.2.1 无法捕捉特征交互

很多特征依赖于交互关系发挥作用
示例：
- email.registeredProfilesCount 单独表现较弱
- 但与以下变量结合时显著增强：
  - mobile.registeredProfilesCount
  - analysis.fraudScore
单变量评估无法捕捉这种联合效果。

3.2.2 共线性被误读

很多变量天然相关（如社交注册类信号）
单独 IV 评估：
- 可能重复计算信号
- 或低估整体贡献
信号更多存在于特征组合层面。

3.2.3 线性指标的局限

IV / KS 基于线性与单调关系
Footprint 数据通常包含：
- 非线性关系
- 条件依赖关系
更适合用：
- 树模型
- 集成模型

4. 推荐评估方法

4.1 Model-Based Evaluation (Primary Method)

使用全部 Footprint 特征训练模型：

Logistic Regression（基线模型）
Gradient Boosted 模型：
- XGBoost
- LightGBM

在独立验证集上评估：

AUC-ROC
Gini 系数

这才是数据真实预测能力的体现。

4.2 增量提升 / 消融分析

步骤：

构建或使用现有基线模型
加入 Footprint 特征
评估增量提升：
- Δ AUC
- Δ Gini
- 业务指标（通过率、坏账率）

衡量对现有模型的真实贡献。

4.3 特征贡献分析 (SHAP)

模型训练后：

使用 SHAP 分析特征重要性

优势：

能捕捉特征交互
提供方向与影响强度
比 IV 更适用于该类数据

5. 总结

Footprint 数据本质上是一组协同工作的信号集合
单变量评估会显著低估其价值
正确的评估方式是：

基于模型的整体性能提升，尤其是加入 Footprint 特征后的 AUC / Gini 增量

6. 核心结论

Smile Footprint 的价值不在于单个变量，而在于这些信号在模型中的相互作用，从而在不同业务场景中提升整体预测能力。