Last updated on 2020-07-22…
风控是互联网金融公司开展业务的底层基石,是一块值得精细耕耘的领域。模型方面从早期偏特征工程的风险画像、风险聚类、特征推荐,发展到时序预测(ARIMA、GARCH、Holt-Winter)、 异常检测(IF)、图算法、自动机器学习等建模挖掘工作。本篇将以该领域新人的角度出发,整理金融风控领域的相关基础知识。
评分卡模型
评分卡模型基于假设“历史样本和未来样本服从同一总体分布”,故而才能从历史样本中归纳出数理统计规律来预测未来样本的表现。 评分卡通常采用逻辑回归(Logistics Regression)进行建模,其原因有很多,比如可解释性、简单模型、小样本学习等等。
为了简化处理,我们只考虑一个自变量 x ,那么评分卡模型的形式为:
其中令Odds(几率)= p(1-p),P为模型预测为1的概率,则Odds越大,代表预测为1的概率越高。
评分卡模型对特征筛选
有以下偏好:
- 特征覆盖率高,通常达到70%以上
- 特征与逾期率为线性强相关
- 特征随着时间迁移,其分布保持稳定
- 特征变量与风险趋势的相关性有明显的可解释性,并且入模变量少,通常为8-12个
WOE变换
WOE(Weight of Evidence)叫做证据权重,用于将两变量间的非线性关系转换为线性关系。
实际计算时,先将数据分箱,计算每个分箱的WOE,使其值呈单调趋势(若不单调则继续分箱,相邻分箱WOE值相同时合并)。
当一个分箱内只有Good(正常用户)或Bad(逾期用户)时,可对WOE公式进行修正如下:
IV值
IV值用于评估变量的预测能力,可认为是WOE的加权和,常用来快速筛选变量。
在应用实践中,其评价标准如下:
风控指标体系
在信贷风控中,指标时反应业务变化最直观的手段,通过对指标的分析及时发现和定位业务开展过程中的问题,并及时采取相应的手段进行防控。
FPD/SPD/TPD
(First/Second/Third Payment Deliquency)
- FPD1:首次逾期1天发生在第一期。还款表现都为1开头。
- FPD7:首次逾期7天发生在第一期。FPD30:首次逾期30天发生在第一期。
- SPD30:首次逾期30天发生在第二期。对应的还款表现有F12,112。
- TPD30:首次逾期30天发生在第三期。对应的还款表现有1112,FF12,F112,1F12
- FSTPD30:FPD7 + SPD30 + TPD30,表示首次逾期30天发生在第一期或者第二期或者第三期
一般情况下每个月的FPD1% >
SPD1% >
TP1%,FPD30% >
SPD30% >
TPD30%,以图表形式展示后如果曲线出现交叉情况,则表明某包资产出现异常,需要单独对这个异常指标进行拆分。拆分的维度一般有省份、渠道等。
Vintage
Vintage是以账龄MOB(month on book)为轴,观察每个放款月贷后的质量情况,分母为对应月份的放款本金,分子是截止期末时点逾期Mn+客户的所有剩余未还本金,可观测一个多期产品的风险全貌。 可以分为M1/M2/M3、M1+/M2+/M3+的件数/金额Vintage。
Vintage曲线的前几期会呈上升趋势,由于逾期会在前几期充分暴露出来。到后期逾期逐渐稳定,Vintage曲线的走势会逐渐平缓。
如果Vintage曲线在某一期都出现了翘尾,因此应该关注这个时期是不是出现了结构性异常,比如说节假日影响了客户还款以及催收作业等。
迁徙率
迁徙率可以用来预测不同逾期阶段的未来坏账损失,是资产管理中的核心指标,可以分为M0-M1、M1-M2、M2-M3、M3-M4迁徙率,同时也可以拆分为件数、金额的迁徙率。计算公式大致如下,以月末金额迁徙率为例:
- M0-M1迁徙率:本月M1未还本金/上月M0未还本金
- M1-M2迁徙率:本月M2未还本金/上月M1未还本金
- M2-M3迁徙率:本月M3未还本金/上月M2未还本金
- M3-M4迁徙率:本月M4未还本金/上月M3未还本金
- 综合迁徙率:(M0-M1)(M1-M2)(M2-M3)*(M3-M4)迁徙率
如果迁徙率出现大于1的情况,往往会有两种原因,以M0-M1迁徙率为例:
- M2催回流转到M1的金额较多:这种情况导致本月M1的未还本金大于上月M0未还本金。
- 大小月份造成的误差:因为M1指的是逾期1-30天以内,如果2月份只有28天,那么2月末时逾期1天和逾期29天的资产都会被算作M1,导致分子过大。
回收率
回收率和迁徙率是高度相关的两个指标,比如本月M1的回收率较高,那么相应的M1-M2的迁徙率就会变低。仔细分析一下这两个指标的计算逻辑(按未还本金的口径计算):
- M1的回收率:上月M1未还本金-本月M1未还本金/上月M1未还本金
- M1-M2迁徙率:本月M1未还本金/上月M0未还本金
由于分母不一样,所以M1的回收率不可以用1减去M1-M2迁徙率,但是迁徙率和回收率成反比关系是确定的。回收率高,迁徙率自然就会低。回收率的计算一般有三种口径:
- 按个数计算,即实际回收个数/委案个数。
- 按回收金额计算,即实际回收金额/委案金额。
- 按未收本金计算,即回收案件的剩余本金/委托案件的剩余本金。
未完待续…