智能风控:原理、算法与工程实践
上QQ阅读APP看书,第一时间看更新

2.1 特征工程解析

特征工程指的是通过数据处理方法,从源数据中抽取关键信息进行组合,挖掘出更加深入的信息的过程。在传统的机器学习领域,特征工程对模型的帮助非常大。多数算法最终结果的好坏很大程度上取决于特征工程的优劣。

2.1.1 特征与模型

工业界的两种主流建模思路是复杂特征加简单算法和简单特征加复杂算法。整体来看这两者并没有优劣之分,但是算法越简单可解释性越强。在传统信用评分建模中,业务人员更希望得到一个解释性更强的模型,所以使用复杂的特征工程加逻辑回归算法进行建模。然而随着机器学习模型在各个领域的普及,风控领域使用的模型正在慢慢地向更复杂的模型过渡

目前实用性较强的复杂算法的代表为卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)等表征学习算法,这些算法对特征工程的要求非常低,建立一个优秀的模型不一定要有大量业务经验的支撑,也就意味着对新手更友好。美中不足的是,复杂算法对数据量和计算资源的要求更高。

现阶段风控领域部分业务仍追求一定的解释性,并且考虑到模型融合的整体复杂度,将复杂模型作为一种特征构造方法,使用复杂模型的输出作为传统评分卡的输入,最终仍使用传统逻辑回归进行训练。具体内容将在第7章中介绍。

2.1.2 信用模型的特征

信用评分模型的主要目的是衡量一个用户的信用风险。因此,特征的构造也要围绕着反映用户信用等级的数据展开。特征构造进行的主要是时间维度的聚合统计及跨时间维度的特征比较。比如,计算一个用户的历史消费数据,可能会分别统计借款时间点之前的每一个月用户的消费金额,然后再计算最近一个月相比于之前几个月的均值是否有显著变化;或者计算历史6个月内,用户每个月的消费金额的增长量,从而得到5个特征,用来度量用户某一维度特征的稳定性。

通常衡量一个用户的偿还能力和还款意愿,主要会从以下几个角度出发:

个人基本信息:个人基本信息是每个场景下都一定会有的数据,比较典型的信息有年龄、性别、家庭情况等。基本思路是年龄太小和太大都有风险,因为太小没有收入来源,太大有寿命风险。对于性别,女性通常还款意愿强。对于家庭情况,亲戚朋友少的人,逾期时较难向其施压。

金融信息:直接反映用户偿还能力的数据,比如收入、家庭资产等。

多头信息:多头是指用户在多家借款平台贷款的情况。当用户借款平台较多时,会被判断为有负债严重的倾向,这类人通常被认为偿还能力较差。这些可能会被作为策略使用。达到或超过某一阈值,比如15家借款平台,这样的用户是无法通过申请的。

消费信息:典型的消费信息有电商数据、出行数据、外卖数据、点评数据等,这反映了用户在某一段时间内的消费水平。可以尝试计算用户过去一个月在每一种消费上所付出的金额,从而计算出他的购买力。还可以与用户的收入进行对比来估计用户的负债情况。消费过高或过低,或者近期有大幅度开销的情况都需要引起注意。

历史平台表现:用户在借款平台上可能会有一些历史表现。比如,在B卡中,用户有历史还款表现,这是可以直接体现用户还款意愿的特征。可以通过计算用户历史最大、最小逾期天数,以及历史借款的金额之和来估计用户的情况。

埋点数据:App埋点数据也是使用较多的数据之一,用于记录用户点击App上每一个按钮的具体时间和频次。据此可以做一些聚合特征,或者计算不同点击之间的时间间隔。类似的字段在欺诈检测中使用得尤为频繁。

外部征信数据:市场上有很多种征信数据,这些数据对于衡量用户的信用风险会比较有帮助。通常征信公司不会将具体的征信分计算逻辑告诉甲方公司。这里通常直接提取征信分数作为特征,还可以将多条历史征信数据取出来计算均值方差,或者估计增降趋势。

稳定性:除了通过一些固定的维度来看用户的近期表现外,还可将用户上述的每一种维度的变化趋势做成特征,用来衡量用户现在处于生命周期的哪个阶段。比如,电商数据中用户每个月购买总金额的方差一直比较小,就说明客户处于一个稳定的状态。如果贷款前期突然有了巨大开销,那么最近一周消费总金额除以最近一个月消费总金额所得的特征值就会显著增大,这可能会被识别为信用降低的信号。类似的特征还有很多,比如每两个月之间特征的比值,最近一个月单项特征与之前6个月单项特征的均值的比值,等等。

数据密度:在用户的多头记录中,一个用户在一天之内在10家公司贷款和10天每天在一家公司贷款是两种完全不同的概念,按照月份粗粒度统计是不能体现这种信息的。这时候就可以考虑用数据密度来衡量用户的借贷密集程度。数据密度是一种特殊的特征构造方式。比如对多头数据进行月度聚合,可以衍生出另外几个字段:一个月内有多头数据的天数/30,一个月内申请的多头数量/一个月内有申请的天数,等等。这本质上是希望将用户的行为活动所覆盖的时间维度考虑进来。