智能风控:原理、算法与工程实践
上QQ阅读APP看书,第一时间看更新

前言

为什么要写这本书

风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:

第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。

第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。

第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。

第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。

风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。

笔者研读市面上智能风控相关的学习资料时发现,入门资料非常丰富,而专门介绍风控领域机器学习技术的进阶资料几乎没有,因此决心写一本构建风控领域机器学习体系的书,且希望原理与实践并重,帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开,重点介绍欺诈检测的机器学习方法。

读者对象

本书主要面向从事风险控制工作的广大分析师、建模师、算法工程师,也适合对传统信用评分卡有初步认识的在校学生,以及对机器学习在风控领域应用感兴趣的读者。

本书特色

与市面上许多风控建模相关的图书不同,本书主要使用机器学习方法进行信用管理,而不是使用传统的统计分析手段与逻辑回归评分卡的内容。有关构建信贷评分卡的内容,本书最后的参考文献中所列的书籍已经讲解得非常透彻了,因此传统评分卡在本书中仅以对比机器学习评分卡的形式出现。对于信贷领域的基础概念,本书不作过多展开,只对本书中涉及的部分加以解释。

本书初稿的篇幅是目前的两倍以上,详细介绍了风控领域每一个场景的算法原理及业务逻辑,但经与专业人士反复探讨,笔者最终决定将与参考文献中所列图书重合度较高的内容去掉,而将笔墨集中在解决问题相关的算法及实际应用上。

本书的大部分章节都由问题、算法、案例三部分组成。期望读者通过对本书的阅读,可以更快、更好地解决实际问题,而非纸上谈兵。本书中的案例大多为业内尚未普及的前沿案例,希望能够对读者有所启发。

本书中有大量公式和代码,为提高可读性,特邀请资深设计师毛鑫宇老师为本书手绘素材及插图,希望在保证内容丰富、严谨、实用的同时,让读者感受到读书的乐趣。

如何阅读这本书

本书是一本专注于介绍机器学习算法在风控领域的应用的书籍,具有很强的实践性。全书共8章,包含21种实用算法与26种解决方案。

第1~2章讲解了信贷业务的基础知识及常用的规则引擎、信用评估引擎的建模方法。

第3章围绕迁移学习展开,并以项目冷启动为背景进行介绍。迁移学习在风控领域的应用非常广泛。

第4~5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。在实际应用中,迁移学习可以为这两种场景带来很多帮助。

第6章重点讲解了无监督的异常识别算法。该方法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。

第7章分享了一些经笔者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。

第8章重点介绍了知识图谱相关的复杂网络基础知识及网络表示学习方法,其中的社区发现算法常用于团伙欺诈检测。除团伙欺诈检测外,第8章所涉及的部分方法对信用评估模型的优化也有很大帮助。

本书更多是为读者提供一些实践经验以及深入挖掘的方向,读者可以在本书基础上进行深入研究与实践。笔者认为阅读一本书应分为两大阶段:第一阶段将书“由厚读薄”,抽象出主体知识与脉络架构,形成自己的思维体系;第二阶段将书“由薄读厚”,将抽象的思维体系与书本内容进行交叉验证,发现其中的细节,并加以引申。切勿在第一阶段结束后就自以为掌握了核心思想而不再有进取之心。希望读者在阅读本书时能多思考、多总结、勤于实践,最终实现学以致用。

本书的内容结构如下图所示。

勘误与支持

写作本书时虽力求完美,但由于作者水平有限,错误和疏漏之处在所难免,在此,期望得到各领域专家和广大读者的批评指正。如果你有关于本书的建议或意见,欢迎发送邮件至yfc@hzbook.com。

此外,本书的全部代码和部分数据可在华章官方网站(www.hzbook.com)上下载。因为有部分数据比较敏感,无法分享、请大家理解。

本书内容结构

致谢

感谢机械工业出版社华章公司策划编辑杨福川老师、责任编辑罗词亮老师,以及本书的封面、插画、素材设计者毛鑫宇老师。以上各位为本书花费了大量的时间和精力,并在本书的创作过程中提出了宝贵的修改建议,特此感谢。

感谢赵越老师(知乎ID:微调),其开发维护的PyOD库为异常检测方法的实际应用提供了极大便利。感谢公众号“人工智能爱好者社区”负责人邬书豪兄、公众号“风控圈子”负责人孙耀武兄对本书的大力支持,以及梁官雪老师、周立烽老师等数十位好友在日常交流、工作中对我的指导。

感谢参与本书出版的全部工作人员的付出以及各位同事、朋友为本书带来的灵感。