官方服务微信:dat818 购买与出租对接

大数据风控新趋势:T-L模型与RandomForest结合构建ScoreNet体系

4万

主题

2

回帖

12万

积分

管理员

积分
120677
发表于 2024-12-31 06:10:35 | 显示全部楼层 |阅读模式
    【概括】

    随着互联网金融、消费金融的快速发展,央行征信在数据及时性、全面性、层次性等方面的短板日益凸显。深度挖掘互联网大数据信息、开发大数据风控模型、更准确地评估风险逐渐成为新一代信用风险模型体系建设的核心课题。

    本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建了TL模型,并结合模型改进了模型结构。采用TL核模型代替RF模型中传统的决策树模型,将RF模型和TL核模型结合起来建立模型体系。不仅大大提高了风险模型区分能力,而且保证了模型结构的清晰性和评分的广泛应用。

    【关键词】大数据风控TL模型

    一、选题背景及意义

    目前,央行个人征信中心拥有自然人8.6亿多人,但其中有信用记录的仅3亿多人。同时,信用记录主要来自商业银行、农村信用社等金融机构。在数据时效性方面,全面性和层次性方面存在严重缺陷。因此,在互联网金融蓬勃发展的今天,深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人信用信息的缺失显得尤为重要。

    无论是线上还是线下的用户消费和社交数据,都具有区别于传统信用信息的独特特征:

    数据高度稀疏(用户线上线下行为分布广泛,收集和覆盖极其困难;用户的行为偏好也不同,不同类别的行为差异很大,因此数据的稀疏性极其明显。一般来说,用户行为信息的缺失率超过50%);

    数据覆盖面广(信息覆盖面广泛,支付宝或微信活跃用户超4亿,用户行为涵盖服装、图书、租赁、休闲、娱乐等,单指标维度超过1000个);

    单变量风险辨别能力较弱(与传统风险模型中使用的历史业绩状况和个人资产评估等强变量不同,消费或社会变量一般是弱变量,辨别能力较弱)。

    传统的信用风险评估模型利用数据驱动或专家经验在业务逻辑架构下开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)获得准确的计量结果。然而,在新的数据肖像和业务场景下,不仅原有的业务逻辑框架丢失,传统统计分析模型的应用也受到严重限制。近年来,机器学习技术发展迅速,在信息识别、推荐引擎等领域取得了优异的应用成果。大量实验结果证明机器学习模型具有良好的鲁棒性和泛化性。然而,机器学习模型的模型逻辑极其复杂,难以掌控模型的真实效果,也难以直观地展示和解释变量的风险特征。如何将传统风险评估模型系统与机器学习技术相结合,在保证业务逻辑和评分广泛应用的同时,更准确地评估风险,成为新一代信用风险模型系统建设的核心问题。

    2.文献综述

    (1941)首先使用信用评分领域的判别分析来预测借款人的贷款偿还状况; 20世纪50年代,他发明了基于回归模型的FICO信用评分系统。得益于清晰的业务逻辑和可解释性,评分系统逐渐成为应用最广泛的风险模型系统。然而,逻辑回归和判别分析模型都主要针对线性问题,无法分析变量的非线性结构。同时,它们对数据的完整性和有效性要求很高,对数据噪声也很敏感,不适合大数据。上下文中的模型开发和集成。

    ,;(1943)[1]提出了神经网络模型,并得到了广泛的应用,并首次描述了机器学习理论的雏形; (1956)[2]在文章中首次提出机器学习的概念; ,MarkA.;,.;,LevI.(1964)[3]提出了在统计学习领域应用最广泛的机器学习模型,支持向量机(SVM); Leo(1996)[4]、(1988)[5]、Ho(1995)[6]提出了集成学习算法:,,完美解决了问题。传统机器学习算法的过拟合困境,显着提高了算法的稳定性、泛化性和鲁棒性。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域取得了突破性进展。推荐算法与风险模型的一致性,以及GBDT[7]在推荐算法上的优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而,单一机器学习算法和集成学习算法都具有复杂的模型结构。这种复杂的结构不仅使模型失去了可解释性,也限制了专业模型分析师控制模型的能力,难以实现真正意义上的大范围应用。

    三、研究的理论框架和模型构建

    本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型,构建TL模型,并结合模型改进模型结构,建立模型。不仅大大提高了风险模型区分能力,还保证了业务逻辑的清晰性和评分的广泛应用。

    3.1.TL内核模型

    传统的信用风险评估模型分析业务逻辑结构下变量的基本属性和风险区分能力,并利用逻辑回归等统计分析模型进行定量分析,以获得准确的风险计量结果。然而,用户行为数据特有的稀疏性会导致统计模型极不稳定。决策树对于局部数据分析具有很强的稳定性和鲁棒性,能够揭示变量风险判别能力的非线性结构关系。因此,我们嫁接决策树模型和逻辑回归模型建立TL核模型。即在统计建模之前增加一层决策树模型进行单变量分析,利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、跨变量和二元)决策树变量)导入逻辑回归模型进行统计建模,确定所有风险因素的风险权重。

    3.1.1.决策树模型

    在各种决策树算法中,CHAID[8](Chi-)既适用于二元变量,也适用于连续变量。对于每个分叉,CHAID 分别对二元响应和连续目标变量使用卡方检验和 F 检验。因此,本文选择CHAID算法作为决策树算法。

    CHAID算法以因变量为根节点,对每个自变量(只能是分类变量或序数变量,即离散变量)进行运算,如果是连续变量,例如年龄、收入,则必须被定义为分类变量或序数变量)。分类,生成一系列二维表,然后分别计算生成的二维表的卡方统计量或F统计量。如果因变量(目标变量)是分类变量(如PD模型),则采用卡方检验(Chi--Test);如果因变量是区间变量(如LGD、EAD模型),则进行F检验(F-Test)。如果几个候选变量的分类显着,则比较这些分类的显着性(P值的大小),然后选择最显着的分类变量和划分作为子节点。

    3.1.2.逻辑回归模型

    逻辑回归模型[9]是一种广义线性模型[10],其中因变量服从二项式分布,自变量的线性预测与因变量的logit变换相联系。具体数学表达式为:

    由此我们可以得到

    该理论可以证明,如果样本的分布服从多元正态分布,那么样本就完全满足对数回归的假设。对数模型的误差项服从二项式分布。因此,拟合时采用最大似然估计法而不是最小二乘误差法进行参数估计。

    3.2.型号

    3.2.1.基本原理

    随机森林是美国科学家于2001年发表的一种机器学习算法,将1996年提出的集成学习理论[4]与Ho于1998年提出的随机子空间方法[11]相结合。随机森林是一种以决策树为基本分类器的集成学习模型。它包含通过集成学习技术训练的多个决策树。当输入待分类的样本时,通过单个决策树的输出来投票决定最终的分类结果。决定,如下图所示。随机森林克服了决策树的过拟合问题,对噪声和异常值具有良好的容忍度,对于高维数据分类问题具有良好的可扩展性和并行性。另外,随机森林是一种由数据驱动的非参数分类方法。它只需要通过给定样本的学习来训练分类规则,不需要分类的先验知识。

    随机森林使用K个决策树作为基本分类器

   


    ,集成学习后得到的组合分类器。当输入一个待分类样本时,随机森林输出的分类结果是通过对每棵决策树的分类结果进行简单投票来确定的。这是

    是随机变量序列,由随机森林的两大随机化思想决定:

    (1)思路:从原始样本集X中放回随机选取K个与原始样本集大小相同的训练样本集(每次大约有37%的样本没有被选取),构建每个训练样本集相应的决策树。

    (2)特征子空间思想:在对决策树的每个节点进行分裂时,从所有属性中以中等概率随机选择一个属性子集,然后从这个子集中选择一个最优属性来分裂节点。

    由于构建每棵决策树时,随机选择训练样本集和属性子集的过程是独立的,总体总体是相同的,因此

    是独立且同分布的随机变量的序列。

    训练随机森林的过程就是训练每棵决策树。由于每棵决策树的训练是相互独立的,因此随机森林的训练可以通过并行处理来实现,这将大大提高生成模型的效率。随机森林 2 号

    训练流程如下图所示。

    将用同样方式训练的K个决策树组合起来,就可以得到随机森林。当输入一个待分类样本时,随机森林输出的分类结果是通过对每棵决策树的输出结果进行简单投票(即取多数)来确定的。

    3.2.2.模型的缺陷及改进方向

    不难证明随机森林[12]的泛化误差上限为:

    3.3.型号

    本文引入3.1中建立的TL核模型来替代3.2中RF模型中的传统决策树模型,并将RF模型和TL核模型结合起来建立模型体系。

    该模型建立在传统模型的基础上,保留了传统模型的业务可解释性和稳定性。

    该模型采用随机森林模型作为基本结构构建随机模型,克服了传统模型对数据噪声也敏感的缺点,进一步提高了模型的泛化性和稳定性。

    该模型克服了传统模型一般只能容纳10-15个变量的缺点,模型可以覆盖100+变量。这可以从源头防止用户作弊,提高模型的可信度。

    该模型在应用层面的高稳定性和业务可解释性使其比纯机器学习模型拥有更广阔的应用空间。

    4. 模型开发与结果分析

    本文利用互联网爬虫技术和第三方合作机构,进行跨商家、浏览器、设备、微信的实时互联网数据采集和分析,包括但不限于:商品消费行为采集和挖掘、资讯、社区和视频阅读行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。

    通过多渠道的数据采集和挖掘,形成全面的用户画像数据(如人口特征标签、用户总体标签、资产价值标签、消费行为偏好、阅读偏好标签、金融服务标签、社交圈标签等),进一步了解全方位的用户属性信息。

    本文利用大数据风险模型技术,从身份信息验证、稳定性信息、金融应用信息、资产评估信息、商品消费信息、媒体观看信息六大维度评估用户违约风险。

    4.1 数据分析

    4.1.1.数据收集

    本文收集了身份信息验证、稳定性信息、金融应用信息、重要资产信息、商品消费信息、媒体阅读信息六大维度近千个子项的互联网数据。

    从模型表现可以看出,该模型对不同样本具有一定的判别能力,表明其稳定性较高,在未来的应用中可以适应不同人群。

    4.3 模型结果对比分析

   


    传统模型与模型对比分析结果:

    传统模型与机器学习模型的对比分析结果( ):

    模型对比分析结果表明,该模型较传统模型在判别能力上有较大提升(),可将KS/AR值提高约0.05,同时保持传统模型()的稳定性和可解释性;模型比较纯粹 机器学习模型()在稳定性和泛化性方面具有绝对优势,判别能力也更优越。

    5.应用分析及解决建议

    5.1.信用信息多元化与风险量化

    传统金融机构信用信息的主要来源是央行信用报告。然而,央行信用报告中仅有3亿多人有信用记录。信用记录主要来自商业银行、农村信用社等金融机构。随着互联网不断渗透到人们的生活中,互联网行为数据是央行征信的有效补充。能够不断强化征信数据的时效性、全面性和层次性,隐形记录用户行为,去伪存真,还原真实客户。这大大提高了信息的利用率和有效性。

    同时,大数据风险模型的应用可以不断提高金融机构的风险识别和计量能力。这将不断完善征信体系结构,为精细化风险定价提供必要的基础和土壤。

    5.2.信贷审批决策/自动审批

    传统上,金融机构的授信审批决策主要依靠信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的实施。通过大数据模型开发技术与内部评级体系建设的深度融合,金融机构可以更广泛、更全面地将评分/评级结果应用于信贷审批,为贷款决策提供参考和支持。

    大数据风险模型卓越的风险排序和差异化能力,可以有力推动自动化审批进程和线上产品的改革创新。如果模型评分高于一定水平,且满足其他授信决策条件,则授信申请可自动通过,无需人工审核。对于分数低于一定等级的模型,模型将自动拒绝申请;仅模型得分介于上述两者之间的客户,需要人工干预来审核应用程序。

    5.3 风险监测预警

    风险监测预警是指利用各种信息源或渠道,对数据和信息进行整合和分析,采用定量与定性相结合的分析方法,发现信贷客户和业务的早期风险迹象,准确识别风险类别,确定信用风险发展变化的程度、原因和趋势,按照规定的权限和程序,采取有针对性的措施处理问题信用风险,及时防范、控制和化解信用风险。

    大数据风险模型比传统的内部评级系统更加复杂和敏感。能够快速识别贷后风险,针对不同用户设置不同的监控频率,自动筛选高风险客户,制定有针对性的贷后管理措施。后期管理工作等

    6. 参考文献

    [1].,;(1943)..(4):115–133.

    [2].,,,,第二部分,第56-62页,1957。

    [3].,MarkA.;,.;,LevI.(1964)..:821–837。

    [4].,利奥(1996)..(2):123–140。

    [5].(1988).,t(,)

    [6].Ho,(1995)..,,QC,14–.pp.278–282。

    [7].,L(1997)..

    [8].,.;n,,第 8 卷(1959),第 65–75 页。

    [9].,.(1966).:,1775–1953,().

    [10].,约翰;,(1972).els..()()135(3):370–384。

    [11].何特..,1998,(08):832-844.

    [12].;;(2008)...

    本文由作者投稿至36大数据,并由36大数据编辑出版。凡不注明作者、36大数据来源及本文链接的均属侵权。

    结尾。
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-7-11 05:25 , Processed in 0.077495 second(s), 18 queries .