基于多模型融合的互联网信贷个人信用评估方法

基于多模型融合的互联网信贷个人信用评估方法

近些年,随着互联网金融的不断发展,我国的信贷体系也发生了很大变化,出现了P2P网络借贷、微额小贷和消费分期付等互联网信贷形式

管理员 2024-4-19
信息详情


  近些年,随着互联网金融的不断发展,我国的信贷体系也发生了很大变化,出现了P2P网络借贷、微额小贷和消费分期付等互联网信贷形式.信用风险是互联网信贷的最大风险,而由十我国的社会信用体系建设起步较晚,尚处十发展中,资金方与网络信贷用户存在信息不对称问题,导致用户很难借贷成功。随着大数据技术的进步,基十数据挖据算法的个人信用评估模型为互联网信贷机构风控管理提供了可能。


  与传统个人信贷评估数据不同,互联网个人信贷信用评估所用数据通常具备以下3个特点:(1)数据来源更多儿,涵盖用户日常生活的方方面面,主要包括个人基本信息、银行信用类信息、通讯运营商信息、电商支付类信息及社交网络类信息这五大维度数据;(2)指标维度更高维,庞大的互联网数据造成样本变量数目出现爆炸性增长,达成千上万维,有价值信息密度变低;(3)数据模型更新更及时,时刻处在动态变化中,着重近期和正在发生的数据.随着大数据技术在信用评分领域的发展,我们可以充分运用大数据技术对海量数据进行处理、匹配及整合,从中发掘出有用的信用信息,进而提高信用评分的准确性。

  采用国内某互联网小额信贷平台真实数据作为研究样本集,主要采集了用户基本信息、通讯运营商信息和社交网络类信息等.为了用户及平台隐私,样本数据已做脱敏处理.本数据集共有巧000个样本,正负样本比为9:1.每个样本包含1 138维特征,其中1 045维是数值特征,93维是类别特征.为了检测模型的泛化能力,从原数据集中随机取12 000个样本为训练集,剩余3 000个样本为测试集.

  从统计上来说,原始特征仅仅是真实特征分布在低维空间的映射,不足以描述真实分布,若加入组合特征,则能在更高维空间拟合真实分布,同时兼顾全局模型和个性化模型,使得预测更准确.本文对任意两原始特征a,b进行a-b, a+b, axb, alb和aZ +bZ等5种组合,计算其与标签列的皮尔逊相关系数;对任意3个原始特征计算(a-b) x。与标签列的皮尔逊相关系数,最终选择每类组合中排名前200位的特征加入到训练特征中.因为连续特征的离散化对异常数据有很强的鲁棒性,能够使模型更稳定,所以将原始数据中所有连续的数值特征进行等量离散化到10个区间,用1一10表示,添加至训练数据集.


  模型融合是一种以增加算法的多样性、减少泛化误差来提高模型准确率的强有力技术,分为Stac-king , B lending和Voting等思路[i 37.模型融合有2个基本要素:一是单一模型之间的相关性要尽可能小,二是单一模型之间的性能表现相差不大.在实践中,往往是相关系数较低且性能较好的单一模型融合之后能明显改善最终的预测结果「ia-isl.本文中随机森林是Bagging型算法,XGBoost是Boosting型算法.Bagging主要关注降低方差,而Boosting主要关注降低偏差.这是2种完全不同的集成树学习策略.另外,支持向量机不属十集成学习,它是一种基十结构风险最小化的机器学习算法.可见本文3种单一算法具备很好的多样性,相关性较小,性能最终表现也较为接近,符合模型融合对单一模型的要求。

  Stacking的基本思想是使用大量基分类器,然后使用另一种顶层分类器来融合基分类器的预测,旨在降低泛化误差.相对十Stacking Blending更加简单,用不相交的数据训练不同的基模型,将基模型的输出取平均。

  信用评估对互联网个人信贷风险控制至关重要,本文根据互联网信用数据的特点,基十支持向量机、随机森林和XGBoost分别建立了预测模型,并对3种单一模型进行投票加权融合.采用F,分数和AUC值对模型表现进行对比,实验结果表明:XG-Boost模型表现优十SVM和RF,投票融合模型的预测结果比单一模型更好,评分精确度更高,更适用十互联网信贷个人信用的评估.

点击排名

版权所有 @ 知互网