有效地处理特征变量之间存在相互作用的情形,而且即使有些特征变量存在一定的数据缺失,该方法也能适用。分类树方法也有一些缺陷,如某些低端节点所包含的样本可能太少,从而使得在这些节点中所作的统计推断不可靠。 6)最近邻方法
也是一种非参数方法,其结果也是评分卡。它的思想是在申请人的特征向量空间内定义一种测度(距离)用于测量两个申请人之间的距离。当对一新申请人信用评估时,只要考察与他最近邻的k个人中“好客户”及“坏客户”的比例,根据此比例确定该申请人的信用类型。
在以上几种信用评分方法中,到目前为止应用最成功的还是Logistic回归方法,它已取代线性回归、判别分析法而成为信用评分领域使用最普遍的统计方法。
信用评分应用案例
(1)商业理解
某银行的业务人员希望根据零售系统中现有的数据,了解具有较高风险的住房贷款协议的特征,以及那些已经贷款的客户中风险高信用低的客户特征,从而为实际的业务处理过程中,对新申请贷款的客户进行评估提供参考依据。其业务问题就是“能否通过贷款申请人的特征和贷款申请内容的情况来判断该客户的风险度?”
对于这个业务问题,首先必须将客户的“风险”转换成可预测的数据指标。对于个贷业务来说,客户在申请某个贷款产品后可能会发生的违约概率可以作为衡量该客户“风险”重要的数据指标,违约概率越大,该客户的“风险”度也就越高。违约行为反应在业务数据中就是客户在贷款期限内发生了逾期情况,而逾期情况又可以从逾期的时长,逾期金额的大小,以及在贷款期限内,截止到统计时间为止的逾期次数等多个方面进行考量。例如将“还款逾期超过60天”作为客户发生违约的基本指标。相应的数据挖掘目标就是:违约客户的特征和预测;违约客户的评分和分级。
在本例中,我们将最大逾期时间不到30天并且有12期以上的交易记录的定义为好客户;最大逾期时间超过60天的为坏客户。显然,有些客户并不能确定为好客户,又不能确定为好客户。如最大逾期时间在30天到60天之间的客户。因此,在我们所选取的建模总体中,客户实际被分为三类:好客户、坏客户和未确定客户。
(2)数据理解
数据主要来源于以下几个方面: ?
? 贷款协议文件:客户与银行发生贷款业务关系时所签立的协议; ?
? 贷款协议还款计划表:报告当期的贷款协议还款计划和往期还款历史记录; ? ? 客户信息文件:客户基本信息,包含性别、年龄、婚姻状况等信息; ? ? 客户信息文件(个贷):客户附加信息,包括财产,工作,住址等信息。
首先将各分行的原始数据进行追加,并从客户历史交易记录中汇总出逾期信息。将客户信息,协议信息和逾期信息进行合并,生成全行数据。下面所进行的数据理解和数据处理都是在这个数据样本文件的基础上进行。
26
图5.1:数据理解
通过Clementine中的数据审核节点查看数据的分布图(直方图、条形图)、数据的基本统计信息(最大值、最小值、平均值、标准差和偏度)和数据中有效数据所占的比例等。在数据审核节点中会自动对数据进行抽样来提高分析的速度。
图5.2:使用Clementine数据审核节点查看数据的分布和基本统计信息
(3)数据准备
根据商业理解,我们选择住房贷款、选择合同开始年份在2003之后、还款周期为按月还款以及国家代码为中国的样本。选择好客户和坏客户样本,并进行均衡,均衡后的好坏客户占比基本相同,如图:
图5.3:客户类型分布图
通过对数据质量的检验发现抚养人口、劳动合同期限等字段由于缺失太多而无法清洗,考虑对这些字段进行剔除。而学历、单位性质、职位职称等字段可以将缺失值作为一个新的属性用在建模中。
27
在数据准备部分,根据业务经验,我们还派生了一些新的字段,例如:月总收入、月还款占总收入比例等。鉴于一些特征变量的分类过多,不利于建模处理,因此对这些集合变量考虑进行重新分类,对连续变量也可以进行离散化处理。如图是对贷款金额的分组,可以看出第1、3组的贷款人相对较优,而第2、4、6的则比较差。
图5.4:贷款金额分组
(4)建立模型
在本次建模中,主要使用Logistic回归、神经网络和C5.0分类树方法,从中挑选中最适合的模型用于评分和分级。不同的模型具有不同的优点和缺点,可以将不同的模型结合起来,充分利用各个模型的优点,从而得到一个更好的模型。
首先,使用神经网络和C5.0分类树方法分别建立信用评分模型;然后将这两个模型的评分结果作为解释变量之一,再加上其余的特征变量,最后建立一个基于Logistic回归的信用评分模型。由于神经网络和C5.0分类树方法的预测精确度比较高,因此其信用评分结果中应该综合了解释变量和因变量之间关系的更多信息,将这种信用评分结果作为解释变量之一,应该能够提高模型的精确度。而最终用Logistic回归建立模型,又保证了模型的稳健性。通过神经网络敏感性分析可以看出:分行和按揭成数在模型中是最重要的,这两个变量的分析结果要远大于其他变量。分行最重要进一步说明每个分行客户的特征差别很大,对全部分行统一建立模型必然会影响到模型的精确度。如果在各分行数据量足够的情况下,推荐对每个分行建立一个模型。也可以考虑将客户特征相似的分行划分为一类,对每类分行建立一个模型。
图5.5:神经网络敏感性分析
在C5.0模型生成的决策树中,按揭成数为第一个拆分的变量;对按揭成数为2的贷款人,还款方法为第二个拆分的变量 ;对按揭成数为3的贷款人,分行为第二个拆分的变量。可以看着三个字段在模型中是最重要。
28
图5.6:C5.0生成的规则集
我们通过主成分分析共生成5个因子,这5个因子包含了绝大部分特征信息。通过这5个因子建立模型在损失一小部分信息的基础上解决了共线性问题。以5个因子作为输入建立了Logistic回归模型,结果为:
图5.7:由主成分分析得到的因子
图5.8:Logistic回归模型
29
以Logistic模型预测为好客户的概率乘以1000作为模型的评分。模型的评分在0-1000之间,评分越高代表贷款人越优。按照模型评分从低到高的顺序将贷款人等分为10级,每级都有相同比例的贷款人,10级最优客户中好客户发生比为9.031,而1级最差客户中只有0.100。还可以对等级进行重新分组,合并具有相似好客户发生比的相邻客户等级。
图5.9:Logistic回归模型给出的评分和等级
(5)模型评估
一个好的数据挖掘模型,要经过多方面的评估。在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。在大多数的数据挖掘项目中,数据挖掘工程师要不止一次的应用某个特定的技术或者是利用不同的可选择的技术产生多种结果。因此在这一阶段的任务中,也要根据评估标准比较所有不同的结果。
精确度是用来评估模型的最简单和最基础的指标。使用分析节点可以方便的对多个模型同时进行计算和比较。神经网络模型、C5.0决策树模型和Logistic模型的精确度分别为77.99%、69.58%和73.15%。其中神经网络的预测精确度是最高的,但是会出现过度拟和的问题。Logistic回归模型对坏客户的预测是最好的,综合了3个模型的优点,既能保证精确度又能保证模型的稳健性。
图5.10:神经网络、C5.0和Logistic回归模型的精度比较
从3个模型的收益图上可以看出,神经网络要略微优于C5.0决策树和Logistic回归。对于Logistic回归模型来说,找出的20%的客户中就可以发现35%的坏客户,30%的客户中就可以发现50%的坏客户。 K-S统计量是一个易于理解和计算的统计量,它是好客户分布累计百分比与坏客户分布累计百分比之差,也就是区分度的最大值。下图是Logistic模型的K-S曲线,当模型的评分在412.585时,两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530,好客户百分比为19.572。模型的K-S统计量为46.975,在41-50之间,根据经验准则,这是一个好的模型。
30