数据挖掘商业案例(5)

2025-08-01

图4.5:部分数据流图

使用C5.0决策树对是否响应建模,发现与客户响应相关的共有4条规则,与客户不响应相关的共有8条规则。响应的客户有如下特点:有孩子,相对收入大于49997元;或者有孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没孩子,没贷款,收入小于25563元。

图4.6:C5.0决策树分类结果

神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。此外,最重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。其估计精度达到了87.77%。

21

图4.7:神经网络的输出结果

使用C&RT对是否响应建模,得到的规则包括:当相对收入小于25564.5元时,客户倾向于不响应;当相对收入大于25564.5元,孩子数目小于等于0.5(需根据实际业务情况进行解释),没有抵押贷款,且年龄小于等于45时,倾向于不响应;当收入大于25564.5元,孩子数目小于等于0.5,没有抵押贷款,且年龄大于45的客户响应率高。

使用测试集评估不同模型的表现。其中“客户响应”表示目标变量的真实值,$C-响应、$N-响应、$R-响应分别表示使用C5.0、神经网络、C&RT得到的预测值。可见,C5.0的预测精度(95.29%)最高。最后,还可以查看不同模型预测结果的一致性。

图4.8:C&RT分类结果

22

图4.9:模型评估

(5)模型部署

通过建模和评估后,选择预测精度最高的C5.0模型部署到企业中。新的用户数据在经过C5.0模型评分后,按照流失概率的高低排序,通过Clementine Solution Publisher发布。

图4.10:模型部署数据流图

图4.11:对新数据进行评分

5.信用评分

23

信用评分背景

20世纪90年代以来,随着中国经济的快速发展,中国的信用消费已逐步浮出水面,信用卡消费、个人汽车贷款、耐用消费品贷款、助学贷款、住房按揭等各种个人消费贷款陆续开办。中国银行业资产规模进一步得到扩张,但信贷过快增长中潜在风险增大,不良贷款比率仍偏高并可能反弹。进一步加强信贷管理已经成为银行控制风险、保持规模增长的首要问题。自1998年起,商业银行就一直在强化信贷管理、规范信贷决策行为、防范信贷风险,并取得了一定的成绩,但仍存在一些比较突出的问题。主要表现在:

第一,对借款人的信用状况缺乏较全面的了解。由于我国的征信体系的建设尚处于起步阶段,商业银行不能像国外发达国家那样从征信局取得贷款申请人的信用资料,使得银行不能全面了解贷款申请人的信用状况,在发放个人贷款时信息不对称的问题相当突出。

第二,对个人信用评价缺乏科学的方法。在对贷款人的信用风险进行评估以及决定是否发放贷款时,主要依靠授信机构的信贷人员进行主观判断,从而决定是否给予某个消费者一定的信用消费权利,精确的信用评分方法几乎没有使用。个人信贷业务的特点是单笔业务的交易量较小,但是业务的数量却较大。因此,主要依赖信贷人员判断的信用评估和控制方法,不仅无法对个人信用程度进行精确的计量,而且无法对个人信用程度进行精确的计量,而且无法有效地降低单笔贷款的管理成本。

国际银行业信贷风险管理工具框架最为基础和核心的工作是建设信贷风险内部评级模型,只有在利用风险评级工具精确衡量风险的基础上,才能有效地运用更为复杂的信贷风险管理工具。这正是我国银行业所缺乏的。个人消费信贷的快速增长迫切要求商业银行提高建立与消费信贷增长相适应的风险管理体系。

信贷风险内部评级模型的建立可以选择多种方式。在选择建立模型的方式时,必须遵循循序渐进的原则。例如,在数据质量不足和信贷文化较为落后的条件下,应该采取较为保守的方式作为起点,例如专家经验模型或采用外部的评级模型。在使用这些模型的过程中,除了能够更精确的衡量信贷风险从而优化银行资产质量外,而且客户经理也能够逐步掌握模型的应用技巧,培养起信贷风险管理文化,为以后实施数量统计模型做准备。随着银行个人业务的发展,银行业已经积累了大量的数据,可以尝试自建数量统计模型,以挖掘出适合国内经济环境和银行自身情况的风险因素。

信用评分的概念

信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信用分数。根据客户的信用分数,授信者可以分析客户按时还款的可能性。据此,授信者可以决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。

在信用评分领域有两个非常重要的方面:

客户信用资料的收集:是指在信用消费中,通过调查了解申请授信的消费者个人的信用信息。

利用信用评分模型进行评分:是指输入客户信用资料,通过信用评分模型得到客户的信用分数,确定客户的信用等级。

信用评分的方法

在信用评分的过程中,最关键的就是信用评分模型的构建。用来产生信用评分的模型不胜枚举,每一种模型均有其独特的规则。在此,我们主要介绍信用评分模型的构建方法。

信用评分模型的基本原理是确定影响违约概率的因素,然后给予权重,计算其信用分数。信用评分模型的构建,目前最为有效的手段是数据挖掘。下面对数据

24

挖掘的定义进行简单介绍,并重点描述利用数据挖掘技术构建信用评分模型的步骤和方法。

(1)信用评分模型构建步骤

利用数据挖掘技术构建信用评分模型一般可以分为6个步骤,它们分别是:商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。 1)商业理解:明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键。例如,确定项目的目的是构建个人住房贷款的信用评分模型。

2)数据理解:在给定数据挖掘商业目标的情况下,下一个步骤是寻找可以解决和回答商业问题的数据。构建信用评分模型所需要的是关于客户的大量信息,应该尽量收集全面的信息。所需要的数据可能是业务数据,可能是数据库/数据仓库中存储的数据,也可能是外部数据。如果没有所需的数据,那么数据收集就是下一个必需的步骤。如果银行内部不能满足构建模型所需的数据,就需要从外部收集,主要是从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到。接着要对收集的数据进行筛选,为挖掘准备数据。在实际项目中,由于受到计算处理能力和项目期限的限制,在挖掘项目中想用到所有数据是不可能实现的。因此数据筛选是必不可少的。数据筛选考虑的因素包括数据样本的大小和质量。一旦数据被筛选出来,成功的数据挖掘的下一步是数据质量检测和数据整合。目的就是提高筛选出来数据的质量。如果质量太低,就需要重新进行数据筛选。

3)数据准备:在选择并检测了数据挖掘需要的数据、格式或变量后,在许多情况下数据转换非常必要。数据挖掘项目中的特殊转换方法取决于数据挖掘类型和数据挖掘工具。一旦数据转换完成,即可开始挖掘工作。

4)建立模型:在时间或其它相关条件(诸如软件等)允许的情况下,最好能够尝试多种不同的挖掘技巧来建立模型。因为使用越多的数据挖掘技巧,可能就会解决越多的商业问题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行检测。例如:在构建信用评分模型时,分类可以通过三种方法来实现:决策树、神经网络和Logistic回归,每一种方法都可能产生出不同的结果。如果多个不同方法生成的结果都相近或相同,那么挖掘结果是很稳定、可用度非常高的。如果得到的结果不同,在使用结果制定决策前必须查证问题所在。

5)模型评估和结果解释:数据挖掘之后,应该根据零售贷款业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果。

6)模型部署:数据挖掘关键问题,是如何把分析结果即信用评分模型转化为商业利润。通过数据挖掘技术构建的信用评分模型,有助于银行决策层了解整体风险分布情况,为风险管理提供基础。当然,其最直接的应用就是将信用评分模型反馈到银行的业务操作系统,指导零售信贷业务操作。

(2)信用风险评分模型构建方法

信用评分模型是根据过去信用记录和个人资料进行数据分析,描述影响个人信用水平的因素,从而帮助贷款机构发放消费信贷的一整套决策模型。信用评分的目的是为了帮助银行决策,使银行确定对特定的客户采取特定的行动,它采用的技术主要是数理统计和人工智能的有关技术,信用评分方法很多,而且随着技术的发展和业务上的要求,新的评分技术也在不断推出,这里我们概要介绍其中几种。 1)判别分析法

该方法在个人信用评分历史上曾经是使用最广泛的方法。它通过利用所建立的判别函数的系数对特征变量加权来确定个人的信用得分。最早将判别分析用于信用评分系统的是Durand(1941)。它的特点是:要求特征变量服从多元正态分布,且两类子总体的协方差矩阵相等。在实际消费信用数据中,这些条件往往不易满足。这是判别分析引起质疑和批评的主要原因。 2)回归分析法

线性回归方法,普通的线性回归曾被用于解决信用评分中的分类问题,它产生的也是一个线性评分卡。但是线性回归方法用于信用评分时存在明显缺陷,即回归方程两边变量的取值范围可能不一致:右边取值可以从负无穷到正无穷,但方程的左边是概率变量p,其取值范围只能在(0,1)范围内。如果等式左边变换成p的一函数,它可以取任意值,则模型更有意义,于是,对线性回归进行改进而形成的Logistic回归方法就成为信用评分模型中使用最广泛的方法之一。 Logistic回归模型克服了线性回归模型的缺陷,其回归方程两边的值均可取任意值。就理论背景而言,人们会认为在信用评分中Logistic回归比线性回归更合适,而Logistic也是现实中应用最广的评分模型。 3)数学规划方法

该方法通过研究对客户信用有影响的各个因素并确定它们的权重,把客户分为好、坏两类,从而建立一个线性规划方程,目的是使得方程误差最小,它也产生一个线性评分卡。绝大部分文献认为线性规划方法与统计学方法效果相当。 4)神经网络方法

神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,具有自组织性、自适应性及较强的稳健性。神经网络模型类型较多,不下数十种。Chen& Titterington(1994)认为,神经网络方法实际上可以看作一种非线性回归。该方法可能存在过度拟合的问题。Davis(1992)也比较过神经网络与其他方法,认为神经网络能很好地处理数据结构不太清楚的情况,但其训练样本时间较长。此外,其可解释性较差也受到质疑。 5)分类树方法

分类树方法最后不生成一个评分卡,而是将消费者分成不同的组,在组内各样本的违约概率尽量相等,而违约概率在组之间的差异则尽可能大。其特点是能更

25


数据挖掘商业案例(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:三年级陈杯练习题必备

相关阅读
本类排行
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 7

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219