数据挖掘商业案例(2)

2025-08-01

图2.1:数据理解的数据流图

图2.2显示了数据审核结果。可以很清楚地了解14个数据字段的基本情况。如数据类型、最大最小值、平均值、标准差、偏度、是否唯一、有效记录个数等。从图2.2可见,房贷客户的平均年龄是57.4岁,最小的18岁,最大的97岁。

图2.2:数据审核图

这些描述能帮助理解数据。使用绘图和直方图节点将数据可视化就产生了客户收入和年龄图及日均交易数的直方图(见图3)。将可视化的结果与目标变量联系起来,可以看出客户流失状态包含在不同的图表中。例如,客户的离中趋势,男性和女性客户的被动流失和主动流失以及每个级别的日均交易次数都包含在了图表中。这种对关系的初步评估对于建模是很有用的。更重要的是,结果表明主动流失在女性客户和不太活跃的客户(由日均交易次数确定)中较为多见。

6

图2.3:各种数据分布图

最后,一幅网状图表明了客户性别,客户婚姻状况,信用卡支付方式,客户流失状态之间的联系(见图3下左面板)。较强的关系由较粗的线表示。那些在一定标准(由用户定义)之下的联系则不包括在图中(例如在被动流失和选中的一些输入变量之间)。网状图表明现有客户(即非流动者)更多的是那些已婚男性,那些用其它账户进行信用卡支付的人。要注意的是,前面已经提到过,客户流失状态滞后输入变量六个月。

c) 关联分析及聚类的结果为了进一步了解房贷客户可以使用聚类。

图2.4总结了使用双步聚类节点获得的结果。如图所示,客户似乎分为七种自然的聚类。所产生的聚类特征可用来定义和理解每个聚类以及聚类间的区别。例如,我们比较聚类1和聚类4,聚类1中包含的是较年轻并绝大多数已婚(92.2%),并且年收入较高的女性。而聚类4中包含的是较年长(平均要比1中大5岁),59.8%已婚,年收入较低(平均要比1中低4000美元)的男性。聚类的结果对于市场定位和分割研究是非常有用的,但是对于预测建模的作用则没这么明显。

图2.4:两步聚类的部分结果

7

本例使用关联分析来制订规则,寻找输入变量和目标变量间的关系。这些规则不仅对发现模式、关系和趋势很重要,对于预测建模(例如决定采用/不采用哪些输入变量)也很重要。我们使用Clementine的GRI(广义规则归纳)节点来进行联合分析,结果如图2.5所示。其中,第一条联合分析规则表明,有156名(或11.0%的)房贷客户的投资账户余额低于4988美元,其中81.0%是被动流失的。同样,第三条规则表明有198名(或13.9%的)房贷客户的活期账户余额超过1017美元,其中81.0%是主动流失的。其它的规则可以类似地进行理解。这些规则表明交易和人口统计信息是如何与客户流失状态联系起来的。要注意的是,客户流失状态滞后输入变量六个月。

图2.5:关联分析的部分结果

3)数据准备

根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等。在本例中,利用Clementine进行数据准备的数据流图如图2.6所示。通过分裂节点,给数据集添加一个新的标志属性。该标志属性是0-16之间的随机数。然后再根据标志属性值(<4和)=4),利用过滤节点,将原来的数据样本分成训练集(约占75%)和测试集(约占25%)。

图2.6:数据准备的数据流图

(4)建立模型及评估

预测建模是本例中最重要的分析,神经网络和决策树尤其适用于对房贷客户的流失建模。图2.7和图2.8展示的是使用Clementine训练神经网络模型和建决策树功能得到的神经网络和决策树的结果。

8

图2.7:C5.0决策树结果

图2.8:神经网络模型结果

决策树模型中有4个终端节点和仅仅3个重要的输入变量(按照重要性降序排列):投资账户余额、客户性别和客户年龄。神经网络模型在输入层、隐藏层和输出层分别有15个、5个和3个神经元。此外,最终要的5个输入变量是(按照重要性降序排列):活期账户余额、客户孩子数目、储蓄账户余额、投资账户余额和客户婚姻状况。Logistic回归模型统计有效,卡方检验的p值为1.000,表明数据吻合得很好。此外,下列输入变量在统计时,在0.05的有效水平上预测客户流失状态也统计有效:储蓄账户余额c(p值=0.000)、活期账户余额(p值=0.000)、客户年龄(p值=0.002)、客户年收入(p值=0.033)及客户性别(p值=0.000)。

从用评估图节点产生的提升表中可以看出每个预测模型都是有效的,如图2.9所示(从左至右分别为Logistic回归、决策树和神经网络)。提升表中绘制的是累积提升值与样本百分比的关系(在这里是构造/培训样本)。基准值(即评估每个模型的底限)是1,它表示当从样本中随机抽取记录的百分点时能成功地“击中”现有客户。提示值衡量的是当来自数据中的某一记录是一个现有客户的降序预测概率能被百分点反映时,预测模型“击中”现有客户的成功可能性(准确度)

9

有多高。如图2.9(左)所示,每个模型的提升值均大于1,在100%时收敛于1。由于每个预测模型都能以有效精度预测目标变量(起码对于现有客户和非现有客户之间的关系),因此我们可以说它们都是有效的。

图2.9:提升图(左)和三个模型的分析结果(右)

值得注意的是神经网络和决策树得出的预测模型并不完全一致,这从图2.9(右)两个模型结果的比较可以看出来。所以,不仅要在训练样本中比较两个模型的表现,也要在训练/测试样本中进行比较,而后者更加重要。对于这些预测模型来说,评估它们相对表现的最佳办法应该是看它们预测目标变量(客户流失状态)的精确率。在本例中为了简单起见,假设总体精确度包括了比较不同预测模型表现的评估标准。在图2.10的右面板中,决策树模型的预测相对精确,总体精确度为81.6%,因此根据评估标准,决策树模型是最好的预测模型,应该在ZABNK预测房贷客户的流失中使用。

图2.10:测试集的提升表(左)和三个模型的分析结果(右)

(5)模型部署

在本例中,决策树模型不仅精度最高,而且从图2.7中的简明的规则可以看出,决策树的模型也容易理解。结果表明,ZBANK的房贷客户中,那些39岁以上,在投资帐户中余额超过4976美元的女性更可能主动流失。要注意的是,客户流失状态滞后输入变量六个月。从到目前位置的结果来看,决策树客户流失预测模型能够更精确地根据交易和人口统计的信息判断出流失客户和非流失客户,从而产生增值效益。因此,ZBANK可以用决策树模型判断哪些客户倾向于主动流失,然后向他们提供优惠措施或采取其它预防措施。同样,客户流失模型可以判断哪些是流失风险较低的房贷申请者。使用数据挖掘的决策树模型可以用来对现有客户和新的房贷申请者进行评级。在Clementine中部署模型的数据流图如图所示。运行数据流后,Clementine自动将结果存储在逗号分隔的文件中。银行中其他人员即使没有安装Clementine,也可以使用记事本等软件打开查看。并且可以很好的集成到银行现有的其他业务系统中。图2.12给出了一个结果的例子。其中按照客户流失概率的大小,对客户进行排序。

10


数据挖掘商业案例(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:三年级陈杯练习题必备

相关阅读
本类排行
× 游客快捷下载通道(下载后可以自由复制和排版)

下载本文档需要支付 7

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:xuecool-com QQ:370150219