金融行业应用

1.前言

随着中国加入WTO,国内金融市场正在逐步对外开放,外资金融企业的进入在带来先进经营理念的同时,无疑也加剧了中国金融市场的竞争。金融业正在快速发生变化。合并、收购和相关法规的变化带来了空前的机会,也为金融用户提供了更多的选择。节约资金、更完善的服务诱使客户转投到竞争对手那里。即便是网上银行也面临着吸引客户的问题,最有价值的客户可能正离您而去,而您甚至还没有觉察。在这样一种复杂、激烈的竞争环境下,如何才能吸引、增加并保持最好的客户呢?

数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。 SPSS使用统计分析和数据挖掘解决商务问题。预测技术帮助商业和公共部门的客户做出更好的决策,获得更好的成果。SPSS的软件和服务在一系列应用中得到成功的使用,包括客户吸引和保留、交叉销售、调查研究、欺诈侦测、网站性能、预报以及科研等方面。SPSS拥有一系列在市场上领先的产品,包括SPSS for Windows、Clementine和Amos等。

SPSS金融业分析方案可以帮助银行和保险业客户进行交叉销售来增加销售收入、对客户进行细分和细致的行为描述来有效挽留有价值客户、提高市场活动的响应效果、降低市场推广成本、达到有效增加客户数量的目的等。


客户细分―使客户收益最大化的同时最大程度降低风险

市场全球化和购并浪潮使市场竞争日趋激烈,新的管理需求迫切要求金融机构实现业务革新。为在激烈的竞争中脱颖而出,业界领先的金融服务机构正纷纷采用成熟的统计分析和数据挖掘技术,来获取有价值的客户,提高利润率。他们在分析客户特征和产品特征的同时,实现客户细分和市场细分。

SPSS帮助您实现客户价值的最大化和风险最小化。SPSS预测分析技术能够适应用于各种金融服务,采用实时的预测分析技术,分析来自各种不同数据源-来自ATM、交易网站、呼叫中心以及相关分支机构的客户数据。采用各种分析技术,发现数据中的潜在价值,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。


客户流失―挽留有价值的客户

在银行业和保险业,客户流失也是一个很大的问题。例如,抵押放款公司希望知道,自己的哪些客户会因为竞争对手采用低息和较宽松条款的手段而流失;保险公司则希望知道如何才能减少取消保单的情况,降低承包成本。

为了留住最有价值的客户,您需要开展有效的保留活动。然而,首先您需要找出最有价值的客户,理解他们的行为。有了Clementine,您可以在整个客户群的很小一部分中尽可能多地找出潜在的流失者,从而进行有效的保留活动并降低成本。接着您可以用Clementine的模型按照客户的价值和流失倾向给客户排序,找出最有价值的客户。


交叉销售

在客户关系管理中,交叉销售是一种有助于形成客户对企业忠诚关系的重要工具,有助于企业避开“挤奶式”的饱和竞争市场。由于客户从企业那里获得更多的产品和服务,客户与企业的接触点也就越多,企业就越有机会更深入地了解客户的偏好和购买行为,因此,企业提高满足客户需求的能力就比竞争对手更有效。

研究表明,银行客户关系的年限与其使用的服务数目、银行每个账户的利润率之间,存在着较强的正相关性。企业通过对现有客户进行交叉销售,客户使用企业的服务数目就会增多,客户使用银行服务的年限就会增大,每个客户的利润率也随着增大。

SPSS帮助您从客户的交易数据和客户的自然属性中寻找、选择最有可能捆绑在一起销售的产品和服务,发现有价值的产品和服务组合,从而有效地向客户提供额外的服务,提高活期收入并提升客户的收益率。


欺诈监测

通过侦测欺诈、减少欺诈来降低成本。为了与欺诈活动作斗争,首先您需要预测欺诈在何时、何地发生。Clementine使用数据挖掘技术侦测在欺诈中常见的模式,预测欺诈活动将在哪里发生。

对于银行业的公司来说,欺诈活动频繁发生的一个领域是自动取款机(ATM)。数据挖掘帮助公司预测欺诈性的ATM交易。银行可以使用Clementine来预测欺诈最有可能在哪个地理位置上发生。接着该信息就被传送给ATM网络的成员机构,由这些机构通知客户,让客户确定交易是否正当,从而避免发生更多的欺诈行为。有了这些信息,他们可以更快地冻结帐户或采取其它必要的手段。


开发新客户

金融机构可以使用数据挖掘技术提高市场活动的有效性。银行部门使用Clementine对给出反馈的活动对象进行分析,使之变成新的客户。这些信息也可应用到其它客户,以提高新的市场活动的反馈率。


降低索赔

保险公司都希望减少索赔的数量。有了Clementine,您可以使用聚类分析,根据现有客户的特征档案来找出哪些客户更有可能提出索赔请求。这些档案是通过对客户提取200至300个不同的变量而产生出来的。接着,您就可以针对那些可能提出较少索赔请求的客户开展获取活动。


信用风险分析

传统的风险管理已无法有效控制跨区域、跨部门、跨行业的多种风险,利用科学的数据分析系统提高欺诈的防范,降低信用风险尤为重要。SPSS会帮助客户科学评估造成风险的因素,有效规避风险,建立完善的风险防范机制。


2.客户流失

随着金融体制改革的不断深化和金融领域的对外开放,我国金融行业的竞争日趋激烈。《2006年金融服务指数研究报告》显示,在我国金融业逐步对外资行业开放的今天,中国金融业的服务质量虽然有稳步提升,但总体仍需提高,中资银行面临着极大的优质客户流失的危险。这将对银行经营和效益产生极大的影响。除了提高服务质量,银行要加强营销活动,保留优质客户,首先面临的第一个问题就是,谁可能流失?应该针对哪些客户进行客户保留活动?针对所有的客户开展保留活动,成本太大。合理的做法是应用数据挖掘技术,研究流失客户的特征,从而对流失进行预测、并对流失的后果进行评估,采取客户保留措施,防止因客户流失而引发的经营危机,提升公司的竞争力。

具体来说,客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。客户流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础,通过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销策略,采取针对性措施,开展客户挽留工作。

客户流失需要解决的问题

1)哪些现有客户可能流失?
客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。

2) 现有客户可能在何时流失?
如果某一客户可能流失,他会在多长时间内流失。

3) 客户为什么流失?
哪些因素造成了客户的流失,客户流失的重要原因是什么。主要对引起客户流失的诸因素进行预测和分析。

4) 客户流失的影响?
客户流失对客户自身会造成什么影响?
客户流失对公司的影响如何?
对可能流失客户进行价值评估,该客户的价值影响了运营商将要付出多大的成本去保留该客户。

5) 客户保留措施?
针对公司需要保留的客户,制定客户和执行保留措施。


客户流失的类型

为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展客户保留活动。客户流失现象可以分为以下三种情况:

1)公司内客户转移:客户转移至本公司的不同业务。主要是增加新业务,或者费率调整引发的业务转移,例如从活期存款转移至零存整取,从外汇投资转移至沪深股市投资。这种情况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公司整体而言客户没有流失。

2)客户被动流失:表现为金融服务商由于客户欺诈等行为而主动终止客户与客户的关系。这是由于金融服务商在客户开发的过程中忽视了客户质量造成的。

3)客户主动流失:客户主动流失可分为两种情况。一种是客户不再使用任何一家金融服务商的业务;另一种是客户选择了另一家服务商,如客户将存款从一家银行转移到另一家银行。客户主动流失的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服务价值低于另一家服务商。这可能是客户对公司的业务和服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。


如何进行客户流失分析?

对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确定义何为流失,进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的,它是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个核心变量:财务原因/非财务原因,主动流失/被动流失。对不同的流失客户按该原则加以区分,进而制定不同的流失标准。例如,非财务原因主动流失的客户往往是高价值的客户,他们会正常支付服务费用并容易对市场活动有所响应,这种客户是企业真正需要保留的客户。而对于非财务原因被动流失的客户,预测其行为的意义不大。

研究哪些客户即将流失,是一个分类问题。将现有客户分为流失和不流失两类,选择适量的流失客户和未流失客户的属性数据组成训练数据集,包括:客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息等。Clementine提供人工神经网络、决策树、Logistic回归等模型用于建立客户流失的分类模型。

关于流失用户特征的分析,是一个属性约减和规则发现问题。Clementine提供关联分析方法,可以发现怎样的规则导致客户流失。也可以利用Clementine的决策树方法,发现与目标变量(是否流失),关系最为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征。因此,在进行深入的客户流失分析时,需要先进行客户细分,再对细分之后的客户群分别进行挖掘。

在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么它可能什么时候会流失。生存分析可以解决这类问题。生存分析不仅可以告诉分析人员在某种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变化,当生存率达到一定的阈值后,客户就可能流失。

分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分析。客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户流失的动机,是价格因素还是为了追求更好的服务等。这方面内容丰富,需作具体分析。

分析客户流失对公司的影响时,不仅要着眼于对收入的影响,而且要考虑其它方面的影响。单个的客户流失对公司的影响可能是微不足道的,此时需要研究流失客户群对公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析,归纳客户流失的原因,有针对性的制定防止客户流失的措施。

在预测出有较大流失可能性的客户后,分析该客户流失对公司的影响。评估保留客户后的收益和保留客户的成本。如果收益大于成本,客户是高价值客户,则采取措施对其进行保留。至于低价值客户,不妨任其流失甚至劝其流失。

总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业务目标的基础上准备数据、建模、模型评估,最后将模型部署到企业中。


客户流失应用案例

为了举例说明,我们设想一个虚构的银行ZBANK使用保留客户的应用或客户流失建模。ZBANK正受到来自其它金融机构日益激烈的竞争。住房贷款是ZBANK最宝贵的客户来源之一,在该业务中遇到一些客户会转投其它竞争对手。在营销策略方面,ZBANK给它的房贷新客户许多的优惠措施(如免费的电器和家具优惠券),因此它获得客户的初始成本相对要高于竞争对手。但是,由于此类贷款由市场主导,因此房屋抵押贷款给ZBANK带来较小的风险,同时也使其处于一个有利的战略地位可以交叉销售其它的服务如期房贷款和住房保险。

除了保持其战略性市场主导地位,对于ZBANK来说预测客户流失的可能性也很重要,以便减少那些获得不久就拖欠贷款的新客户。ZBANK有一个客户数据库,包含了有关房贷客户的交易和人口统计信息。

(1)商业理解
预测现有用户中哪些客户在未来六个月中可能流失以及对哪些流失客户采取保留措施。

(2)数据理解

a) 数据说明
选取一定数量的客户(包括流失的和未流失的),选择客户属性,包括客户资料、客户账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户流失。所选取的数据属性包括:
(1)客户号;
(2)储蓄账户余额;
(3)活期账户余额;
(4)投资账户余额;
(5)日均交易次数;
(6)信用卡支付方式;
(7)是否有抵押贷款;
(8)是否有赊账额度;
(9)客户年龄;
(10)客户性别;
(11)客户婚姻状况;
(12)客户孩子数目;
(13)客户年收入;
(14)客户是否有一辆以上汽车;
(15)客户流失状态。

其中客户流失状态有三种属性:
(1)被动流失;
(2)主动流失,这是分析中特别关注的一类客户;
(3)未流失。

在分析中,我们主要关注的是主动流失的客户。被动流失对银行来说是意义最小的,因为该指标代表的大多数客户是在贷款期内卖掉了房子,因此不再需要房贷了。主动流失指的是转投向ZBANK竞争对手的客户,是该行关注的焦点。

在开发这个应用之前,ZBANK将所有现有的客户归到上述的三个类别中。同时按照常规,所有的人口统计信息(也就是从客户年龄到客户是否有一辆以上汽车)每六个月更新一次,而交易信息(从储蓄账户余额到是否有赊账额度)则是实时更新的。为了让预测模型能预先进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自变量)之间设定了6个月的延迟。也就是说,输入变量的采集六个月后再将客户流失状态分类;因此该模型提早6个月预测客户流失。

b) 数据描述及图表分析
在数据理解中,可以利用描述及可视化来帮助探索模式、趋势和关系。图2.1显示了Clementine中数据理解的数据流图,包括:使用数据审核,统计分析,网络图,直方图,两步聚类,关联分析,查看数据属性之间的关系。
   

图2.1:数据理解的数据流图

图2.2显示了数据审核结果。可以很清楚地了解14个数据字段的基本情况。如数据类型、最大最小值、平均值、标准差、偏度、是否唯一、有效记录个数等。从图2.2可见,房贷客户的平均年龄是57.4岁,最小的18岁,最大的97岁。
   

图2.2:数据审核图

这些描述能帮助理解数据。使用绘图和直方图节点将数据可视化就产生了客户收入和年龄图及日均交易数的直方图(见图3)。将可视化的结果与目标变量联系起来,可以看出客户流失状态包含在不同的图表中。例如,客户的离中趋势,男性和女性客户的被动流失和主动流失以及每个级别的日均交易次数都包含在了图表中。这种对关系的初步评估对于建模是很有用的。更重要的是,结果表明主动流失在女性客户和不太活跃的客户(由日均交易次数确定)中较为多见。
   

图2.3:各种数据分布图
最后,一幅网状图表明了客户性别,客户婚姻状况,信用卡支付方式,客户流失状态之间的联系(见图3下左面板)。较强的关系由较粗的线表示。那些在一定标准(由用户定义)之下的联系则不包括在图中(例如在被动流失和选中的一些输入变量之间)。网状图表明现有客户(即非流动者)更多的是那些已婚男性,那些用其它账户进行信用卡支付的人。要注意的是,前面已经提到过,客户流失状态滞后输入变量六个月。

c) 关联分析及聚类的结果 为了进一步了解房贷客户可以使用聚类。
图2.4总结了使用双步聚类节点获得的结果。如图所示,客户似乎分为七种自然的聚类。所产生的聚类特征可用来定义和理解每个聚类以及聚类间的区别。例如,我们比较聚类1和聚类4,聚类1中包含的是较年轻并绝大多数已婚(92.2%),并且年收入较高的女性。而聚类4中包含的是较年长(平均要比1中大5岁),59.8%已婚,年收入较低(平均要比1中低4000美元)的男性。聚类的结果对于市场定位和分割研究是非常有用的,但是对于预测建模的作用则没这么明显。
   

图2.4:两步聚类的部分结果
本例使用关联分析来制订规则,寻找输入变量和目标变量间的关系。这些规则不仅对发现模式、关系和趋势很重要,对于预测建模(例如决定采用/不采用哪些输入变量)也很重要。我们使用Clementine的GRI(广义规则归纳)节点来进行联合分析,结果如图2.5所示。其中,第一条联合分析规则表明,有156名(或11.0%的)房贷客户的投资账户余额低于4988美元,其中81.0%是被动流失的。同样,第三条规则表明有198名(或13.9%的)房贷客户的活期账户余额超过1017美元,其中81.0%是主动流失的。其它的规则可以类似地进行理解。这些规则表明交易和人口统计信息是如何与客户流失状态联系起来的。要注意的是,客户流失状态滞后输入变量六个月。
   
图2.5:关联分析的部分结果
3)数据准备
根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等。在本例中,利用Clementine进行数据准备的数据流图如图2.6所示。通过分裂节点,给数据集添加一个新的标志属性。该标志属性是0-16之间的随机数。然后再根据标志属性值(<4和)=4),利用过滤节点,将原来的数据样本分成训练集(约占75%)和测试集(约占25%)。
   
图2.6:数据准备的数据流图
(4)建立模型及评估
预测建模是本例中最重要的分析,神经网络和决策树尤其适用于对房贷客户的流失建模。图2.7和图2.8展示的是使用Clementine训练神经网络模型和建决策树功能得到的神经网络和决策树的结果。
   
图2.7:C5.0决策树结果
   
图2.8:神经网络模型结果
决策树模型中有4个终端节点和仅仅3个重要的输入变量(按照重要性降序排列):投资账户余额、客户性别和客户年龄。神经网络模型在输入层、隐藏层和输出层分别有15个、5个和3个神经元。此外,最终要的5个输入变量是(按照重要性降序排列):活期账户余额、客户孩子数目、储蓄账户余额、投资账户余额和客户婚姻状况。Logistic回归模型统计有效,卡方检验的p值为1.000,表明数据吻合得很好。此外,下列输入变量在统计时,在0.05的有效水平上预测客户流失状态也统计有效:储蓄账户余额c(p值=0.000)、活期账户余额(p值=0.000)、客户年龄(p值=0.002)、客户年收入(p值=0.033)及客户性别(p值=0.000)。

从用评估图节点产生的提升表中可以看出每个预测模型都是有效的,如图2.9所示(从左至右分别为Logistic回归、决策树和神经网络)。提升表中绘制的是累积提升值与样本百分比的关系(在这里是构造/培训样本)。基准值(即评估每个模型的底限)是1,它表示当从样本中随机抽取记录的百分点时能成功地“击中”现有客户。提示值衡量的是当来自数据中的某一记录是一个现有客户的降序预测概率能被百分点反映时,预测模型“击中”现有客户的成功可能性(准确度)有多高。如图2.9(左)所示,每个模型的提升值均大于1,在100%时收敛于1。由于每个预测模型都能以有效精度预测目标变量(起码对于现有客户和非现有客户之间的关系),因此我们可以说它们都是有效的。
   
图2.9:提升图(左)和三个模型的分析结果(右)
值得注意的是神经网络和决策树得出的预测模型并不完全一致,这从图2.9(右)两个模型结果的比较可以看出来。所以,不仅要在训练样本中比较两个模型的表现,也要在训练/测试样本中进行比较,而后者更加重要。对于这些预测模型来说,评估它们相对表现的最佳办法应该是看它们预测目标变量(客户流失状态)的精确率。在本例中为了简单起见,假设总体精确度包括了比较不同预测模型表现的评估标准。在图2.10的右面板中,决策树模型的预测相对精确,总体精确度为81.6%,因此根据评估标准,决策树模型是最好的预测模型,应该在ZABNK预测房贷客户的流失中使用。
   
图2.10:测试集的提升表(左)和三个模型的分析结果(右)
(5)模型部署
在本例中,决策树模型不仅精度最高,而且从图2.7中的简明的规则可以看出,决策树的模型也容易理解。结果表明,ZBANK的房贷客户中,那些39岁以上,在投资帐户中余额超过4976美元的女性更可能主动流失。要注意的是,客户流失状态滞后输入变量六个月。从到目前位置的结果来看,决策树客户流失预测模型能够更精确地根据交易和人口统计的信息判断出流失客户和非流失客户,从而产生增值效益。因此,ZBANK可以用决策树模型判断哪些客户倾向于主动流失,然后向他们提供优惠措施或采取其它预防措施。同样,客户流失模型可以判断哪些是流失风险较低的房贷申请者。使用数据挖掘的决策树模型可以用来对现有客户和新的房贷申请者进行评级。在Clementine中部署模型的数据流图如图所示。运行数据流后,Clementine自动将结果存储在逗号分隔的文件中。银行中其他人员即使没有安装Clementine,也可以使用记事本等软件打开查看。并且可以很好的集成到银行现有的其他业务系统中。图2.12给出了一个结果的例子。其中按照客户流失概率的大小,对客户进行排序。
   
图2.11:模型部署的数据流图
   
图2.12:流失概率和客户价值的散点图
最后需要指出的是在本例中,模型的总体分类精确率是简化计算的。在实际使用中,一般还需要考虑误分类及其相关成本,还有流失客户和非流失客户在样本和总体中的相对比重。

3.客户细分

信用风险分析

随着金融市场逐步开放,商业银行和保险公司面临着巨大的压力和挑战。面对竞争和挑战、重点是做好客户市场细分,有效发掘客户需求,提供客户差异化服务。一个银行的客户是多种多样的,各个客户的需求也是千变万化的,银行不可能满足所有客户所有的需求,这不仅是由银行自身条件所限制,而且从经济效益方面来看也是不足取的,因而银行应该分辨出它能有效为之服务的最具吸引力的市场,扬长避短,而不是四面出击。对一个银行来说,在经营管理中应用市场细分理论是很有必要的。


客户细分的概念

客户细分的概念是美国市场学家温德尔?史密斯(Wendeii R.Smith)于20世纪50年代中期提出来的。

客户细分(Customer Segmentation)是指按照一定的标准将企业的现有客户划分为不同的客户群。客户细分是客户关系管理的核心概念之一,是实施客户关系管理重要的工具和环节。Suzanne Donner认为:正确的客户细分能够有效地降低成本,同时获得更强、更有利可图的市场渗透。通过客户细分,企业可以更好地识别不同客户群体对企业的价值及其需求,以此指导企业的客户关系管理,达到吸引合适客户,保持客户,建立客户忠诚的目的。

所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下,根据客户的价值、需求和偏好等综合因素对客户进行分类,分属于同一客户群的消费者具备一定程度的相似性,而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有:

(1) 客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户,客户需求的异质性是进行客户细分的内在依据。

(2) 消费档次假说。随着经济的发展和消费者收入水平的提高,消费量会随之增加。但消费量的增加并非线性增长,而是呈现出区间性台阶式的变化形式,一旦消费者达到某种消费层次之后,消费变化的趋势将变得非常平缓。根据消费档次假说,消费者的消费档次或消费习惯在一段时期内是相对稳定的,这就为通过消费行为来划分消费群体提供了理论前提和基础。

(3) 企业资源的有限性和有效市场竞争的目的性。资源总是希缺的,由于缺乏足够的资源去应对整个客户群体,因此必须有选择地分配资源。为了充分发挥资源的最大效用,企业必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。

(4) 稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就显得毫无意义。


客户细分模型

客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型是指选择一定的细分变量,按照一定的划分标准对客户进行分类的方法。一个好的细分模型,首先是要满足细分深度的要求,不同的使用者对客户细分的深度也有不同的要求,这就要求模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力,现代数据库的存储容量越来越大,数据结构也趋于多样性,误差数据也会随之增多,这就要求模型能适应数据在量和样上的膨胀,对误差数据能做出判别和处理。最后是模型要有很强的适用能力,变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他们的消费行为都是在变化的,这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额等为细分变量,如RFM 模型和客户价值矩阵模型。

(1)RFM模型。RFM细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。
R-Recency指客户上次消费行为发生至今的间隔,间隔越短则R越大;F—Frequency指在一段时期内消费行为的频率;M—Monetary指在某一时期内消费的金额。研究发现,R值越大、F值越大的客户越有可能与企业达成新的交易,M越大的客户越有可能再次响应企业的产品和服务。

(2)客户价值矩阵模型。
客户价值矩阵模型是在对传统的RFM 模型修正的基础上提出的改进模型。用购买次数F和平均购买额A构成客户价值矩阵,用平均购买额替代了RFM 模型中存在多重共线性的两个变量,消除了RFM模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中,确定购买次数F和平均购买额A的基准是各自的平均值,一旦确定了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少,客户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型客户、经常客户和不确定客户,如图3.l所示。

   
图3.1:客户价值矩阵
客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同,用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、基于客户价值相关指标的客户细分。

客户细分模型的基本流程

客户细分包括六个基本流程:
第一步:理解业务需求。
在未来的业务中,知道谁是客户是个非常好的起始点,以了解瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客户归组到一起,这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构成。当这些条件变得越来越复杂时,数据挖掘技术就应运而生了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时,最重要的部分是其结果应当在业务远景中意义深远,并且能够在实际业务环境中进一步得到应用。需要记住的一点是:由于市场环境是动态变化的,细分建模过程应当是重复性的,且模型应随着市场的变化而不断革新。

第二步:选择市场细分变量。
由于变量选择的优劣对细分结果质量的影响非常显著,所以变量选择应该建立在理解业务需求的基础之上,以需求为前提,在消费者行为和心理的基础上,根据需求选择变量。此外,变量的选择还应该有一定的数量,多了不好,少了也不好。

第三步:所需数据及其预处理。
为创建数据模型,必须使用收集到的原始数据,并将其转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在金融业中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行为,可通过客户的账户信息、购买产品的信息等捕获。人口统计数据(如年龄、性别、工作等)可根据客户办理业务时,提供给金融机构的信息获得。这在识别或描述客户组的特征时很有用。

第四步:选择细分技术。
目前,通常采用聚了技术来进行客户细分。常用的聚类算法有K-means、两步聚类、Kohonen网络等,可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。

第五步:评估结果。
在对用户群进行细分之后,会得到多个细分的客户群体,但是,并不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试:与业务目标相关的程度;可理解性和是否容易特征化;基数是否足够大,以便保证一个特别的宣传活动;是否容易开发独特的宣传活动等。

第六步:应用细分模型。
根据客户细分的结果,市场部门制定合适的营销活动,进行有针对性的营销。 总之,客户细分是金融机构与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势,只有通过深入分析用户消费行为,精确识别、细分用户市场,开发出针对不同层次用户的服务品牌进行服务营销,方能使得各方价值发挥到最大,实现共赢。不同级别的客户对服务的需求以及“赢”的概念是不同的,正是因为为不同的客户提供不同的产品和服务才能使客户都达到满意,从而在市场上占据有利地位。


细分方法介绍

在数据挖掘中,往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类:

(1)K-Means聚类法。使用者需要首先确定数据分为K群,该方法会自动确定K个群的中心位置,继而计算每条记录距离这K个中心位置的距离,按照距离最近的原则把各个记录都加入到K个群,重新计算K个群的中心位置,再次计算每条记录距离这K个中心位置的距离,并把所有记录重新归类,再次调整中心位置,依次类推……,当达到一定标准时,结束上述步骤。这种方法运算速度快,适合于大数据量。

(2)两步聚类法:这种方法首先需要确定一个最大群数(比如说n),并把数据按照一定的规则分为n个群,这是该方法的第一步。接着按照一定的规则把n个群中最接近的群进行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比如说m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据结构本身自动确定应该把数据分为多少群。

(3)Kohonen网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。 为了提升客户的全面经验,许多金融机构将数据挖掘应用于客户细分在客户个人属性以及产品之间提取直观的联系。从这些现存的客户以及潜在客户中得到的客户特征经验的知识进而可以用于配合市场营销工作来增加交叉销售的机会,提高投资回报率(ROI)(Peacock,1998)。这使得金融机构可以提供特定的产品与服务来满足客户的需要。 数据挖掘中典型的细分应用要么是使用有监督学习方法,要么是使用非监督学习方法来进行(Chung和Gray,1999)。对于前者,数据挖掘模型学习客户的行为特征与已经确定的我们感兴趣的输出变量之间的关系。例如,客户评价模型,将客户分为不同的等级,并得出每个等级的特征。另一方面,非监督学习方法基于客户的输入属性产生不同的类别,而且不需要设定我们感兴趣的输出变量。每个类别的成员享有相似的特征,并且与其它的类别之间的特征是截然不同的。


客户细分实例

假设 Z 银行拥有以下数据:
1.客户号;
2.储蓄账户余额;
3.活期账户余额;
4.投资账户余额;
5.日均交易次数;
6.信用卡支付模式;
7.是否有抵押贷款;
8.是否有赊账额度;
9.客户年龄;
10.客户性别;
11.客户婚姻状况;
12.客户家庭情况(孩子数);
13.客户年收入;
14.客户是否拥有一辆以上小汽车;
15.客户流失状态。
假设Z银行希望建立更为有效的市场营销战略来给持有高价值投资组合的客户推销其金融产品。为了做到这些,Z银行使用细分模型特征化了其客户,并且依赖客户属性分割这些客户为截然不同的类别。其后,自然可以利用这些从客户中得到的特征剖面来定制其市场营销战略来给其潜在的客户提供更多目标性的信息。
此外,假设Z银行使用监督学习以及非监督学习建模技术来生成客户的特征。这里我们使用SPSS公司的数据挖掘软件Clementine。相关的数据挖掘应用程序图示参见图3.2。
   

图3.2:投资账户余额分段

对于监督学习模型,基于上面涉及到的十三个变量基础进行细分。目标变量是由输入变量-投资账户余额,直接生成的多分类变量。关于投资账户余额的分布可以由直方图节点来决定如何适当的将每个客户分类到三个箱柜中:高、中和低投资组合价值。关于投资账户余额的分布与归箱也显示在图3.2中。关于投资账户余额的归箱组成了我们感兴趣的投资价值目标变量。

进而可以构建Logistic回归模型来生成基于不同单个客户投资价值的不同分类的特征属性。
图3.3描述了Logistic回归模型的结果。进一步的结果表明,在预测每个客户的投资价值的预测模型中统计上显著的变量有储蓄账户余额和活期账户余额。进而,高价值投资组合客户的特征就由这些变量来决定。
   
图3.3:Logistic回归模型
非监督学习细分模型是基于十四个变量来做出的。在这种情形下,不需要设定目标变量。对于非监督学习细分,通常可以使用三种数据挖掘算法,也就是,两步聚类、Kohonen 网络以及K-means聚类。对于我们的演示,这里仅仅使用了两步聚类。
 
图3.4:两步聚类分析结果

图3.4显示了使用两步聚类法生成的五个类别的聚类模型。关于每一类的信息也列了出来。例如,第4类包含278个客户,它描述了在这个类别中大部分的客户是男性且大部分无抵押贷款的客户。另一方面,第2类描述了大多数为已婚女性且拥有赊账额度的客户。

更进一步的数据探索是建立在两步聚类结果上,通过利用我们所关心的变量的直方图或是分布图等图形化展示手段来比较五个类别的结果。图3.5显示了关于五个类别中流失状态以及流失率的比较。我们可以看到,第2类中拥有大多数的主动以及被动流失的客户。同样,第3类则是相当的混合了现存客户以及主动流失的客户。此外,第4类中具有最大的现存客户。对于其他的分类输入变量来讲可以绘出相似的分布图。
   

图3.5:五个类别中流失状态以及流失率的比较

最后,关于投资账户的直方图也可以根据五个类别分别绘出,参见图3.6。我们可以看到,第1类包含了相对其它几类更多的低投资账户的客户。另一方面,第3类则是由持有高价值投资账户的客户组成。如此,如果Z银行能够促销新产品,第3类的客户可能是更为有希望的目标群体,能够生成更好的市场营销结果。利用这些知识,Z 银行现在能够设计适当的银行产品来满足那些不同的客户群体。
   
图3.6:五个类别的投资账户余额的直方图

4.营销响应

为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上,一方面,客户每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告,缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,用户越来越看重个性化服务,对新的金融产品具有较大的需求。

为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。

所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。


什么是营销响应?

营销响应模型是一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响应,自变量是客户及其行为的各种属性,如:客户年龄,客户收入,客户最近一次购买产品的时间,客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动进行响应,这样,当以后有类似的活动时,可以针对具有较高响应可能性的客户进行相应的营销活动。而对响应度不高的客户就不用对他们进行营销活动,从而减少活动成本,提高投资回报率。


如何提高营销响应率?

金融机构应当在深入了解客户需求和客户特征的基础上,制定营销策略,从而达到增加营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群开展营销活动,而是针对每一个客户开展活动。所谓“知己知彼,百战不殆”,建立在对客户需求良好把握基础之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动,首先需要回答以下几个问题: ?

金融机构在数据挖掘技术的帮助下,针对客户数据建立营销响应模型,在合适的时间,通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响应率和投资回报率。
   
图4.1:营销活动的四个要素
1)选择合适的客户
金融机构对以往的营销数据进行分析,采用决策树等数据挖掘方法,识别出具有高响应率的客户的特征。通过选择合适的客户,可以排除对促销活动响应不积极的客户,将目标客户的数量大大减小,从而在实现更有针对性地营销的同时减小营销成本。据统计,通过减小目标客户的数量,通常可以节省25%-40%的营销费用,同时增加营销响应率。

2)选择合适的渠道
第二步是要针对用户选择合适的营销渠道,也就是和客户接触的方式。通过使用每个用户偏爱的方式与之接触,也有利于提升客户响应率。在确定促销渠道时,要考虑客户对渠道的偏爱,渠道成本,期望的响应率,其他营销限制条件等。

3)选择合适的时间
在当今竞争激烈的社会里,客户有很多满足自己需求的机会和选择。因此,一旦发现了客户尚未被满足的需求或者出现遗失客户风险时,一定要及时和客户接触。这种事件驱动的促销方式,通常也可以取得较高的响应率。

4)选择合适的活动频率
此外,并不是促销活动越多,效果越好。活动计划者需要根据实际情况,针对具体的客户,选择一个最优的活动次数,既使得客户的各种需求得到较好的满足,又避免因为过于频繁的接触而导致客户的反感。同时,过多的营销活动,也会增加营销成本。需要在增加的成本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也至关重要,比如,对于不喜欢过于频繁的接到促销电话的客户,就要适量降低电话促销的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动,可以将促销活动的投资收益率提高25%-50%。
表4.1:营销活动四阶段总结

阶段

1.合适的客户

2.合适的渠道

3.合适的时间

4.合适的营销频率

目标

为营销活动选择最佳客户

为目标客户选择最优营销方式

在合适的时间对目标客户开展营销

确定最适合客户的营销频率

方法

预测分析

渠道优化

事件营销

促销优化

策略

预测谁是最有可能响应营销并且能给营销活动带来收益的客户

在客户偏爱的方式和公司的成本与能力之间选取最优结合点

变小的,经常性的营销活动为事件触发的营销活动

在客户响应率和公司收益之间选择最佳结合点

好处

降低25%-40%的营销成本

降低接触客户的成本

响应率的提高至少达到两倍

提高25%-50%的收益

营销响应应用案例

一家虚拟银行新推出了一种新的抵押贷款业务,为了推广新产品,该银行决定执行直接营销活动。为此,分析人员收集了以往进行类似产品的营销时公司执行营销活动的相关数据,经过数据挖掘应用,计算客户影响概率,得到客户响应率模型,进而对客户对新产品的响应概率进行预测。从中选取响应率高的客户开展新产品营销活动。

(1)商业理解
识别出可能响应直接营销活动的客户,提高营销活动的响应率。

(2)数据理解
收集部分以往的营销活动数据(包括对活动响应的客户数据和未对活动响应的客户数据),选择客户属性,包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户响应。所选取的数据属性包括:用户编号、年龄、收入、孩子数目、是否有汽车、是否抵押、居住区域、性别、婚姻状况、在该银行是否有储蓄账户、在该银行是否有活期账户、是否对促销活动响应等12个字段。

其中是否响应是预测的目标变量,共有两个属性:
否:客户未响应营销活动;是:客户响应营销活动。
   

图4.2:数据
首先采用直方图,散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否察看收入与孩子数目之间的散点图。可见,如果只考虑“孩子数目”属性,发现随着孩子数目增加,响应的客户比率降低。同时考虑“孩子数目”和“收入”属性,发现响应比率与“收入”和“孩子数目”的比值相关,这个比值通常被成为“相对收入”。
   
图4.3:收入与孩子数目的散点图

下图是孩子数目的分布图。有一个孩子的客户占44.3%。而在这些客户中,大部分是对直接营销活动进行响应的客户。总的说来,随着孩子数目增加,客户响应率降低。

   
图4.4:孩子数目的分布图
(3)数据准备
根据数据理解的结果准备建模需要的数据,包括数据选择、新属性的派生,数据合并等。 在数据理解中发现,是否响应与“收入”和“孩子数目”的比率有关,因此,派生出“相对收入”属性,定义为: 如果“孩子数目”为0,则“相对收入”=“收入”; 否则,“相对收入”=“收入”/“孩子数目”。

(4)建立模型及评估
对数据进行预处理之后,分别使用C5.0决策树模型,神经网络模型,C&RT决策树分类模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。然后对测试集分别应用这三个模型,选取效果最好的模型部署到企业中。
   
图4.5:部分数据流图
使用C5.0决策树对是否响应建模,发现与客户响应相关的共有4条规则,与客户不响应相关的共有8条规则。响应的客户有如下特点:有孩子,相对收入大于49997元;或者有孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没孩子,没贷款,收入小于25563元。
   
图4.6:C5.0决策树分类结果
神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。此外,最重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。其估计精度达到了87.77%。
   
图4.7:神经网络的输出结果
使用C&RT对是否响应建模,得到的规则包括:当相对收入小于25564.5元时,客户倾向于不响应;当相对收入大于25564.5元,孩子数目小于等于0.5(需根据实际业务情况进行解释),没有抵押贷款,且年龄小于等于45时,倾向于不响应;当收入大于25564.5元,孩子数目小于等于0.5,没有抵押贷款,且年龄大于45的客户响应率高。

使用测试集评估不同模型的表现。其中“客户响应”表示目标变量的真实值,$C-响应、$N-响应、$R-响应分别表示使用C5.0、神经网络、C&RT得到的预测值。可见,C5.0的预测精度(95.29%)最高。最后,还可以查看不同模型预测结果的一致性。
   
图4.8:C&RT分类结果
   
图4.9:模型评估
(5)模型部署
通过建模和评估后,选择预测精度最高的C5.0模型部署到企业中。新的用户数据在经过C5.0模型评分后,按照流失概率的高低排序,通过Clementine Solution Publisher发布。
   
图4.10:模型部署数据流图
   
图4.11:对新数据进行评分

5.信用评分

信用评分背景

20世纪90年代以来,随着中国经济的快速发展,中国的信用消费已逐步浮出水面,信用卡消费、个人汽车贷款、耐用消费品贷款、助学贷款、住房按揭等各种个人消费贷款陆续开办。中国银行业资产规模进一步得到扩张,但信贷过快增长中潜在风险增大,不良贷款比率仍偏高并可能反弹。进一步加强信贷管理已经成为银行控制风险、保持规模增长的首要问题。自1998年起,商业银行就一直在强化信贷管理、规范信贷决策行为、防范信贷风险,并取得了一定的成绩,但仍存在一些比较突出的问题。主要表现在:

第一,对借款人的信用状况缺乏较全面的了解。由于我国的征信体系的建设尚处于起步阶段,商业银行不能像国外发达国家那样从征信局取得贷款申请人的信用资料,使得银行不能全面了解贷款申请人的信用状况,在发放个人贷款时信息不对称的问题相当突出。

第二,对个人信用评价缺乏科学的方法。在对贷款人的信用风险进行评估以及决定是否发放贷款时,主要依靠授信机构的信贷人员进行主观判断,从而决定是否给予某个消费者一定的信用消费权利,精确的信用评分方法几乎没有使用。个人信贷业务的特点是单笔业务的交易量较小,但是业务的数量却较大。因此,主要依赖信贷人员判断的信用评估和控制方法,不仅无法对个人信用程度进行精确的计量,而且无法对个人信用程度进行精确的计量,而且无法有效地降低单笔贷款的管理成本。

国际银行业信贷风险管理工具框架最为基础和核心的工作是建设信贷风险内部评级模型,只有在利用风险评级工具精确衡量风险的基础上,才能有效地运用更为复杂的信贷风险管理工具。这正是我国银行业所缺乏的。个人消费信贷的快速增长迫切要求商业银行提高建立与消费信贷增长相适应的风险管理体系。

信贷风险内部评级模型的建立可以选择多种方式。在选择建立模型的方式时,必须遵循循序渐进的原则。例如,在数据质量不足和信贷文化较为落后的条件下,应该采取较为保守的方式作为起点,例如专家经验模型或采用外部的评级模型。在使用这些模型的过程中,除了能够更精确的衡量信贷风险从而优化银行资产质量外,而且客户经理也能够逐步掌握模型的应用技巧,培养起信贷风险管理文化,为以后实施数量统计模型做准备。随着银行个人业务的发展,银行业已经积累了大量的数据,可以尝试自建数量统计模型,以挖掘出适合国内经济环境和银行自身情况的风险因素。


信用评分的概念

信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信用分数。根据客户的信用分数,授信者可以分析客户按时还款的可能性。据此,授信者可以决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。

在信用评分领域有两个非常重要的方面:

客户信用资料的收集:是指在信用消费中,通过调查了解申请授信的消费者个人的信用信息。

利用信用评分模型进行评分:是指输入客户信用资料,通过信用评分模型得到客户的信用分数,确定客户的信用等级。


信用评分的方法

在信用评分的过程中,最关键的就是信用评分模型的构建。用来产生信用评分的模型不胜枚举,每一种模型均有其独特的规则。在此,我们主要介绍信用评分模型的构建方法。

信用评分模型的基本原理是确定影响违约概率的因素,然后给予权重,计算其信用分数。信用评分模型的构建,目前最为有效的手段是数据挖掘。下面对数据挖掘的定义进行简单介绍,并重点描述利用数据挖掘技术构建信用评分模型的步骤和方法。

(1)信用评分模型构建步骤
利用数据挖掘技术构建信用评分模型一般可以分为6个步骤,它们分别是:商业理解、数据理解、数据准备、建立模型、模型评估、模型部署。
1)商业理解:明确数据挖掘的目的或目标是成功完成任何数据挖掘项目的关键。例如,确定项目的目的是构建个人住房贷款的信用评分模型。
2)数据理解:在给定数据挖掘商业目标的情况下,下一个步骤是寻找可以解决和回答商业问题的数据。构建信用评分模型所需要的是关于客户的大量信息,应该尽量收集全面的信息。所需要的数据可能是业务数据,可能是数据库/数据仓库中存储的数据,也可能是外部数据。如果没有所需的数据,那么数据收集就是下一个必需的步骤。如果银行内部不能满足构建模型所需的数据,就需要从外部收集,主要是从专门收集人口统计数据、消费者信用历史数据、地理变量、商业特征和人口普查数据的企业购买得到。接着要对收集的数据进行筛选,为挖掘准备数据。在实际项目中,由于受到计算处理能力和项目期限的限制,在挖掘项目中想用到所有数据是不可能实现的。因此数据筛选是必不可少的。数据筛选考虑的因素包括数据样本的大小和质量。一旦数据被筛选出来,成功的数据挖掘的下一步是数据质量检测和数据整合。目的就是提高筛选出来数据的质量。如果质量太低,就需要重新进行数据筛选。
3)数据准备:在选择并检测了数据挖掘需要的数据、格式或变量后,在许多情况下数据转换非常必要。数据挖掘项目中的特殊转换方法取决于数据挖掘类型和数据挖掘工具。一旦数据转换完成,即可开始挖掘工作。
4)建立模型:在时间或其它相关条件(诸如软件等)允许的情况下,最好能够尝试多种不同的挖掘技巧来建立模型。因为使用越多的数据挖掘技巧,可能就会解决越多的商业问题。而且使用多种不同的挖掘技巧可以对挖掘结果的质量进行检测。例如:在构建信用评分模型时,分类可以通过三种方法来实现:决策树、神经网络和Logistic回归,每一种方法都可能产生出不同的结果。如果多个不同方法生成的结果都相近或相同,那么挖掘结果是很稳定、可用度非常高的。如果得到的结果不同,在使用结果制定决策前必须查证问题所在。
5)模型评估和结果解释:数据挖掘之后,应该根据零售贷款业务情况、数据挖掘目标和商业目的来评估和解释挖掘的结果。
6)模型部署:数据挖掘关键问题,是如何把分析结果即信用评分模型转化为商业利润。通过数据挖掘技术构建的信用评分模型,有助于银行决策层了解整体风险分布情况,为风险管理提供基础。当然,其最直接的应用就是将信用评分模型反馈到银行的业务操作系统,指导零售信贷业务操作。

(2)信用风险评分模型构建方法
信用评分模型是根据过去信用记录和个人资料进行数据分析,描述影响个人信用水平的因素,从而帮助贷款机构发放消费信贷的一整套决策模型。信用评分的目的是为了帮助银行决策,使银行确定对特定的客户采取特定的行动,它采用的技术主要是数理统计和人工智能的有关技术,信用评分方法很多,而且随着技术的发展和业务上的要求,新的评分技术也在不断推出,这里我们概要介绍其中几种。
1)判别分析法
该方法在个人信用评分历史上曾经是使用最广泛的方法。它通过利用所建立的判别函数的系数对特征变量加权来确定个人的信用得分。最早将判别分析用于信用评分系统的是Durand(1941)。它的特点是:要求特征变量服从多元正态分布,且两类子总体的协方差矩阵相等。在实际消费信用数据中,这些条件往往不易满足。这是判别分析引起质疑和批评的主要原因。
2)回归分析法
线性回归方法,普通的线性回归曾被用于解决信用评分中的分类问题,它产生的也是一个线性评分卡。但是线性回归方法用于信用评分时存在明显缺陷,即回归方程两边变量的取值范围可能不一致:右边取值可以从负无穷到正无穷,但方程的左边是概率变量p,其取值范围只能在(0,1)范围内。如果等式左边变换成p的一函数,它可以取任意值,则模型更有意义,于是,对线性回归进行改进而形成的Logistic回归方法就成为信用评分模型中使用最广泛的方法之一。
Logistic回归模型克服了线性回归模型的缺陷,其回归方程两边的值均可取任意值。就理论背景而言,人们会认为在信用评分中Logistic回归比线性回归更合适,而Logistic也是现实中应用最广的评分模型。
3)数学规划方法
该方法通过研究对客户信用有影响的各个因素并确定它们的权重,把客户分为好、坏两类,从而建立一个线性规划方程,目的是使得方程误差最小,它也产生一个线性评分卡。绝大部分文献认为线性规划方法与统计学方法效果相当。
4)神经网络方法
神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,具有自组织性、自适应性及较强的稳健性。神经网络模型类型较多,不下数十种。Chen& Titterington(1994)认为,神经网络方法实际上可以看作一种非线性回归。该方法可能存在过度拟合的问题。Davis(1992)也比较过神经网络与其他方法,认为神经网络能很好地处理数据结构不太清楚的情况,但其训练样本时间较长。此外,其可解释性较差也受到质疑。
5)分类树方法
分类树方法最后不生成一个评分卡,而是将消费者分成不同的组,在组内各样本的违约概率尽量相等,而违约概率在组之间的差异则尽可能大。其特点是能更有效地处理特征变量之间存在相互作用的情形,而且即使有些特征变量存在一定的数据缺失,该方法也能适用。分类树方法也有一些缺陷,如某些低端节点所包含的样本可能太少,从而使得在这些节点中所作的统计推断不可靠。
6)最近邻方法
也是一种非参数方法,其结果也是评分卡。它的思想是在申请人的特征向量空间内定义一种测度(距离)用于测量两个申请人之间的距离。当对一新申请人信用评估时,只要考察与他最近邻的k个人中“好客户”及“坏客户”的比例,根据此比例确定该申请人的信用类型。
在以上几种信用评分方法中,到目前为止应用最成功的还是Logistic回归方法,它已取代线性回归、判别分析法而成为信用评分领域使用最普遍的统计方法。


信用评分应用案例

(1)商业理解
某银行的业务人员希望根据零售系统中现有的数据,了解具有较高风险的住房贷款协议的特征,以及那些已经贷款的客户中风险高信用低的客户特征,从而为实际的业务处理过程中,对新申请贷款的客户进行评估提供参考依据。其业务问题就是“能否通过贷款申请人的特征和贷款申请内容的情况来判断该客户的风险度?”

对于这个业务问题,首先必须将客户的“风险”转换成可预测的数据指标。对于个贷业务来说,客户在申请某个贷款产品后可能会发生的违约概率可以作为衡量该客户“风险”重要的数据指标,违约概率越大,该客户的“风险”度也就越高。违约行为反应在业务数据中就是客户在贷款期限内发生了逾期情况,而逾期情况又可以从逾期的时长,逾期金额的大小,以及在贷款期限内,截止到统计时间为止的逾期次数等多个方面进行考量。例如将“还款逾期超过60天”作为客户发生违约的基本指标。相应的数据挖掘目标就是:违约客户的特征和预测;违约客户的评分和分级。

在本例中,我们将最大逾期时间不到30天并且有12期以上的交易记录的定义为好客户;最大逾期时间超过60天的为坏客户。显然,有些客户并不能确定为好客户,又不能确定为好客户。如最大逾期时间在30天到60天之间的客户。因此,在我们所选取的建模总体中,客户实际被分为三类:好客户、坏客户和未确定客户。

(2)数据理解
数据主要来源于以下几个方面: ?

首先将各分行的原始数据进行追加,并从客户历史交易记录中汇总出逾期信息。将客户信息,协议信息和逾期信息进行合并,生成全行数据。下面所进行的数据理解和数据处理都是在这个数据样本文件的基础上进行。
   
图5.1:数据理解
通过Clementine中的数据审核节点查看数据的分布图(直方图、条形图)、数据的基本统计信息(最大值、最小值、平均值、标准差和偏度)和数据中有效数据所占的比例等。在数据审核节点中会自动对数据进行抽样来提高分析的速度。
   
图5.2:使用Clementine数据审核节点查看数据的分布和基本统计信息
(3)数据准备
根据商业理解,我们选择住房贷款、选择合同开始年份在2003之后、还款周期为按月还款以及国家代码为中国的样本。选择好客户和坏客户样本,并进行均衡,均衡后的好坏客户占比基本相同,如图:
   
图5.3:客户类型分布图
通过对数据质量的检验发现抚养人口、劳动合同期限等字段由于缺失太多而无法清洗,考虑对这些字段进行剔除。而学历、单位性质、职位职称等字段可以将缺失值作为一个新的属性用在建模中。

在数据准备部分,根据业务经验,我们还派生了一些新的字段,例如:月总收入、月还款占总收入比例等。鉴于一些特征变量的分类过多,不利于建模处理,因此对这些集合变量考虑进行重新分类,对连续变量也可以进行离散化处理。如图是对贷款金额的分组,可以看出第1、3组的贷款人相对较优,而第2、4、6的则比较差。
   
图5.4:贷款金额分组
(4)建立模型

在本次建模中,主要使用Logistic回归、神经网络和C5.0分类树方法,从中挑选中最适合的模型用于评分和分级。不同的模型具有不同的优点和缺点,可以将不同的模型结合起来,充分利用各个模型的优点,从而得到一个更好的模型。

首先,使用神经网络和C5.0分类树方法分别建立信用评分模型;然后将这两个模型的评分结果作为解释变量之一,再加上其余的特征变量,最后建立一个基于Logistic回归的信用评分模型。由于神经网络和C5.0分类树方法的预测精确度比较高,因此其信用评分结果中应该综合了解释变量和因变量之间关系的更多信息,将这种信用评分结果作为解释变量之一,应该能够提高模型的精确度。而最终用Logistic回归建立模型,又保证了模型的稳健性。 通过神经网络敏感性分析可以看出:分行和按揭成数在模型中是最重要的,这两个变量的分析结果要远大于其他变量。分行最重要进一步说明每个分行客户的特征差别很大,对全部分行统一建立模型必然会影响到模型的精确度。如果在各分行数据量足够的情况下,推荐对每个分行建立一个模型。也可以考虑将客户特征相似的分行划分为一类,对每类分行建立一个模型。
   
图5.5:神经网络敏感性分析
在C5.0模型生成的决策树中,按揭成数为第一个拆分的变量;对按揭成数为2的贷款人,还款方法为第二个拆分的变量 ;对按揭成数为3的贷款人,分行为第二个拆分的变量。可以看着三个字段在模型中是最重要。
   
图5.6:C5.0生成的规则集
我们通过主成分分析共生成5个因子,这5个因子包含了绝大部分特征信息。通过这5个因子建立模型在损失一小部分信息的基础上解决了共线性问题。以5个因子作为输入建立了Logistic回归模型,结果为:
   
图5.7:由主成分分析得到的因子
   
图5.8:Logistic回归模型
以Logistic模型预测为好客户的概率乘以1000作为模型的评分。模型的评分在0-1000之间,评分越高代表贷款人越优。按照模型评分从低到高的顺序将贷款人等分为10级,每级都有相同比例的贷款人,10级最优客户中好客户发生比为9.031,而1级最差客户中只有0.100。还可以对等级进行重新分组,合并具有相似好客户发生比的相邻客户等级。
   
图5.9:Logistic回归模型给出的评分和等级
(5)模型评估

一个好的数据挖掘模型,要经过多方面的评估。在对模型进行评估时,既要参照评估标准,同时也要考虑到商业目标和商业成功的标准。在大多数的数据挖掘项目中,数据挖掘工程师要不止一次的应用某个特定的技术或者是利用不同的可选择的技术产生多种结果。因此在这一阶段的任务中,也要根据评估标准比较所有不同的结果。

精确度是用来评估模型的最简单和最基础的指标。使用分析节点可以方便的对多个模型同时进行计算和比较。神经网络模型、C5.0决策树模型和Logistic模型的精确度分别为77.99%、69.58%和73.15%。其中神经网络的预测精确度是最高的,但是会出现过度拟和的问题。Logistic回归模型对坏客户的预测是最好的,综合了3个模型的优点,既能保证精确度又能保证模型的稳健性。
   
图5.10:神经网络、C5.0和Logistic回归模型的精度比较
从3个模型的收益图上可以看出,神经网络要略微优于C5.0决策树和Logistic回归。对于Logistic回归模型来说,找出的20%的客户中就可以发现35%的坏客户,30%的客户中就可以发现50%的坏客户。 K-S统计量是一个易于理解和计算的统计量,它是好客户分布累计百分比与坏客户分布累计百分比之差,也就是区分度的最大值。下图是Logistic模型的K-S曲线,当模型的评分在412.585时,两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530,好客户百分比为19.572。模型的K-S统计量为46.975,在41-50之间,根据经验准则,这是一个好的模型。
   
图5.11:神经网络、C5.0、Logistic回归的收益图
K-S统计量是一个易于理解和计算的统计量,它是好客户分布累计百分比与坏客户分布累计百分比之差,也就是区分度的最大值。下图是Logistic模型的K-S曲线,当模型的评分在412.585时,两条曲线的垂直距离达到最大值46.975。此时累计坏客户百分比为66.530,好客户百分比为19.572。模型的K-S统计量为46.975,在41-50之间,根据经验准则,这是一个好的模型。
   
图5.12:Logistic回归模型的K-S曲线
ROC曲线和Gini系数则是利用好、坏客户分数分布的全部信息对评分模型区分好、坏客户的能力进行评估。下图中的红线代表了ROC曲线,离对角线(蓝线)越远,对应的评分模型也就越好。这说明ROC曲线和对角线之间的面积越大,评分模型的区分能力也就越强。
   
图5.13:Logistic回归模型的ROC曲线


6.客户满意度研究

为什么要进行客户满意度研究?

客户满意(CS, Customer Satisfaction),是指客户通过对一个产品或服务的感知效果/结果与其期望值相比较后,所形成的愉悦或失望的感觉状态。客户满意度就是对客户满意水平的量化,客户满意度在国内外越来越引起理论界和实业界人士的关注。

但是面临客户多种多样的要求,以及这些要求反映的庞杂的信息,令企业的努力往往成效并不显著,而企业也存在资源有限的现实问题,不可能也不必要在所有方面令客户满意,如何做到用有限的资源有效提高客户满意度,这是“客户满意度研究”的任务,“客户满意度研究”是实现客户满意的第一步。 客户满意度研究的应用价值主要表现在以下几个方面:


满意度研究的目标和内容

虽然达到客户满意度已成为许多公司和组织的主要营运目标,他们投入大量人力物力进行满意度方面的调查,然而由于对满意度指标把握的不准确和分析方法的贫乏,结果却难以得到关于改进产品和服务,提高客户满意度的有价值的结论。满意度指标确定和分析应用已成为进行客户满意度调查的关键和难点。而要理清和把握满意度调查的这两个方面,有必要先明确客户满意度调研的目标和分类。

调查的核心是确定产品和服务在多大程度上满足了客户的欲望和需求。就其调研目标来说,主要达到四个目标:1.确定导致客户满意的关键绩效因素;2.评估公司的满意度指标及主要竞争者的满意度指标;3.判断轻重缓急,采取正确行动;4.控制全过程。

就调查的内容来说,又可分为客户感受调查和市场地位调查两部分。客户感受调查只针对公司自己的客户,操作简便。主要测量客户对产品或服务的满意程度,比较公司表现与客户预期之间的差距,为基本措施的改善提供依据。市场地位调查涉及所有产品或服务的消费者,对公司形象的考察更有客观性。不仅问及客户对公司的看法,还问及他们对同行业竞争对手的看法。


满意度研究方法

一个普通的客户满意度研究,通常的程序包含五大步聚:
   

图6.2:满意度研究的大致步骤
(1)客户类型判定

在进行客户满意度研究之前,首先要清晰研究需要针对的客户。客户满意度研究的客户分类需考虑到:目前客户、过去客户、潜在客户。
对于已经建立了完善的客户关系管理数据库的企业,可以从数据库中根据客户分类要求列出所有的客户名单,根据抽样方法从名单中选取被访客户,工业产品、电信、银行、保险等的客户满意度研究通常可以用此方法。对于没有建立或不太可能建立完善的客户关系管理数据库的企业,则需要通过对目标群体进行随机抽样的方法来选取被访客户,快速消费品通常需要采用此方法来进行。

(2)确定影响客户满意度的关键评价指标
关键评价指标的确定是客户满意度研究的重点,满意度研究首先应揭示出不同客户满意的评价指标在重要性上的差异、客户满意的程度,而且应找出满意和不满意的内在原因,并能比较各个竞争对手和自身在不同指标上的优劣。 探索主要评价指标应从两个方向进行:一为企业内部,二为客户。
通过对企业内部员工/管理者的访谈,了解企业内部员工/管理者对所提供的产品或服务的专业性认识,因此会比较系统和完整地提供建立客户满意度评价的体系和具体的指标。但对客户的访谈也是必不可少的,因为企业内部员工/管理者对客户满意的理解与客户的实际需求通常会存在着差距,因此必须从客户的角度了解他们对满意情况的评价准则。
在这一过程中,有一些统计分析技术可以帮助企业制定和筛选出最能有效体现客户实际满意度的评价指标体系,下面是这一过程中经常用到的一些分析技术。
? 因子分析法。利用因子分析方法分析客户的指标重要性评价数据,我们可以将不同指标分为若干个因子,从每个因子中选择一个指标。通过比较各个指标的负荷量和有效性可以帮助我们确定具体应选择的指标。
? 判别分析法。应用判别分析方法,我们可以确定选出来的指标能否很好地预测整体满意或不满意的程度。交替使用因子分析和判别分析,得到的满意度指标不仅在统计上是有效的,而且在逻辑上讲也适用于测量客户满意度。
? 结构方程模型(SEM):关键评价指标体系的建立,实际上也是研究假设的确立,此部分是客户满意度研究的关键。随着满意研究理论探索和数据验证的不断深入,结构方程模型越来越成为满意度研究领域的重要工具,不论是前期关键评价指标体系的确定,还是后期满意度分析。在实际应用结构方程模型确定评价指标体系时,通常依据一定的客户满意度理论模型,然后对理论模型中的潜在变量逐级展开,直到形成一系列可以直接测量的指标,这些测量指标便构成了客户满意度评价指标体系。

(3)测量客户对关键评价指标的满意度
这部分主要通过定量研究进行,采用量级评分的方法进行测量。主要采用5级、7级或10级量表测量工具,对客户进行大规模的问卷调查。

(4)确定关键评价指标的相对重要性
这一步分析的一个关键部分是用整体满意程度作为因变量,用对关键评价指标的满意程度作为自变量进行结构分析。进行关键评价指标的满意度及其相对重要性测量的方法形形色色。但是,整体归结起来,可以大概划分为以下几种:

1)简单易行型
直截了当地问:“你对XX品牌的产品/服务总体上满意吗?”这种方式效率高,容易回答,而且容易了解到消费者对竞争品牌的总体评价。但是由于这样一个问题太过突兀和简单,受访者的回复在很多情况下不能代表其真实的意思。

2)双重评价型
这种方式需要调查设计者找到一些影响满意度的驱动要素,然后让受访者对被调查品牌在该驱动要素上的表现打分,同时还要对该驱动要素对其重要性程度进行打分。这样设计,不仅仅可以了解客户对某品牌产品/服务的满意度高低,而且可以了解对相应的满意度驱动要素的评价。这种方法考虑到满意度驱动要素,是一种进步。但是也存在几个缺陷:
a) 根据我们的经验,这种方式难以区分不同要素对消费者的真实重要程度。
b) 用驱动要素对受访者的重要性替代这一概念,这种“概念替换”经常会误导企业的资源配置。
c) 这种方式需要受访者对每个驱动要素的表现和重要性分别进行评估,需要占用受访者较多的时间和精力,从而增加了调查成功的难度。
本方法目前在企业自身实施的满意度调查中应用得比较广泛,因为其应用基本不需要太多的统计分析技术,实施简单。

3)双重评价改进型
这种调查方式是在上一种方式的基础上改进而得到的。具体方法是:假定全部要素的重要性合计为100,受访者在对每个调查要素给予重要性权重的时候,需要使得权重和为100。这种方法可以部分弥补上面提到的a)类缺陷,但也无法解决上一方法中的缺陷b)和c)。

4)采用线性回归统计分析技术
随着市场调查分析技术的发展,统计工具在市场研究中应用得越来越多。利用多元回归分析技术,可以计算出满意度驱动要素对满意度的影响大小。这种影响大小可以解释为,当满意度驱动要素提升1分,满意度在现有的基础上可以提升多少分。当满意度的驱动要素非常少,而且这些要素相互之间的影响不强时,这种方法不失为一种简单有效的方法。
实际上,多元回归分析在研究满意度问题的时候会存在以下几个问题:
a) 无法同时检验客户满意度各构成要素对客户整体满意度与客户忠诚度两个因变量的影响,模型中同时只能包含一个因变量。
b) 实际生活中,影响消费者对某种产品/服务满意度的要素通常非常多,对企业而言,这些要素越细化,在确定满意度提升的措施时才更有可操作性。而随着影响要素的增加和细化,如果采用回归的方式,计算出来的影响要素一般会由于这些要素的相互作用和影响,使其数值变得无法解释现实情况。从科学的角度看,随着新的分析研究技术的涌现,回归统计分析技术已经不太适用客户满意度分析研究领域。

5) 采用结构方程模型
在社会科学及经济、市场、管理等研究领域,有时需要处理多个原因、多个结果的关系,或者会碰到不可直接观测的变量(即潜变量),这些都是传统的统计分析方法不好解决的问题。结构方程模型(SEM, Structural Equation Modeling),由K.Jorekog于1973年提出,它是一种因果关系模型,通过要素间的因果关系/准因果关系来揭示现实生活中的相互关系。结构方程模型弥补了传统统计分析方法的不足,在过去三十多年里不断得到迅速发展,成为多元数据分析的重要工具。目前广泛地应用于许多市场研究分析当中,它也是目前国际上流行的客户满意度研究分析手段。
注:目前国际上流行的结构方程建模的工具主要有AMOS,LISREL,MPLUS,EQS。其中AMOS以其友好的图形界面,强大的结构化方程建模功能而得到广泛应用。


结构方程模型在客户满意度测评中的应用

由于客户满意度研究对企业具有重大的指导作用,科学高效的研究方法和手段将成为满意度研究机构的核心竞争力,其研究成果能够为企业更加合理地配置资源提供科学依据。而结构方程模型已成为进行满意度研究的最重要的工具。目前,美国用户满意指数(ACSI)、瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数(CCSI)等国家级用户满意度研究都是采用结构方程模型构建关系。

一个有效实用的客户满意度研究结构方程模型的构建,需要对客户需求和感知进行深入研究,通过大量的前期工作,比如客户焦点小组访谈、客户需求分解、客户预调查、行业专家拜访、购买消费现场观察等多种手段,才能构建起一个基础模型。然后通过消费者试调查,采集到一定的数据后,对数据进行多种统计处理、分析和检验,根据相应的结果对模型进行必要的调整,然后才能应用到实际的客户满意度分析中。否则,随意构建的模型只能成为使得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的整个过程和大致思路:
   

图6.3:利用结构方程模型进行满意度研究过程和思路
在满意度研究中常用的结构方程模型示例
   
图6.4:满意度模型框架示例


满意度研究在金融行业中的应用

现在我国已兑现入世承诺、金融业全面开放。中国金融服务领域的竞争将愈演愈烈,只有了解消费者的需求,预测他们的消费趋势,并开发新的产品/服务来满足消费者的需求,同时在现有业务上提供令人满意的高质量服务,才能在这场竞争中立于不败之地。因此“客户满意”越来越成为众多金融服务行业已经意识和正在努力提高的经营指标,成为该行业工作的重点。

下面借在某市对八家银行业(银行1-8)的满意度研究案例,介绍如何应用结构方程模型进行满意度研究。

(1)研究目标和过程
本调查虽然涵盖的是个人银行业务,没有直接涉及对公业务,但是任何一个人首先和银行发生业务联系的是个人业务。如果一个“公家人”或“公司人”在个人银行业务上对某家银行不满意,很难想象这个人在以后的对公业务上会与这家银行建立愉快的合作。毕竟,如今的银行业早就不是垄断行业了! 本次研究框架根据银行满意度测评结构方程模型,对34个满意度驱动要素―知名度、银行实力、银行信誉、产品/服务创新、网点数量、网点位置分布、外部标识、内部环境、服务窗口数量、服务种类标示、服务设施配备、宣传资料、营业时间、办理业务种类、人员服务态度、手续简便、等候时间、办理效率、热线电话接通率、语音提示、自动声讯效率、人工热线接通情况、服务态度、业务水平、网上银行安全性、开通方便、操作方便、资料记录准确及时、网页速度、ATM机数量、可靠性、处理速度、取款金额次数限制、ATM机安全性等进行测算,给出分值及其对满意度的影响大小,并根据分析结果提出了满意度改进建议。

(2)主要结论
调查发现,从该市居民经常办理个人业务的银行和客户心目中最好的银行的提及率分布来看,银行1均高居榜首,但是银行1作为最好银行的提及率仅有主办理银行提及率的一半;而银行2和银行6作为最好银行的提及率远远高于其作为主办理银行的提及率。另外银行1作为主办理银行的提及率与去年调查结果相比下降了近十个百分点,而选择其它商业银行,如银行6、银行7、银行2办理业务的比例明显有所上升。

客户在银行办理的业务类型中,人民币存取款、缴费、领工资、使用银行卡等业务的比重有所下降,而办理住房贷款、消费贷款、外币存取款的比重有所上升,说明银行提供的新业务内容正逐步得到消费者的认可。
各主要银行的客户群体呈现出鲜明的人口特征。如银行1更受40岁以上的中老年人群的青睐;主要集中在工人、教师和离退休人员;主要为高中/中专学历的群体;个人月收入主要集中在1-3千元等等;银行6的用户满意度和忠诚度明显高于其它银行,银行1的用户忠诚度最低。

银行1在服务厅、网络方面占有一定的优势,但是在服务软件、服务硬件方面均远远落后于其它银行;
银行6虽然继续在银行形象、服务软件、服务硬件方面处于领先,但是与去年调查结果相比有了一定的退步.


7.CRISP-DM简介

在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的是建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了CRISP-DM专家组(SIG,Special Interest Group)。

1999年,CRISP-DM SIG(Special Interest Group)组织开发并提炼出CRISP-DM(CRoss-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程),同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。当前CRISP-DM提供了一个数据挖掘生命周期的全面评述。它包括项目的相应周期,各个阶段的任务和这些任务之间的关系。所有数据挖掘任务之间关系的存在是依赖用户的目的、背景和兴趣,最重要的还有数据。SIG 组织已经发布了CRISP-DM 1.0的电子版,这个可以免费使用。

数据挖掘项目的生命周期由六个阶段组成。如图展示了这一数据挖掘过程的各个阶段,这些阶段之间的顺序并不固定,在不同阶段之间来回循环往往是非常有必要的。究竟下一步要执行哪个阶段或者哪一个特定的任务,都取决于每一个阶段的结果。图中的箭头表明了各阶段之间最重要和最频繁的依赖关系。图中最外层的这个循环表明了数据挖掘本身的循环性质。经过一个具体的数据挖掘项目得到了某项解决措施或办法并加以展开,并不代表数据挖掘本身已经结束。从这一数据挖掘过程以及解决措施展开的过程中所吸取的经验、教训,又引发了新的、通常是更加有挑战的商业问题。接下来的数据挖掘过程将会从过去的项目经验中获利。在接下来的内容中,我们将简要的勾勒一下每个阶段的轮廓:
   

图7.1:CRISP-DM数据挖掘标准流程


数据理解

数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据的质量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假设。


数据准备

数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括:制表、记录、数据变量的选择和转换,以及为适应建模工具而进行的数据清理等等。


建立模型

在这一阶段,各种各样的建模方法将被加以选择和使用,其参数将被校准为最为理想的值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。


模型评估

从数据分析的角度考虑,在这一阶段中,您已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型达到企业的目标。一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。


部署(发布)

模型的创建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息,但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某些决策过程中,如在进行网页实时更新或者营销数据库的重复打分时,拥用一个能够即时更新的模型。然而,根据需求的不同,部署阶段可以是仅仅像写一份报告那样简单,也可以像在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中,往往是客户而不是数据分析师来执行部署阶段。然而,尽管数据分析师不需要处理部署阶段的工作,对于客户而言,预先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。


8.数据挖掘经验谈

采用CRISP-DM方法论

采用CRISP-DM方法论作为数据挖掘的指导能帮助确保获得成功的商业结果。在现实中对于一个数据挖掘项目来说,最初设定的商业目标很容易淹没在复杂数据挖掘技术和海量数据中,所以以一个已经被验证方法论为指导是很关键的。


以终为始

为了能在项目终结时得到期望的ROI(Return On Investment,投资回报率),你应该在项目启动前已经确定了如何评估最终的结果的标准(例如:使用什么样的商业考核指标,它们是被如何计算或派生的)。例如你是不是想在20%的客户中找寻潜在流失者?基于客户保留计划的消费和营销反应程度,你如何将这些信息转换成商业收入增长期望值?或者你知不知道如果确定出额外的十条欺诈信息能节约多少开支?


设定期望值

确保项目投资者明白数据挖掘不是解决商业问题的魔术棒。数据挖掘是借助计算机技术辅助解决商业问题的一种方法。就像任何商业问题,投资者需要首先提出可解决的问题,然后找寻方案。例如你计划为公司市场部做客户细分,那么应该与市场部的同事一起明确什么样的结果是最终希望得到的(例如:“我们使用产品信息和人口统计数据,所以希望得到基于客户的收入、年龄等信息的细分,这样能显示不同层次客户对产品的喜好”)。


限定最初的项目范围

以现实可行的目标和日程表为开始,当你获得成功后,再转向更复杂的项目。例如与其试图立刻提高新客户的获取值,还不是集中精力在小的更实际的目标如对某一区域进行交叉销售,客户保留项目。


确保团队合作

数据挖掘项目是一个团队工作。数据挖掘需要商业使用者理解实际问题和数据,也需要数据分析家提供分析解决方案,以及数据库管理者提供权限。例如,你可能在项目中需要数据挖掘专家、数据库专家和市场经理。因为他们来自不同的部门,可能在数据挖掘项目合作中会出现问题,所以找到可行的合作方式是很重要的。


避免陷入数据垃圾

在项目进行中,始终明确需要解决的商业问题,确保项目结果的最终完成。如果你只是在没有项目计划的情况下简单的开始分析一堆数据,你将会很容易迷失在数据里而且浪费时间。不要让项目被大量数据单纯驱动,集中精力在商业目标上。你可能不需要使用系统中的所有数据,仅仅使用和项目相关的数据就可以了。你甚至可能会发现现有的数据不能足以解决现实的商业问题。即使海量数据也不能保证你就拥有准确的用于建模的数据.例如,使用最新的信息进行预测客户行为往往比用大量的历史数据准确。


9. 数据挖掘部署策略

数据挖掘的结果发布可以很简单,例如只是生成一个规则集,对具体某个商业问题给出一个参考建议;也可能很复杂,如需要实时嵌入到客户的决策支持系统,为决策者提供前瞻性决定提供依据。以下阐述四种优化策略帮助部署高级分析结果,以及为获得最大投资回报设定的预测分析解决方案。这些策略是通过概括现实中使用Clementine数据挖掘平台的众多部署案例得到的,具有普遍应用性。

策略 1-快速更新批处理方式
快速更新批处理打分是应用最广泛的方式之一,适应于不需要实时响应的系统。例如,许多公司使用这种方式对客户数据库保持更新,通过客户关系管理应用为决策者提供最新预测分析。这种方式以及相关部署应用为与各式操作系统环境提供灵活集成。

Clementine Batch 和Clementine Solution Publisher帮助你高效部署数据挖掘结果和迅速更新数据。在不需要Clementine客户端界面的情况下,后台部署Clementine数据挖掘流。Clementine批处理模式在命令行执行,而Clementine Solution Publisher是一个灵活的打分组件,可以嵌入到应用中。这种部署方式可以在数据库内按计划执行,例如一个预测应用需要每月、每周、每天甚至每小时使用最新数据。因为这些运行方式都是执行整个数据流,更新打分时只需重新运行Clementine挖掘流。而且这种使用Clementine Batch或Clementine Solution Publisher的运行方式可以完全被SPSS Predictive Enterprise Service中的Predictive Enterprise Manager 模块自动使用。

不同于其它的数据挖掘解决方案,Clementine能够部署整个数据挖掘过程,包括关键的数据准备,建模以及应用模型打分任务,可以在IBM? DB2? , Oracle? Database, 以及Microsoft? SQL Server?内使用。这些Clementine部署操作因为使用三层体系架构,利用数据库的检索、优化和数据库内挖掘功能,确保高效数据库内挖掘。通常,大部分的公司只使用Clementine客户端运行所需要的批处理打分,而使用Clementine Batch或Clementine Solution Publisher进行周期性打分。Clementine客户端使用数据流描述语言(Stream Description Language)将需要执行的数据挖掘任务发送到Clementine服务器端。Clementine服务器分析挖掘任务决定那些可以在数据库端执行,将数据转移量降至最低。在数据库内运行完这些操作后,将剩余的和已整合的数据传递给Clementine服务器。
   
图9.1:Clementine三层体系架构


策略 2-海量数据批处理方式

许多Clementine实施应用将Clementine数据挖掘流部署在一个可解释的打分引擎上,这样就需要评估数据挖掘的实际时间以及所需的最小代码开发量。数据挖掘的过程可以被描述在一个可以被打分组件或应用程序所解析的文件。而对于海量数据批量打分,其应用在至少部分数据挖掘过程已经转化成某种编程语言,并且编译成计算机可识别代码的基础上。从定义上讲,已编译模式比可解释模式要快。

因为在海量数据打分环境下运行瓶颈经常发生在数据准备阶段而不是对新数据打分阶段,所以SPSS高速打分操作经常使用混合模式。Clementine使用PMML(Predictive Model Markup Language)将预测模型输出给高速打分引擎,PMML是一种描述数据挖掘模型的行业标准的XML标识性语言(PMML标准是一个用于模型交换的中间方式,这个标准是由一个由主流数据挖掘和数据库厂商组建的独立数据挖掘组织制定的)。PMML模型部署是在已将数据准备过程代码化后,将模型描述储存在PMML文件里,然后根据打分数据的要求将整个过程编译。SmartScore? 就是SPSS基于以上应用的PMML打分软件开发包(SDK)。Clementine PMML模型也可以实施在IBM DB2数据库内挖掘,不需要将数据 DB2数据库中迁入牵出,提高了性能。
   

图9.2:两种典型部署方式


策略3-实时封装方式

预测型分析应用在特定商业目标上时,通常需要实时、高速的对大数据集打分,SPSS预测分析应用例如PredictiveCallCenter? and PredictiveWebSite? 就是为已存在的客户交互功能软件和CRM系统而设计的实时高速产品。PredictiveCallCenter?与呼叫中心系统集成,提供如提升销售、交叉销售、客户保留等的即时推荐和决定支持。采用被已证明可行性商业规则结合实时预测分析技术,PredictiveCallCenter?自动提供推荐内容并结合销售意见和其他代理需要知道的信息将其推荐内容显示在代办人员的屏幕上。

Clementine可以将Clementine预测模型直接发布到SPSS预测分析应用产品上如PredictiveCallCenter。这样就允许将你自己训练的复杂模型使用PredictiveCallCenter实施并精炼成实时推荐应用发布出来。模型可以被开发成于多种类数据如网页、文本以及有关态度的数据相结合,并且具有特定商业目标的应用如提高交叉销售。多种预测模型可以被合并,例如,将交叉销售和欺诈检测模型相结合,可以确保销售人员不用将精力放在具有明显欺诈风险的客户身上。
   

图9.3:呼叫中心推荐信息产生流程


策略4-实时定制方式

对于在企业决策支持系统中决策优化目标需要不同功能的实时打分应用,或者针对某特定的商业实际需求,客户化的界面是十分关键和必要的。Cleo? 和SPSS Predictive Analytic Framework? 就是为适应广泛商业应用需求而设计的客户化实时打分产品。

Cleo是创建基于网页打分应用的软件平台,它能简单快速的创建客户化网络应用。企业级用户使用Cleo,基于网络的数据挖掘实施工具,给予同一公司的多用户使用Clementine模型和根据特定需求的数据打分的权限。采用Clementine创建的预测模型,通过Cleo d部署向导就可以很轻松的在线进行模型发布。在Cleo server能即时产生网络应用,当决策者需要借助Clementine生成的预测流程支持他们的决策时,通过网络应用很轻松的实时为数据打分。不同于其它一些基于网络应用的分析工具需要安装桌面软件或插件,Cleo应用是真正的瘦客户端,所有使用者只需使用网页浏览器就可以获得权限。 当企业需要更多高级功能,特别是通过与SPSS系统集成开发出更复杂的网络应用时,通常会使用Predictive Analytic Framework.这个平台和Cleo很类似,是一个可供多种客户使用的,网络分布的瘦客户端打分环境。它还加入了一些额外的功能如为了方便商业用户更新模型的简单易用界面,监控预测分析性能而自动生成的增益曲线等等。通过Predictive Analytic Framework向导,模型可以很轻松的发布到网络平台上。
   

图9.5: SPSS定制开发应用示例


10.成功案例

国外成功案例

Banco Espirito Santo (BES)

BES每天都致力于同那些可能流失的银行客户“奋勇战斗”。通过利用SPSS的数据挖掘工具Clementine,BES识别出了那些可能离开银行服务的客户的关键行为特征。Jorge Portugal 和他的战略营销队伍一起分析这些动态的关系,并分别建立起模型来验证相应的调整策略是否可以使得客户保持满意而不流失。
应用结果 ?


Bank Financial

Bank Financial主要服务于芝加哥的大都市区域,在其八个支部机构中提供完整的金融服务,包括贷款、储蓄、保险以及投资。其资产超过10亿美元,其给零售客户以及商业客户同时提供服务。 自从1962年开始进入到芝加哥郊区开展服务,Bank Financial就开始不断的成长,增加新的分支机构以及服务产品。为了满足客户不断变化的需求,Bank Financial的目标包括: ?

使用SPSS公司的Clementine,Bank Financial能够在很短的时间里得到更为准确的结果,提升了市场营销的有效性,降低了营销的成本。通过使用预测性的方法来进行市场营销,Bank Financial提升了其产品满足客户需求的能力,增加了客户赢得、保持以及满意度。


美国汇丰银行

“预测分析帮助我们在合适的时间、用合适的产品和服务来接触合适的人。而SPSS为我们提供了进行这些分析的有力武器。”

             ------美国汇丰银行客户获取和研究部经理Joe Somma

客户背景
美国汇丰银行是HSBC集团成员之一,通过位于纽约的 380 个分支机构为 140 多万银行客户提供核算、投资、借贷和其它金融服务。美国汇丰银行资产为350亿美元。

面临问题
同一地区可能有多家银行设有分支机构,从而引起持续的竞争来吸引和保持附近的潜在客户。为保持高水平的客户获取和保持率,并维持可赢利性,银行经常要实现这些目标:扩展和现有客户的关系、控制营销费用以维持利润以及快速转移市场。

解决方案
美国汇丰银行用 SPSS 对不断增长的客户数据进行挖掘,建立预测模型来发现交叉销售和“翻滚”销售机会。定位于每一产品最有价值的客户可以使销售最大化、营销费用最小化。而且,SPSS 的易用性使研究人员可以快速地把研究结果提交给决策者。

应用结果
小额银行是一个高竞争性的业务。过去,美国汇丰银行经常使用从市场研究公司购买的生命周期细分信息,向新旧客户推广产品。“外部的细分方案在发展新客户时可能是有价值的。但是,我们认为现有的140万用户的购买习惯和需求数据,会隐藏着更有价值的信息。”美国汇丰银行客户获取和研究部经理Joe Somma说。“我们只需对这些模式进行挖掘,来了解什么人在什么时候需要什么。这种预测分析帮助我们在合适时间、用合适的产品和服务接触合适的人。而SPSS为我们提供了进行这些分析的有力武器。” 揭示特定客户的需求,销售增加50% “账户的存款中哪种特征预示着客户可能会对某种投资感兴趣呢?这种购买行为过去曾发生过很多次,可以帮助我们预测未来的购买行为。”Somma 说,“用SPSS对数据进行挖掘帮助我们揭开了统计关系,更重要的是,为我们说明了这些关系的力度。这帮助我们在建立有效的营销策略的同时对资源进行优化。”Somma和银行各个产品部门的同事在用SPSS预测模型的基础上建立了成功的营销策略。短短三年时间,银行数个产品线销售提高了50%。

营销费用减少30%
通过更精确地定位目标客户,美国汇丰银行不仅发现了对特定产品最有前景的客户,同时也节约了费用。“比如,在进行直邮活动,我们可以更加有针对性,只寄出少量信件,而得到更高的回应率。在最近一次活动中,直接邮递的数量减少了三分之一,但销售收入仍相当于前次的95%。这样就极大地增加了投资回收率。”“没人希望淹没在不想要的产品信息中。通过用SPSS进行数据挖掘,我们减少了对那些不符合特征的客户的打扰。”

提高了建立和开展实时营销战略的能力
根据Somma的讲述,SPSS不仅帮助他们发现新的商业机会,而且比竞争者做得更快。“准备买存款证的客户可以买我们的,也可以买另一家银行的。这种情况下速度是非常重要的。越快进行营销活动,效果就越好。SPSS 的易用性和强大的分析功能,使我们可以快速地建立模型。SPSS具备我们所需的分析深度和广度。而且,模型建立后,向产品线决策者发布也非常容易。您可以把逻辑展示给他们,而他们无需了解任何统计分析的知识就可以快速看到与过去购买某一产品的客户类似的客户。”


美国First Union公司

“作为这项研究的成果,现在我们确切明白了需要做什么来满足客户的需求和期望...”

------First Union 的市场研究主管 Jim Robertson

面临问题
First Union 公司,美国第六大银行企业,需要检查其产品交付系统的性能需求和费用。希望把客户转移到低成本的渠道,但只是在发现这些新的渠道是可接受的之后。Market Advantage公司的咨询顾问们致力于发现能更好地满足客户需求的产品和交付渠道的变革,把客户转移到低成本渠道,并保护 First Union在竞争激烈的金融服务市场中处于领先地位。

解决方案
“SPSS是我们战略服务中理想的分析工具。它的方便性和深度分析功能都是一流的。”Market Advantage总裁Jim Libby说。作为金融业最大、最高级的数据分析项目之一,Market Advantage使用SPSS和咨询顾问公司合作,为First Union发现和实施关键的交付渠道战略。 该项目中,Market Advantage首先进行了计算机辅助调查,他们在80个访问站从3600多个金融服务客户中收集数据。这些客户明确回答了有关储蓄账户、抵押、信用卡、贷款和信托、以及产品交付等方面的问题。由于First Union主要通过其费用昂贵的交付渠道—金融中心来分发这些产品,它还希望了解其他可选的交付方式。

应用结果
通过多种方式的聚类分析,用不同的“命题”(结合定价、服务、交付和特性)确定了回答者的分类。之后采用 SPSS 对这些结果做进一步的分类和描述,确定了新的细分客户。 Market Advantage 建立联合仿真模型确定哪些客户愿意采用其他可选的交付方式,如电话银行。并把这些模型和SPSS融入同一界面来区分在不同的方案下谁希望、谁不希望购买、转换或移植。这些模型有助于预示客户行为,并确定了那些愿意移植到新交付渠道的客户。

“这项研究产生了最深入的、业界从未见到的对零售金融产品和其他可选分发渠道的同步认识。”Libby说。作为结果,First Union金融中心的主要目标发生了重大变化,把大量的销售和服务转移到低成本的渠道,并显著地为职员减少了管理工作量。


Achmea公司

客户背景
Achmea公司是荷兰最大的金融服务提供商,拥有数百万的家庭保险客户和企业保险客户。从2002年开始,该公司归属Eureko集团,该集团是总部位于荷兰的一家金融服务供应商,Eureko集团的业务遍及欧洲十个国家,保险是其主要业务领域。

应用结果
增强索赔处理能力,提高欺诈识别技巧 Achmea公司选择SPSS分析软件,增强其对保险索赔的处理能力,发掘更多的保险欺诈行为,降低企业运营成本,提高客户满意度。采用SPSS软件,该公司在索赔流程的初始-索赔告知阶段,就可以实时确定哪些索赔风险低,马上该认可,哪些索赔疑点重重,需作进一步的调整。这种“快速跟踪索赔处理”的方法为公司赢得了强劲的竞争优势,针对合法的索赔请求,不再需要履行成本高昂的处理流程,从而可以向客户提供更快捷的高品质服务。 有了SPSS软件,Achmea公司还可以自动发掘潜在的欺诈行为。“SPSS软件使我们自动识别可疑的保险索赔,而这些索赔往往伴随着高额成本支出。SPSS软件还大大加快了我们对值得信赖的忠诚客户的索赔要求的响应速度。借助SPSS,我们预计发现比现在还多两倍的索赔欺诈,节约的成本高达数百万欧元。”Achmea公司对私业务部非寿险运营总监说。


标准人寿保险公司

“Clementine所创造的价值远远超出了它本身,并且还将继续创造价值。”

------标准人寿客户数据分析部Donald MacDonald

客户背景
标准人寿保险公司是世界上最大的金融服务公司之一。它是标准人寿集团的一部分,该集团下还有标准人寿银行、标准人寿保健公司和标准人寿投资公司。

面临问题
标准人寿使用独立理财顾问(IFAs)向客户直接转售保单。公司为IFAs提供资金,但不知道每个顾问销售保单的具体情况。

解决方案
标准人寿选用Clementine建立起成功的IFAs的特征档案,并使用这些档案来培训表现不佳的顾问。为了建立这些档案,公司收集了每个IFA的信息,包括IFA的所在地、产生的收入、售出的保单数以及行为特征。

应用结果 ?


国内成功案例

中国建设银行风险预警管理项目

针对经营管理中的风险加剧,建立风险预警机制势在必行。为此,建设银行建立了基于SPSS统计分析产品的风险预警管理系统,建立了风险处理和监测系统,进一步完善了建设银行的风险数据存取和管理机制,保障了银行收益。目前,建设银行已经基本完成了中国银行业的内部评级分析体系架构。


光大银行信贷风险管理项目

光大银行采用Clementine产品,进行企业信贷风险数据分析,成功实现了对银行客户的信贷风险管理。光大银行对易用开放的产品、数据挖掘技术与信贷风险业务的完美融合极为认可。


中国银行信用风险评级管理项目

面对日趋激烈的竞争,高效、系统的信用风险管理成为金融机构保持竞争优势的关键。中国银行采用SPSS公司的统计分析产品SPSS软件,建立信用风险评级管理系统,有效组建内部评级分析体系。


中国中信银行

客户背景

中信银行成立于1987年,隶属于中国中信集团公司。其业务辐射全球70多个国家和地区,包括公司银行业务、国际业务、资金资本市场业务、投资银行业务、住房按揭业务、个人理财业务、信用卡业务等。在英国《银行家》公布的2007年度“中国银行业百强”中,中信银行以一级资本和总资产分别位列中国第七大商业银行,位居股份制商业银行第三位。

面临问题
随着零售银行资产业务的迅速扩张,全国个人购房贷款数量的快速增长,零售资产业务的重要性在不断提升,已经成为银行业的重要利润来源。而不良贷款的出现给银行带来的巨大的损失。原有的评分卡模型采用类似回归算法的方式,已不能满足快速变化的业务的需求。因此,迫切需要建立新的、灵活易用的数据挖掘分析系统,对零售业务活动进行风险预测,并将风险控制集成在银行整体业务流程中,为业务管理和决策提供有力的支持。

解决方案
使用企业级数据挖掘平台Clementine,按照CRISP-DM标准流程,对中信银行过去3~5年的客户贷款历史数据进行分析,建立一个基于运用神经网络、决策树—Logistic回归的两阶段个人信贷风险评分模型,使用Clementine提供的评估图、表格、统计量等多种方法对各模型进行全面的评估。在模型的发布阶段,使用Clementine Solution Publisher,将个人信用评分模型嵌入到业务审批系统中,快速高效地实现了新贷款申请的在线分析应用。

应用结果
Clementine良好的稳定性和卓越的性能大大提高数据挖掘效率,可视化编程让业务人员和行业专家能够参与到数据挖掘项目中,业务经验和数据挖掘技术的完美结合,提高了数据挖掘模型的质量。现在,客户提交贷款申请后,前端的审批员只要轻轻点击按钮,就可以实时获取该客户的风险评分,根据客户的评分初步判断是否要发放贷款,大大提高了工作效率。


部分金融业客户的名单(排名不分先后)

西班牙人民银行
新加坡花旗银行
法国国民互助信贷银行
瑞士银行
德国商业银行
英国莱斯银行集团
丹麦Basisbank
英国Cahoot
意大利Xelion
美国Allstate保险公司
法国AXA资产管理公司
韩国LG火灾保险公司
英国保诚人寿
日本安田互助人寿保险
标准人寿保险公司
中国银行
中国建设银行
中国光大银行
中国中信银行


 



a