SPSS-电信行业应用
电信行业应用
1.前言
随着电信业务的发展和体制改革地不断深化,国内电信行业内部各大运营商之间的竞争日趋激烈,这一趋势在国内移动通信业内表现的尤为突出。移动通信运营商为了获取更多的客户资源和占有更大的市场份额往往采取“简单”的价格竞争和“此起彼伏”的广告宣传战,其弊端显而易见。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决
。因此,客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。
从电信业务层面来讲,电信业务已从单纯的提供市话和长话服务演变为提供综合电信服务,如宽带、移动电话、语音、传真、图像、电子邮件、计算机和Web数据传输,以及其他数据通信服务。电信、计算机网络、因特网和各种其他方式的通信和计算机的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,为了提高企业竞争力利用数据挖掘技术来挖掘现有电信业务能力,提高商业效率具有重要意义。
数据挖掘的概念
数据挖掘是根据企业的既定业务目标和存在的问
,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。
数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。电信运营商拥有许多成熟的数据库应用系统,如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合,就能充分利用这些宝贵的数据,体现信息的真正价值。
数据挖掘技术在电信行业客户关系管理的主要应用领域如下:
(1)客户消费模式分析
客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。
(2)客户市场推广分析
客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。
(3)客户欠费分析和动态防欺诈
通过数据挖掘,
各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。
(4)客户流失分析
根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。
数据挖掘成功方法论
按照CRISP-DM(跨行业数据挖掘方法论),数据挖掘可以划分为以下六个步骤:
图1.1:数据挖掘项目实施流程示意图
商业理解
在这个阶段要明确面临的商业问题和数据挖掘想要达到的目的,完成商业问题到挖掘问题的定义过程。这阶段将产生的主要文档及提交物包括:
a) 确定商业目标。包括电信行业背景,需要实现的商业目标和成功标准等;
b) 形势评估。包括电信运营商拥有的资源、需求、假定和限制、风险偶然性、专业术语和成本收益等;
c) 在上述基础上确定数据挖掘的目标和成功标准;
d) 制定的项目计划和阶段性里程碑的设定说明。
明确挖掘的目的。在进行数据挖掘前,一定要明确挖掘的目标。因为电信业务变化快,不同的时期,挖掘的对象并不一样,挖掘目标也千差万别,而挖掘目的不一样,决定了挖掘使用的模型和算法完全不一样。例如:电信开通新视通业务后,根据不同的类型用户对新视通业务的使用情况,预测2-3个月内可能使用该业务的用户类型,使用机率和话务量。
明确影响挖掘目的的可能因素和结果。影响用户消费行为的因素是多种多样的,要比较的指标也是多种多样的,所有这些因素均应在模型中考虑。比如,要考虑IP业务对用户的影响,不仅要分析用户性质,还要分析用户消费额度;不仅要分析已经使用IP业务的用户性质和消费额度分布,而且要分析已使用IP业务的用户在未使用该业务前在原来的未开通IP业务用户中的分布和比例,还要分析使用IP业务的用户使用前和使用后消费行为的变化。
数据理解与数据准备
数据理解和数据准备在真实的数据挖掘项目中会占很大的比重,搜集所有需要的数据和数据质量的保证是数据挖掘结果正确与否的关键。
需要确定数据来源、确定数据整理方法。如对IP业务开通对用户行为的影响,原始数据来自用户资料、用户详单。根据上述确定的因素,定义原始指标和衍生指标。
建立模型
针对不同的数据挖掘目标和数据特性,应采用不同的挖掘算法建立模型,并对筛选出的每种候选模型进行数据处理并产生结果。目前在电信行业常用的算法有:C5.0 决策树、CART决策树、神经元网络和Logistic回归等算法。
模型检验
对产生的模型结果需要进行比对验证、准确度验证、支持度验证等检验以确定模型的价值。在这个阶段需要引入更多层面和背景的用户进行测试与验证,通过对几种模型的综合比较,产生最后的优化模型。
模型发布与应用
建立和检验模型并不是数据挖掘的目的,只有把模型发布到相关决策者手中,才能使我们通过数据挖掘提高企业利润或降低企业成本。例如在研究客户流失这个案例中,模型建立好后除了提交一份完整的报告和测试结果外,还需要通过发布工具将模型嵌入到用户的应用系统中,使决策者和相关管理者可以及时作出决策,实施相应的市场措施。
模型发布后并不意味一个数据挖掘项目的结束,数据挖掘系统与业务系统间存在着作用与反作用的交互关系,随着时间的推移和数据的变化,这个闭环作用的系统中的很多关键参数需要及时调整,才能保证挖掘结果的质量并延长其有效的生命周期。所以有时我们说“数据挖掘是一门科学,同时也是一门艺术”。
国内数据挖掘应用中存在的问题
数据质量和完备性
国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。
相应的人员素质
在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员,必将导致分析系统与现实脱钩,无法达到预期效果。
应用周期
a) 数据挖掘系统将会直接告诉你有关商业问题的
;
b) 数据挖掘系统将在工作流程中替代专业业务管理人员的角色;
c) 数据挖掘系统的建设过程中无视内部的知识和专家经验;
d) 数据挖掘系统是理论性的、以研究学习为导向的方法。
数据挖掘项目的建议:
结合项目的投资确定数据挖掘项目的目标和回报周期,保证项目的可实施性。
a) 数据挖掘项目整个实施流程的管理和控制是非常重要的;
b) 数据挖掘项目需要和用户的专业业务人员紧密配合,共同寻找答案;
c) 培训业务人员,传递产品技能,提供挖掘分析的技术支持,让业务专家而不是技术人员成为项目的主导者;
d) 需要提供外部观点和一般经验,同时与内部特色相结合;
e) 确保实际的,以结果为导向的项目原则。
本手册将从客户流失、客户细分、客户满意度和营销响应四个大方面,使用Clementine具体讲述数据挖掘在电信行业的具体应用。
2.客户流失
随着电信体制的改革和不断深化,国内电信行业内部各大运营商之间的竞争日趋激烈。电信运营商为了获取更多的客户资源和占有更大的市场份额,往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户。然而,统计发现,发展一个新客户比保持一个老客户的费用要高7倍,而如果“用户保持率”增加 5%,将有望为运营商带来 85% 的利润增长。因此,对老客户的保留直接关系到运营商的利益,无论是客户流失还是话务量流失都将对运营商的经营产生深远的影响。针对这一问题,目前国外电信界应用最为广泛的解决方案之一,是应用数据挖掘技术,研究流失客户的特征,从而对流失进行预测、并对流失的后果进行评估,采取客户保留措施,防止因客户流失而引发的经营危机,提升公司的竞争力。
具体说来,客户流失是指客户终止与企业的服务
或转向其它公司提供的服务。客户流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础,通过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销策略,采取针对性措施,开展客户挽留工作。
客户流失需要解决的问题
1)哪些现有客户可能流失?
客户流失的可能性预测。主要对每一个客户流失倾向性的大小进行预测。
2)现有客户可能在何时流失?
如果某一客户可能流失,他会在多长时间内流失。
3)客户为什么流失?
哪些因素造成了客户的流失,客户流失的重要原因是什么。主要对引起客户流失的诸因素进行预测和分析。
4)客户流失的影响?
客户流失对客户自身会造成什么影响?
客户流失对电信公司的影响如何?对可能流失客户进行价值评估,该客户的价值影响了运营商将要付出多大的成本去保留该客户。
5)客户保留措施?
针对电信公司需要保留的客户,制定客户和执行保留措施。
电信客户流失的类型
为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展客户保留活动。电信行业的客户流失现象可以分为以下三种情况:
1)公司内客户转移:客户转移至本电信公司的不同网络或不同业务。主要是电信公司增加新业务,或者资费调整引发的业务转移,例如从普通的固定电话转至IP 电话。这种情况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公司整体而言客户没有流失。
2)客户被动流失:表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。
3)客户主动流失:客户主动流失可分为两种情况。一种是客户不再使用任何一家电信运营商的电信业务;另一种是客户选择了另一家运营商,即所谓的“客户跳网”。“客户跳网”的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服务价值低于另一家电信运营商。这可能是客户对电信公司的业务和服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。这种客户流失形式是研究的主要内容。
如何进行客户流失分析?
对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确定义何为流失,进而区别处理。预测目标的准确定义对于预测模型的建立是非常重要的,它是建立在对运营商的商业规则和业务流程的准确把握的基础之上。在客户流失分析中有两个核心变量:财务原因/非财务原因,主动流失/被动流失。对不同的流失客户按该原则加以区分,进而制定不同的流失标准。例如,非财务原因主动流失的客户往往是高价值的客户,他们会正常支付服务费用并容易对市场活动有所响应,这种客户是电信企业真正需要保留的客户。而对于非财务原因被动流失的客户,对于预测其行为的意义不大。
研究哪些客户即将流失时,是一个分类问题。将现有客户分为流失和不流失两类,选择适量的历史上流失客户和未流失客户的属性数据组成训练数据集,包括:客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息等。Clementine提供人工神经网络,决策树,logistic回归等模型用于建立客户流失的分类模型。关于流失用户特征的分析,是一个属性约减和规则发现问题。Clementine提供关联分析方法,可以发现怎样的规则导致客户流失。也可以利用Clementine的决策树方法,发现与目标变量——是否流失——关系最为紧密的用户属性。由于不同类型的客户可能具有不同的流失特征,因此,在进行深入的客户流失分析时,需要先进行客户细分,再对细分之后的客户群分别进行挖掘。
在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么它可能什么时候会流失。生存分析可可以解决这类问题。生存分析不仅可以告诉分析人员在某种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变化,当生存率达到一定的阈值后,客户就可能流失。
分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分析。客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表征。减少客户流失的一个手段就是增加客户的流失成本。客户流失的受益分析就是判断客户流失的动机,是价格因素还是为了追求更好的服务等。这方面内容丰富,需作具体分析。
分析客户流失对电信公司的影响时,不仅要着眼与对收入的影响,而且要考虑其他方面的影响。单个的客户流失对电信公司的影响可能是微不足道的,此时需要研究流失客户群对电信公司收入或业务的影响。这时候可能需要对流失客户进行聚类分析和关联分析,归纳客户流失的原因,有针对性的制定防止客户流失的措施。
在预测出有较大流失可能性的客户后,分析该客户流失对电信公司的影响。评估保留客户后的收益和保留客户的成本。如果收益大于成本,客户是高价值客户,则采取措施对其进行保留。至于低价值客户,不妨任其流失甚至劝其流失。
总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业务目标的基础上准备数据、建模,模型评估,最后将模型部署到企业中。
案例分析
为了举例说明,我们设想为一个虚构的电信公司ABCTelcom的客户流失建模。ABCTelcom原本是市场的领先者,但目前正受到来自其它电信公司日益激烈的竞争。由于竞争对手接连推出了一系列新产品,并进行了大量的促销活动。最近半年来,ABCTelcom的客户流失较为严重。为了保持其战略性市场主导地位,ABCTelcom公司计划开展客户保留活动。在活动进行之前,为了尽可能提高活动收益,ABCTelcom需要对现有的客户的数据进行分析,从众多客户中找出流失可能性高的优质客户并针对其开展活动。而对于流失可能性低或者保留成本大于收益的客户,则可以不展开活动。此外,客户流失预测也能帮助ABCTelcom发现那些申请服务后不久就欠费停机的客户,从而减少这类客户带来的损失。
1. 商业理解
预测现有客户在未来六个月内流失的概率并分析保留客户活动的成本和收益,针对收益大于成本的客户开展客户保留活动,以减少公司优质客户的流失。
2. 数据理解
a) 数据说明
选取一定数量的客户信息(包括流失的和未流失的),选择相关的客户属性(包括客户资料、通话行为特征、消费属性、客服信息等)。利用直方图、分布图等数据分析工具初步确定哪些因素可能影响客户流失。所选取的数据说明如下:
1.用户编号
2.长途通话时间
3.国际通话时间
4.本地通话
5.掉线次数
6.付款方式
7.本地话单类型
8.长途话单类型
9.年龄
10.性别
11.婚姻状态
12.孩子数目
13.估计收入
14.是否有车
15.是否流失
其中客户流失状态有三种属性:
1.被动流失
2.主动流失,这是分析中特别关注的一类客户
3.未流失,仍然是ABCTelcom的客户
在分析中,我们主要关注的是,主动流失的客户。被动流失对电信公司来说是意义最小的,因为被动流失通常是客户发生欺诈,欠费等行为后不再继续使用该公司服务。主动流失指的是客户停止在ABCTelcom的业务,转向了其竞争对手,这通常是因为别的公司能够提供更切合客户需求的产品服务,是该行关注的焦点。在具体的应用之前,ABCTelcom将所有现有的客户归到上述的三个类别中。同时,所有的人口统计信息(也就是从年龄到是否有车)每六个月更新一次,而交易信息(从长途通话时间到长途话单类型)则是每个月实时更新的。为了让预测模型能预先进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自变量)之间设定了6个月的延迟。比如,人口统计信息和交易信息都是2007年1月收集的,而是否流失则是2007年7月的数据。也就是说,输入变量采集六个月后再将客户流失状态分类;因此该模型提早6个月预测客户流失。
b) 数据描述和图形
Clementine提供了一系列数据描述和可视化的工具,可以帮助分析人员对数据分布以及数据之间的关系进行基本探索。这些工具包括:数据审核,统计分析,网络图,直方图,散点图,两步聚类等等。
图2.1描述了客户的性别分布。可见,主动流失的客户以女性为主。而被动流失的客户男女比例基本持平。在三种客户状态中,被动流失的比例是最小的。
图2.1:用户流失与性别的关系
3.数据准备
在数据准备阶段,分析人员根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等。在本例中,由于长途通话时间,国际通话时间和本地通话时间都是反映用户的对电话的使用情况,因此,将三者合并,得到新的通话总时间变量:
通话总时间 = 长途通话时间 + 国际通话时间 + 本地通话时间
由于用户编号是一个系统自动生成的属性,不具有实际意义,因此,在分析中将用户编号排除到模型之外。
4.建立模型
将准备的数据划分为训练集和检验集,首先利用C5.0决策树模型进行属性约减,然后以约减后的属性为自变量,以是否流失为因变量,训练神经网络模型,得到相应的客户流失预测模型。对检验集应用该模型,并根据预测结果的准确性评价模型。下图是模型建立和评估的数据流图。
图2.2:Clementine中对客户流失建模的数据流图
执行数据流,C5.0算法得到的规则集如下图所示。可见其中年龄,收入,国际通话时间,本地通话时间和性别是最重要的五个变量。C5.0得到的规则集里,有三类客户很容易主动流失。但是这只是一个初始的分析结果,还需要使用神经网络对这五个变量进行进一步建模。
图2.3:Clementine中对客户流失进行属性约减得到的结果
由于我们的关心是客户主动流失,因此派生一个新变量流失概率,如果是否流失属性为主动流失,则取值为1,否则取值为0。采用年龄,收入,国际通话时间,本地通话时间和性别为输入变量,流失概率为目标变量,根据数据集训练得到一个5-1-1结构的神经网络模型信息如下。
图2.4:Clementine中采用神经网络对客户流失建模得到的结果
5. 模型评估和部署
对训练集应用神经网络模型,可以对每个客户流失的可能性打分。将客户按照流失概率由大到小排序,然后根据公式:价值=长途通话时间*2 +国际通话时间*5 + 本地通话时间*1派生出每个客户的价值大小。分析客户价值和流失概率之间的关系,对高价值高流失概率的客户进行采取措施,如给与一定的优惠,进行挽留,对低价值的客户可以任其流失。
图2.5:模型评估和部署的数据流图
图2.6:评分和价值的散点图
对高价值高流失概率的客户采取营销活动进行挽留的成本和收益如下图所示。可见,通过及时地发现要流失的客户并根据客户价值及时采取挽留措施,可以避免因客户流失而带来的损失。在验证模型后,可以利用Clementine Publisher发布模型,使得模型可以在多种环境中使用。
图2.7:营销活动的成本和收益
3.营销响应
为什么要进行营销响应分析?
为了发展新客户和推广新产品,电信公司通常会针对潜在客户推出各种直接营销活动。然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇由于活动响应率太低而无法收回成本的境况。事实上,一方面,在当今竞争激烈的电信市场上,客户每天通过短信,电话,邮件,电子邮件,网站广告等方式会接触到大量的电信业务广告。缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,电信用户越来越看重个性化服务,对新的电信业务具有较大的需求。
为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统帮助增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。
所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的增加。
提高营销响应率的成果是显然的。假设有100000个潜在客户,每客户期望平均收益为¥100元,若我们将响应率提高0.5%,达到1%,则花费同样的市场营销费用,每月能多增加收入¥50000元。
4.营销响应
为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可能遭遇由于活动响应率太低而无法收回成本的境况。在当今竞争激烈的金融市场上,一方面,客户每天通过短信、电话、邮件、电子邮件、网站广告等方式会接触到大量的金融业务广告,缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。另一方面,用户越来越看重个性化服务,对新的金融产品具有较大的需求。
为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。这些管理系统增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。事实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。
所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向恰当的用户推销恰当的产品。也就是说,有效的促销活动,不在于涉及客户的数量多少,而在于针对的都是具有高响应概率的目标人群。这不仅可以提升客户的满意度,增强客户对公司的忠诚度,而且可以降低客户获取费用,增加营销活动投资回报率,直接带来公司效益的增加。数据挖掘中的营销响应分析可以帮助达到提高营销活动回报率的目标。
什么是营销响应?
营销响应模型是电信企业使用最频繁的一种预测模型。目标变量是预测谁会对某种产品或服务的宣传进行响应,因变量是客户及其行为的各种属性,如:客户年龄,客户收入,客户最近一次购买产品的时间,客户最近一个月的购买频率等。利用响应模型来预测哪些客户最有可能对营销活动进行响应,这样,当以后有类似的活动时,利用响应模型来预测出最有可能的响应者,从而对他们采取相应的营销活动。而对响应度不高的客户就不用对他们进行营销活动,从而减少活动成本,提高投资回报率。
如何提高营销响应率?
电信公司应当在深入了解客户需求和客户特征的基础上,制定营销策略,从而达到增加营业收入和客户满意度的双重目标。我们提倡的不是针对最佳的客户群展开营销活动,而是针对每一个客户开展活动。所谓“知己知彼,百战不殆”,建立在对客户需求良好把握基础之上极具针对性的营销将极大地提高营销活动的成功率。要开展这样的营销活动,首先需要回答以下几个问题:
· 对谁开展营销活动?
· 多长时间开展一次营销活动?
· 何时开展营销活动?
· 如何开展营销活动?
电信公司在数据挖掘技术的帮助下,针对客户数据建立营销响应模型,在合适的时间,通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响应率和投资回报率。
图3.1:营销活动的四个要素
1) 选择合适的客户
电信公司对以往的营销数据进行分析,采用决策树分类等数据挖掘方法,识别出具有高响应率特征的客户作为营销活动的目标客户。通过选择合适的客户,可以排除对促销活动反应不积极的客户,将目标客户的数量大大减小,从而在实现更有针对性地营销的同时减小营销成本。据统计,通过减小目标客户的数量,通常可以节省25-40%的营销费用,同时增加营销响应率。
2) 选择合适的渠道
第二步是要针对用户选择合适的营销渠道,也就是和客户接触的方式。通过使用每个用户偏爱的方式与之接触,也有利于提升客户响应率。在确定促销渠道时,要考虑客户对渠道的偏爱,渠道成本,期望的响应率,其他营销限制条件等。
3) 选择合适的时间
在当今竞争激烈的社会里,客户有很多满足自己需求的机会和选择。因此,一旦发现了客户尚未被满足的需求或者出现遗失客户风险时,一定要及时和客户接触。这种事件驱动的促销方式,通常也可以取得较高的响应率。
4) 选择合适的活动频率
此外,并不是促销活动越多,效果越好。活动计划者需要根据实际情况,针对具体的客户,选择一个最优的活动次数,既使得客户的各种需求得到较好的满足,又避免因为过于频繁的接触而导致客户的反感。同时,过多的营销活动,也会增加营销成本。需要在提高的成本和提高的响应率带来的收益之间寻找一个最优点。客户自身的偏好对于营销活动的频率确定也至关重要,比如,对于不喜欢过于频繁的接到促销电话的客户,就要适量降低电话促销的频率。通过选择更有针对性地选择客户和根据客户的需求和偏好来推广促销活动,可以将促销活动的投资收益率提高25%—50%。
表3.1:营销活动过程
阶段
1.合适的客户
2.合适的渠道
3.合适的时间
4.合适的营销频率
目标
为营销活动选择最佳客户
为目标客户选择最优营销方式
在合适的时间对目标客户开展营销
确定最适合客户的营销频率
方法
预测分析
渠道优化
事件营销
促销优化
策略
预测谁是最有可能响应营销并且能给营销活动带来收益的客户
在客户偏爱的方式和公司的成本与能力之间选取最优结合点
变小的,经常性的营销活动为事件触发的营销活动
在客户响应率和公司收益之间选择最佳结合点
好处
降低25%-40%的营销成本
降低接触客户的成本
响应率的提高至少达到两倍
提高25%-50%的收益
案例分析
为提升业绩,某电信公司要决定执行直接营销活动。为此,分析人员需要识别出可能回应直接营销活动的客户,从而展开有针对性的直接营销。
1. 商业理解
识别出可能回应直接营销活动的客户,提高营销活动的响应率。
2. 数据理解
收集部分以往的营销活动数据(包括对活动响应的客户数据和未对活动响应的客户数据),选择客户属性,包括客户人口统计学特征和账户信息等。利用直方图、分布图来初步确定哪些因素可能影响客户响应。所选取的数据属性包括:编号,年龄,收入,孩子数目,是否有汽车,是否抵押贷款,居住区域,性别,婚姻状况,在该银行是否有储蓄帐户,在该银行是否有活期账户,是否对促销活动响应等12个字段。
其中是否响应是预测的因变量,共有两个属性:
否:客户未响应营销活动
是:客户响应营销活动
图3.2:数据
首先采用直方图,散点图等工具对数据之间的关系进行初步探索。下图是按照响应与否察看收入与孩子数目之间的散点图。可见,如果只考虑“孩子数目”属性,发现随着孩子数目增加,响应的客户比率降低。同时考虑“孩子数目”和“收入”属性,发现响应比率与“收入”和“孩子数目”的比值相关,这个比值通常被成为“相对收入”。
图3.3:收入与孩子数目的散点图
下图是孩子数目的分布图。有一个孩子的客户占44.3%。而在这些客户中,大部分是对直接营销活动进行响应的客户。总的说来,随着孩子数目增加,客户响应率降低。
图3.4:孩子数目的分布图
(3)数据准备
根据数据理解的结果准备建模需要的数据,包括数据选择、新属性的派生,数据合并等。在数据理解中发现,是否响应与“收入”和“孩子数目”的比率有关,因此,派生出“相对收入”属性,定义为:如果“孩子数目”为0,则“相对收入”=“收入”;否则,“相对收入”=“收入”/“孩子数目”。
(4)建立模型及评估
对数据进行预处理之后,分别使用C5.0决策树模型,神经网络模型,C&RT决策树分类模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。然后对测试集分别应用这三个模型,选取效果最好的模型部署到企业中。
图3.5:部分数据流图
使用C5.0决策树对是否响应建模,发现与客户响应相关的共有4条规则,与客户不响应相关的共有8条规则。响应的客户有如下特点:有孩子,相对收入大于49997元;或者有孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没孩子,没贷款,收入小于25563元。
图3.6:C5.0决策树分类结果
神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。此外,最重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。其估计精度达到了87.77%。
图3.7:神经网络的输出结果
使用C&RT对是否响应建模,得到的规则包括:当相对收入小于25564.5元时,客户倾向于不响应;当相对收入大于25564.5元,孩子数目小于等于0.5(需根据实际业务情况进行解释),没有抵押贷款,且年龄小于等于45时,倾向于不响应;当收入大于25564.5元,孩子数目小于等于0.5,没有抵押贷款,且年龄大于45的客户响应率高。
图3.8:C&RT分类结果
之后使用测试集评估不同模型的表现。下图给出了模型评估的结果。其中是否响应表示目标变量的真实值,$C-是否响应代表使用C5.0模型得到的目标变量预测值,$N-是否响应代表使用神经网络模型得到的目标变量预测值,$R-是否响应代表使用C&RT模型得到的目标变量预测值,可见,这三个模型中,C5.0的预测精度是最高的,达到了95.29%以上。最后,还可以查看不同模型预测结果的一致性。
图3.9:模型评估
(5)模型部署
通过建模和评估后,选择预测精度最高的C5.0模型部署到企业中。新的用户数据在经过C5.0模型评分后,按照流失概率的高低排序,通过Clementine Solution Publisher发布。
图3.10:模型部署数据流图
最后发布的结果如下表所示。评分就是某个客户流失的概率大小。
图3.11:对新数据进行评分
4.客户细分
客户细分的背景
随着电信体制改革的深化,中国加入WTO,我国电信运营业的竞争也日趋激烈。现今,“个性化”营销、“一站式”服务、沟通“零距离”、“用户至上,用心服务”等词眼层出不穷。综合来说,这些与营销和服务相关的术语、理念,对象都是电信客户。服务源于良好的营销,因此,客户关系最终决定了电信市场营销。
我国电信业发展到今天,不仅初步形成六大运营商同台竞技的市场格局,而且从“卖方市场”转向“买方市场”,决定了客户关系的“大一统”必然向细分客户关系和“个性化”营销和服务的转变。因此,细分客户关系是电信营销的关键所在,客户细分可以对客户获取、客户保持、客户增值等提供全面的支持。恰当的细分标准必须得到有效的细分方法的辅佐,细分方法的选取应该取决于细分的目的和主题,当目的明确时可以选取若干细分标准而后进行多维细分,但当运营商着眼于更广泛的消费者特性分析时,这种主观定义的细分方法就显得力不从心,数据挖掘方法相比于基于统计的客户细分方法的功效就强大得多,运营商对数据挖掘的重视程度也日益加深。基于数据挖掘技术的分类方法,为更深入的客户细分提供有效的手段。与其他行业相比,中国电信运营业拥有更多有关用户的数据。谁能正确地挖掘与分析隐含这些数据中的知识,谁就能更好地向用户提供产品与服务,能够发现更多的商机,从而在竞争中获胜。
客户细分的概念
客户细分的概念是美国市场学家温德尔?史密斯(wendeii R.Smith)于2O世纪5O年代中期提出来的。
客户细分(Customer Segmentation)是指按照一定的标准将企业的现有客户划分为不同的客户群。客户细分是客户关系管理的核心概念之一,是实施客户关系管理重要的工具和环节。Suzanne Donner认为:正确的客户细分能够有效地降低成本,同时获得更强、更有利可图的市场渗透。通过客户细分,企业可以更好地识别不同客户群体对企业的价值及其需求,以此指导企业的客户关系管理,达到吸引合适客户,保持客户,建立客户忠诚的目的。所谓客户细分主要指企业在明确的战略、业务模式下和专注的市场条件下,根据客户的价值、需求和偏好等综合因素对客户进行分类,分属于同一客户群的消费者具备一定程度的相似性,而不同的细分客户群间存在明显的差异性。客户细分的理论依据主要有:
(1)客户需求的异质性。影响消费者购买决策因素的差异决定了消费者的需求、消费者的消费行为必然存在区别。因此可以根据这种差异来区分不同的客户,客户需求的异质性是进行客户细分的内在依据。
(2)消费档次假说。随着经济的发展和消费者收入水平的提高,消费量会随之增加。但消费量的增加并非线性增长,而是呈现出区间性台阶式的变化形式,一旦消费者达到某种消费层次之后,消费变化的趋势将变得非常平缓。根据消费档次假说,消费者的消费档次或消费习惯在一段时期内是相对稳定的,这就为通过消费行为来划分消费群体提供了理论前提和基础。
(3)企业资源的有限性和有效市场竞争的目的性。资源总是希缺的,由于缺乏足够的资源去应对整个客户群体,因此必须有选择地分配资源。为了充分发挥资源的最大效用,企业必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。
(4)稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就显得毫无意义。
客户细分模型
客户群细分的目的是为了选择适合企业发展目标和资源条件的目标市场。客户细分模型是指选择一定的细分变量,按照一定的划分标准对客户进行分类的方法。一个好的细分模型,首先是要满足细分深度的要求,不同的使用者对客户细分的深度也有不同的要求,这就要求模型划分的结果能满足不同使用者的需要。其次是对数据的处理能力和容错能力,现代数据库的存储容量越来越大,数据结构也趋于多样性,误差数据也会随之增多,这就要求模型能适应数据在量和样上的膨胀,对误差数据能做出判别和处理。最后是模型要有很强的适用能力,变化是绝对的,而稳定只是相对的,无论是个人消费者还是消费群体,他们的消费行为都是在变化的,这就要求模型对客户的细分标准要随新的情况而不断更新。在对客户进行细分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额等为细分变量,如RFM 模型和客户价值矩阵模型。
(1)RFM模型。RFM细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。R—recency指客户上次消费行为发生至今的间隔,间隔越短则R越大;F—frequency指在一段时期内消费行为的频率;M—monetary指在某一时期内消费的金额。研究发现,R值越大、F值越大的客户越有可能与企业达成新的交易,M越大的客户越有可能再次响应企业的产品和服务。
(2)客户价值矩阵模型。客户价值矩阵模型是在对传统的RFM模型修正的基础上提出的改进模型。用购买次数F和平均购买额A构成客户价值矩阵,用平均购买额替代了RFM模型中存在多重共线性的两个变量,消除了RFM模型中购买次数和总购买额的多重共线性的影响。在客户价值矩阵中,确定购买次数F和平均购买额A的基准是各自的平均值,一旦确定了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少,客户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型客户、经常客户和不确定客户,如图4.l所示。
图4.1:客户价值矩阵
客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同,用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、基于客户价值相关指标的客户细分。
客户细分模型的基本流程
客户细分包括六个基本流程:
第一步:理解业务需求。在未来的业务中,知道谁是客户是个非常好的起始点,以了解瞬息万变的市场环境。清楚地了解客户也是对每个客户组采取有针对性措施的基础。客户细分就是根据其特征将相似的客户归组到一起,这是了解客户和针对特定客户组进行市场定向所不可缺少的。客户细分可根据许多不同条件而进行。这些条件可由简单的年龄、性别、地理位置或这些变量的组合来构成。当这些条件变得越来越复杂时,数据挖掘技术就应运而生了。决定使用哪些条件取决于客户细分的目的和应用方法。在使用数据挖掘开发客户细分时,最重要的部分是其结果应当在业务远景中意义深远,并且能够在实际业务环境中进一步得到应用。需要记住的一点是:由于市场环境是动态变化的,细分建模过程应当是重复性的,且模型应随着市场的变化而不断革新。
第二步:选择市场细分变量。由于变量选择的优劣对细分结果质量的影响非常显著,所以变量选择应该建立在理解业务需求的基础之上,以需求为前提,在消费者行为和心理的基础上,根据需求选择变量。此外,变量的选择还应该有一定的数量,多了不好,少了也不好。
第三步:所需数据及其预处理。为创建数据模型,必须使用收集到的原始数据,并将其转换成数据模型所支持的格式。我们称这个过程中的这个阶段为初始化和预处理。在运营商中进行客户行为细分通常需要行为数据和人口统计数据等类型的数据。行为数据是客户行为,可通过运营商的事务数据(账单数据、详单数据、CDR数据等)而捕获。人口统计数据是当客户首次启用其通话服务时,他们会将客户人口统计数据(如年龄、性别、工作等)提供给运营商,这在识别或描述客户组的特征时很有用。
第四步:选择细分技术。目前,通常采用聚了技术来进行客户细分。常用的聚类算法有K-means、两步聚类、Kohonen网络等,可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分。
第五步:评估结果。在对用户群进行细分之后,会得到多个细分的客户群体,但是,并不是得到的每个细分都是有效的。细分的结果应该通过下面几条规则来测试:与业务目标相关的程度;可理解性和是否容易特征化;基数是否足够大,以便保证一个特别的宣传活动;是否容易开发独特的宣传活动等。
第六步:应用细分模型。根据客户细分的结果,市场部门制定合适的营销活动,进行有针对性的营销。
总之,客户细分是电信运营商与用户二者实现双赢的重要举措。目前用户需求呈现多样化、个性化的趋势,只有通过深入分析用户消费行为,精确识别、细分用户市场,开发出针对不同层次用户的服务品牌进行服务营销,方能使得各方价值发挥到最大,实现共赢。不同级别的客户对服务的需求以及“赢”的概念是不同的,正是因为为不同的客户提供不同的服务才能使客户都达到满意,从而在市场上占据有利地位。
细分方法介绍
在数据挖掘中,往往通过聚类分析的方法来实现细分。聚类分析方法至少有以下几类:
1.K-Means聚类法。使用者需要首先确定数据分为K群,该方法会自动确定K个群的中心位置,继而计算每条记录距离这K个中心位置的距离,按照距离最近的原则把各个记录都加入到K个群,重新计算K个群的中心位置,再次计算每条记录距离这K个中心位置的距离,并把所有记录重新归类,再次调整中心位置,依次类推……,达到一定标准时,结束上述步骤。这种方法运算速度快,适合于大数据量。
2.两步聚类法:这种方法首先需要确定一个最大群数(比如说n),并把数据按照一定的规则分为n个群,这是该方法的第一步。接着按照一定的规则把n个群中最接近的群进行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比如说m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据结构本身自动确定应该把数据分为多少群。
3.Kohonen网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。
客户细分实例
假设某电信运营商拥有以下数据:帐户明细综合帐,存放的是帐户级费用和SI级的费用,包括应收帐、已欠账、调帐。时间为2006年11月到2007年3月。字段信息如下表所示:
1.费用标识
2.费用类型
3.已销帐金额
4.当前欠费
5.帐户标识
6.本地网标识
7.表示费用产生时费用所属营业点
8.转入总费用
9.使用费原始费用
10.总发生费
11.总调帐费用
12.原始新产生费用
13.转出总费用
14.补退费金额
15.账目类型
16.客户标识
费用类型说明表,包括以下字段:
1.费用标识
2.费用名称
3.ARPU状态
4.费用类型
假设该电信运营商希望更深入地了解小灵通客户的情况,建立更为有效的市场营销战略来给小灵通客户推销其电信产品。
首先根据维度表费用标识字段,选择小灵通客户的信息,包括上网通信费、区间通话费、区内通话费、国内长途、国际长途、电话信息、来电显示、短信,根据费用说明表中的ARPU值以及费用类型字段区分上述几种业务情况。我们将帐户综合明细帐,和费用类型说明中的数据根据客户标识进行合并,得到小灵通客户的费用和费用类型信息。数据流如下:
图4.2:数据理解数据流
重新结构化数据,并对每个客户每种类型的费用进行汇总,超级节点分别派生出本地话费、增值业务、国内长途、国际长途的数据,得到建模需要的数据:
图4.3:数据准备数据流
利用客户的交费记录,使用聚类算法,自动生成多个类别(如5档)。这样不仅能对小灵通客户有初步的认识,也能够为后续分析,如进行客户金字塔分析建立初步的分析基础。
根据上述数据,对小灵通客户五种不同类型业务的消费情况进行聚类,找出具有相似消费倾向的客户。
图4.4:两步聚类结果
从分析的结果可以看出:Cluster-1和Cluster-2中的客户基本上都是低价值的客户,Cluster-3中的客户在每个类型的服务中消费都比较高,即高价值客户。为了更好的发现高价值客户的特征,我们对Cluster-3中的客户进一步聚类,结果如下:
图4.5:高价值客户聚类
从结果看出,X=0,Y=0的客户,增值业务消费较高,X=0,Y=2的客户,上网通信消费较高,而X=3,Y=2的客户使用小灵通的目的主要是打电话。
5.客户满意度
结构方程模型用于客户满意度测评中的应用
由于客户满意度研究对企业的重大指导作用,科学高效的研究方法和手段将成为满意度研究机构的核心竞争力,其研究成果将为提高整个社会的整体满意水平,指导企业更加合理地配置资源提供科学决策依据。而结构方程模型越来越被业界认可为“满意度研究的科学高效的研究方法和手段”,成为进行满意度研究必不可少的工具。目前,美国用户满意指数(ACSI)、瑞典用户满意指数、欧洲用户满意指数、中国用户满意指数(CCSI)等国家级用户满意度研究都是采用结构方程模型构建关系。
一个有效实用的客户满意度研究结构方程模型的构建,需要对客户需求和感知的深入研究,通过大量的前期工作,比如客户焦点小组访谈、客户需求分解、客户预调查、行业专家拜访、购买消费现场观察等多种手段,才能构建起一个基础模型。然后通过消费者试调查,采集到一定的数据后,对数据进行多种统计处理、分析和检验,根据相应的结果对模型进行必要的调整,然后才能应用到实际的客户满意度分析当中去。否则的话,随意构建的模型只能成为使得数字游戏显得高深莫测的工具。下图是运用结构方程模型来研究满意度模型的的整个过程和大致思路:
图6.3:利用结构方程模型进行满意度研究过程和思路
在满意度研究中常用的结构方程模型示例
图6.4:满意度模型框架示例
满意度研究在金融行业中的应用
中国加入WTO梦已成真,各行各业的市场竞争更加激烈,特别是电信行业,将面临与日俱增的的市场压力、更精明的竞争对手和更苛刻的消费者。
中国通信行业正从快速增长阶段迈入平稳成长阶段,服务质量已经成为企业的核心竞争力。因而电信运营商市场营销工作的重点不仅仅是吸引新用户,突出价格策略的重要性,而是要将如何维护老用户作为市场营销工作新的重点,从而服务策略的重要性逐渐突现。目前市场上的价格竞争将逐渐过渡到服务竞争。移动与联通已经形成了较为激烈的竞争格局,随着电信、网通等国内运营商及国外运营商进入移动通信市场,这种竞争愈演愈烈。电信运营商能否在如此严峻的经营环境下顺利发展,关键因素在于能否站在消费者的角度考虑产品和服务,消费者是否满意其提供的产品或服务。
“客户满意”越来越成为众多电信运营商已经意识和正在努力提高的经营指标,成为运营商工作的重点。下面借某电信运营商在某省的满意度研究案例,介绍如何应用结构方程模型进行满意度研究。
研究目标
该电信运营商期望通过客户满意度研究了解:不同品牌客户和集团客户对该公司的整体服务工作的满意度评价,以及不同品牌客户对本公司各商业流程环节上的服务感受及满意度水平,并了解不同品牌客户对本公司的忠诚度。同时判断当前业务、服务工作中存在的主要问题。重点围绕各个商业过程,有针对性地发现问题,从而改善服务短木板。通过满意度指数,比较各地市分公司的服务工作差异,以便为省公司的考核提供依据。进行与竞争对手CSI测评的比较分析,确定该省电信运营商客户服务工作中有待改善的地方,并以绩优区域为标杆,不断提高和推动该省该电信运营商的用户满意度。预测今后的业务、服务竞争趋势,制定应对竞争的一系列策略和方案。
研究过程
本研究中的结构方程的满意度模型
在本研究中,各方面满意度的研究(如不同品牌客户和集团客户对整体服务工作的满意度、不同品牌客户对各商业流程环节上的满意度等等)都是基于图5.3所示的满意度框架模型,只是在不同的满意度分析时具体的观测指标有些变动(如不同品牌相应的商业过程的指标)。
图5.3:某省电信运营商的满意度研究的框架模型满意度模型框架示例
满意度研究的结果分析
根据图5.3所示满意度理论模型及潜在变量对应的观测变量,分别建立不同品牌满意度模型。在不同品牌的客户满意度理论模型得到验证后,就可利用调查数据计算得出客户的总体满意程度及各