数据挖掘在电信客户分群中的应用

摘要:介绍了电信企业数据挖掘的若干主题及常用数据挖掘模型;利用数据挖掘工具KXEN,采用K-means聚类方法给出了一个电信客户分群的解决方案。

关键词:客户分群;聚类分析;K-means算法

中图分类号:TP311.13文献标识码:A 文章编号:1009-3044(2008)24-1123-03

Application of Data Mining in Telecom Customer Segmentation

LIU Yi-jun1, FU Han-yu1, CAI Qiu-ru1, HE Hui2, LUO Ye1

(1.Jiangsu Teachers University of Technology, School of Computer Sciences and Engineering, Changzhou 213001,China; 2.Changzhou Branch of Jiangsu Telecom, Changzhou 213003,China)

Abstract: The paper introduces the data mining topics and data mining models frequently used in telecom. A resolution of Customer segmentation is proposed based on the data mining tool KXEN and K-means method.

Key words: customer segmentation; clustering analysis; K-means algorithm

1 引言[1]

随着电信体制改革的深化,电信业的竞争也日趋激烈。电信业是典型的数据密集行业,与其他行业相比,则电信行业拥有更多的有关用户的数据。谁能正确地分析这些数据得到有用的知识,谁就能更好地向用户提供服务,发现更多的商机,从而在竞争中获胜。数据挖掘可以从大量数据中自动获取有用信息或知识,因此数据挖掘在电信业中有重要的应用价值。

该文组织结构如下:第二部分分析了电信数据挖掘的若干主题及其相关的数据挖掘模型;第三部分介绍了客户分群及其K-means聚类算法的实现流程;第四部分基于实践经验给出了建立电信客户分群模型的解决方案。

2 电信领域的数据挖掘模型[2,3]

电信的数据挖掘应用开发,主要进行客户分群、客户流失分析、客户发展分析、客户行为分析等数据挖掘专题分析,逐步实现业务预测和信息挖掘等功能。

1)客户分群:客户分群将一个大消费群体划分为一个个细分群体,同属一个分群的消费者相似,而隶属于不同分群的消费者被视为不同的群体。企业根据客户提出的要求和实际所做的不断地改善产品和服务,从而不断提高该客户群的满意度。

2)客户消费模式分析:从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为相关经营决策提供依据。

3)客户市场推广分析:利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。

4)客户欠费分析和动态防欺诈:总结各种骗费、欠费行为的内在规律,并建立欺诈和欠费行为的规则库。当客户的话费行为与库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。

5)客户流失分析:根据已有的客户数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。

6)大客户的识别:企业的大客户群体往往是利润的主要来源。识别出大客户,为他们制定有针对性的措施,提高大客户的忠诚度,是电信运营商继续保持领先的关键所在。此外数据挖掘工具不仅能够根据现有的消费量的多少来判断用户是否为大客户,还应该可以根据现有大客户的资料,提取大客户的特征,并发现潜在的大客户。

7)客户利润分析:分析客户的利润分布情况,得到带来不同利润的客户的具体特征。系统将客户利润分为高、中、低三种类型。用户可以对高、中、低的具体情况进行设置。

表1总结了电信领域中可以应用的主要数据挖掘模型及其采用的方法。

3 基于K-means聚类的客户分群[4,5]

客户分群是根据一个或多个客户属性组合把所有客户划分成不同的类,同类内的客户具有最大的相似性,异类间的客户具有最大的差异性。

通过对客户合理的类别划分,并对当前客户以及预期的客户群作区段分析,判断不同区段的突出特点,对客户总体构成有准确的认识,对客户的服务和营销更具针对性。对客户分群可以达到如下目标:

1)了解客户的总体构成;2)了解各种客户价值的客户群体特征;3)了解流失客户的客户群体特征;4)了解客户群体的消费特征;5)了解各信用等级的客户群体特征。

数据挖掘技术中的聚类(Clustering)分析技术能够被运用来从客户基本库中发现不同的客户群,并且刻画不同客户群的特征,达到细分客户群的目的。本文采用K-Means聚类模型进行客户分群,主要因为K-means算法具有以下优点:1)能够很好的解决给出数值型属性的数据对象的聚类问题,经常以局部最优结束;2)对处理大数据集,该算法是相对可伸缩的和高效率的;3)对输入数据顺序的敏感度一般;4)虽然对处理噪声数据的能力不高,由于电信的数据还算完整,可以通过数据预处理来弥补;5)该算法结果比较容易理解,建模速度也较快。

K-means处理流程以算法形式表示如下。算法的复杂度是0(nkt),其中,n是所有对象的数目,k是簇的数目,t是迭代的次数,通常k<

输入:结果簇的数目k,包含n个对象的数据库。

输出:k个簇,使平均误差准则最小。

方法:

① 任意选择k个对象作为初始的簇中心。② repeat。③ 根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇。④ 更新簇的平均值,即计算每个簇中对象的平均值。⑤ until不再发生变化。

K-means算法尝试找出平方误差函数值最小的k个划分。算法使得各聚类本身尽可能紧凑,而各聚类之间尽可能的分开。当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。本文选择这种算法建立数据挖掘模型,从而对客户做初步的划分,将含原始客户信息的数据库划分成K个聚簇,使得同一簇中的对象是“相似的”,而不同簇中的是“相异的”。

4 实例研究

我们使用商业数据挖掘自动化软件KXEN对常州电信客户进行分群研究。KXEN软件分群采用结构风险最小化的K-Means算法实现。我们选择了营销服务相对薄弱的小型商客作为目标客户群,取得目标客户群的近一年的相关数据。其中小型商客是指客户有1-2门电话、小灵通的客户,不包含已经安装宽带的客户,有效小型商客为23074户。基础表涵盖了以下数据:①用户及客户的基本信息:包括客户身份信息、联系方式、产品拥有情况、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等;②价值信息:包括业务月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用、缴欠费信息等;③行为信息:包括时长、次数、跳次、发话不同号码数、时长集中度、次数集中度等。

我们通过KXEN软件对客户价值(V)与客户行为(B)进行多维分群,其中参加分群的V变量有21个,B变量有15个。首先根据价值维度的分群结果,计算出每个群的平均收入进行客户价值分析:

ARPU=客户群总收入/m

其中m为该群客户人数,ARPU(Average Revenue Per User)为每用户平均收入。

然后对行为B变量作Z分数。设某个客户i使用产品j的时长是Tij,所有客户使用产品j的平均时长为Tj。对于客户i,其产品j的 分数为Zij=(Tij-Tj)/σj,其中σj为所有客户使用产品j的时长标准差。单个客户i使用电信所有产品的Z分数为Zi= Zij,其中n为客户使用的产品数量。客户群k的Z分数为Zk=( Zi)/m,其中m为分群k中的客户数。

最后对V变量按总费用进行群排序,形成VB矩阵交叉图。在组成的交叉矩阵中根据客户数的多少选出SS1-SS8共8个战略客户群,共有客户17128户,占总客户的比例为74.23%,接着对战略客户群进行特征分析。图1是分群后的总体情况,图2是分群矩阵图,图3是各群分布气泡图。

群分布气泡图

图3中气泡的大小代表客户数的多少。SS7、SS8客户群最大。横轴方向越靠右,表明客户价值越高。SS1、SS2、SS3群为高值的小商客,SS7、SS8为低值小商客。在横轴的上下,表明客户的消费趋势值情况,在横轴以下为下降趋势,偏离越多,下降值越大。SS2群下降最多。SS1上升最为明显。

下面以中值下降的SS6群为例进行分析(限于篇幅,仅给出竞争特征的图表)。

1)总费用特征

该群属中值群,客户数1964,占总中小商业客户的8.5%,客户ARPU为 93.35元;总体费用下降趋势为-5.28元,为各群次低;总费用趋势上升的客户比例极少。总费用前半年均值106元,前半年趋势基本平稳。

2)长话特征

该群用户长话费均值为9.97元,占总费用的比例为11%,相对较低。长话费用月均下降1.96元,为各群次高。长话费用高于50元的和长话费上升的客户比例都很低;使用传统长话的客户各群中比例最高。另外,该群用户长话使用量很少,且主要使用传统长途,传统长话占长话比例最高;长话费12个月均呈下降趋势。

3)市话特征

该群用户市话费用均值为中值,为41.67元,月平均下降3.53元。区间费用的均值2.92元,区间费用趋势月下降0.37元。

4)竞争特征

结合图4分析可得,该群客户也有较明显的卡类业务使用习惯,主要使用他网卡类业务,但是下降趋势最为明显。

5)其他特征

该群用户的窄带上网信息费也在下降,优惠费用均值为13元,为各群中次低。套餐用户较少。

综上可得SS6群特征如下:

a.该群为中值下降群,ARPU值为93.35元。总费用趋势下降较明显,月均下降5.28元,各项费用均呈下降趋势。

b.该群客户为长话低值客户,长话主要使用传统长途。

c.使用他网卡较多,但他网IP卡下降趋势明显。SS6群使用非电信卡消费均值最高,长话流失严重。

针对上述情况,拟采用的营销策略是用超级IP、商务行、17908卡等有针对性地开展策反工作。

5 结论

数据挖掘可以对大量数据进行自动分析,帮助我们去学习新的潜在模式。聚类分析能够为我们解决客户分群问题,从而应用于电信目标市场营销。本文使用数据挖掘工具KXEN,采用K-means方法给出了一个电信客户分群的解决方案。实践证明本文提供的电信目标市场营销客户分群的解决方案是成功有效的。

参考文献:

[1] 廖里,余英泽.数据挖掘和数据仓库及其在电信业中的应用[J].重庆邮电学院学报自然科学版,2000(4):34-37,81.

[2] 宋威.江苏电信数据挖掘专题分析报告[J].江苏电信,2004.6.

[3] 陶露菁.基于数据挖掘的电信客户分群设计和实现[D].南京大学硕士学位论文,2005.06.

[4] 邓晓梅.基于数据挖掘的电信客户细分模型研究[D].大连理工大学硕士学位论文,2006.10.

[5] 韩家炜,Kamber M,著. 数据挖掘:概念与技术[M].范明译.北京:机械工业出版社,2001.

[6] 刘文.凯森(KXEN)商业数据挖掘[EB/OL]..

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”