一种基于Adaboost算法的宽带目标用户识别方法技术

技术编号:20076710 阅读:37 留言:0更新日期:2019-01-15 01:07
本发明专利技术涉及一种基于Adaboost算法的宽带目标用户识别方法。首先,进行数据建模,即对宽带目标用户数据样本进行预处理得到训练样本;而后,对训练样本进行特征选择,把能够表达用户行为信息的特征值输入Adaboost分类器训练得到宽带目标用户数据模型;最后,对运营商提供的宽带目标用户数据样本,采用同样的方法选择具有用户行为信息的特征值,输入到已建立好的宽带目标用户数据模型中,得到宽带目标用户营销成功概率值排名表,从而为运营商提供营销优先级建议。本发明专利技术能够提高企业外呼营销的成功率,减少企业的人工成本。

A Broadband Target User Recognition Method Based on Adaboost Algorithms

The invention relates to a broadband target user identification method based on Adaboost algorithm. Firstly, data modeling is carried out, that is, the training samples are obtained by preprocessing the broadband target user data samples; then, the training samples are selected by feature selection, and the eigenvalues that can express user behavior information are input into Adaboost classifier to train the broadband target user data model; finally, the broadband target user data samples provided by operators are selected by the same method. The eigenvalues with user behavior information are input into the established user data model of broadband target, and the ranking table of marketing success probability of broadband target users is obtained, thus providing marketing priority suggestions for operators. The invention can improve the success rate of external call marketing of enterprises and reduce the labor cost of enterprises.

【技术实现步骤摘要】
一种基于Adaboost算法的宽带目标用户识别方法
本专利技术属于目标用户识别领域,具体涉及一种基于Adaboost算法的宽带目标用户识别方法。
技术介绍
“宽带中国”战略实施方案的发布,标志着宽带成为国家战略性公共基础设施。随着物联网、云计算、“互联网+”等高新技术的发展,工信部加大“宽带中国”战略实施力度,促使电信行业加快宽带提速进程。与此同时,近年来运营商对宽带市场抢占的竞争呈现白热化状态。在这两者的共同推动下,家用宽带市场快速增长,宽带速率不断提升,从早期的2M、4M、6M、10M,逐步提升至20M、50M、100M、200M,甚至1000M。如何辨别宽带提速的目标用户,是每次提速进程中需要解决的核心问题。新产品和服务的营销推广,通常有两种方式:一种是“引进新用户”,一种是“渗透老用户”。在电信行业中,存量用户占总体用户量80%左右。因此,“渗透老用户”成为营销推广的主要途径。每次宽带提速需求的推出,传统工作模式是相关负责人结合过往经验提出3~5个条件,人工筛选出合适的目标用户进行外呼营销。这种方式需要耗费大量的人力、物力和时间成本,却没有带来预期的经济效益,营销成功率普遍低于8%。随着信息技术的发展,各个运营商沉淀海量的用户信息,包含用户基本信息,套餐资费、相关行为等数据。如何利用数据挖掘技术手段对用户的行为特征进行分析,精确化有潜力的目标用户,再进行宽带业务的推荐,提高营销的成功率,成为一个值得研究和探讨的课题。机器学习被广泛应用于数据挖掘分析领域。当前主流的机器学习算法包括决策树、随机森林、朴素贝叶斯、二次判别分析(QDA)、自适应增强学习算法(AdaBoost)等。AdaBoost算法通过多个弱分类器组合成一个强分类器,因简单、有效,可以使用不同方法构建子分类器等优点,广泛应用于各个领域。AdaBoost成功应用于手写字体识别,人脸检测,在检测速度和人脸识别准确率上均有很大的提高。在机器视觉领域中,研究者利用AdaBoost进行车辆检测、车牌识别和医学诊断。此外,AdaBoost及其变种算法还广泛应用于各行各业,如:数据库存储中的散列技术,风力发电领域的风速预测,金融领域的股票趋势预测和信用评价,饮食行业,猪肉和鸡肉的新鲜度测评。这些成功的行业应用证明了AdaBoost算法的优越性能。本专利技术针对现有宽带提速目标用户识别,采用人工筛选进行外呼营销耗时费力且营销成功率低的问题,提出一种基于Adaboost算法的宽带目标用户识别模型。经过数据预处理、特征提取、AdaBoost分类器构建目标用户模型,提供一张宽带提速目标用户成功概率的排名列表,提高企业外呼营销的成功率,减少企业的人工成本。
技术实现思路
本专利技术的目的在于提供一种基于Adaboost算法的宽带目标用户识别方法,能够提高企业外呼营销的成功率,减少企业的人工成本。为实现上述目的,本专利技术的技术方案是:一种基于Adaboost算法的宽带目标用户识别方法,首先,进行数据建模,即对宽带目标用户数据样本进行预处理得到训练样本;而后,对训练样本进行特征选择,把能够表达用户行为信息的特征值输入Adaboost分类器训练得到宽带目标用户数据模型;最后,对运营商提供的宽带目标用户数据样本,采用同样的方法选择具有用户行为信息的特征值,输入到已建立好的宽带目标用户数据模型中,得到宽带目标用户营销成功概率值排名表,从而为运营商提供营销优先级建议。在本专利技术一实施例中,该方法具体实现步骤如下:步骤S1、数据样本的获取及特征提取:对宽带目标用户数据样本,以派单信息为基础表,通过用户ID,关联数据仓库的相关表,获得包括用户基本信息、套餐内容、行为特征的数据,得到包括用户ID、姓名、用户网龄、宽带速率、在网时长、流量趋势的23个属性维度的宽表;此后,筛选掉对建模没有实际意义字段;对套餐内容字段结合业务规则提取出可量化的套餐价格档次;经过数据预处理,得到宽带目标用户行为的相关特征信息作为后续建模的数据集,即训练样本集;步骤S2、基于AdaBoost算法的宽带目标用户识别:输入训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},初始化样本权重为D1(x)=1/n;每一轮根据样本权重训练弱分类器ht=C(D,Dt);根据训练结果计算弱分类器的错误率根据错误率,设置弱分类器的权值βt,并调整样本权重Dt+1(x);当训练轮数达到预定的次数T或误差达到设定的阈值,结束循环并计算强分类器,输出最终结果在本专利技术一实施例中,在步骤S1中,在关联数据仓库的相关表的过程中,若出现部分基础数据为空的记录,则直接删除该条数据。在本专利技术一实施例中,在步骤S1中,对于派单信息中,若同一个用户有多条记录,则仅保留最新派单的数据。在本专利技术一实施例中,在步骤S2中,采用python中的sk-learn包的Adaboost算法中的分类算法,具体对应AdaBoostClassifier(ase_estimator,n_estimators,learning_rate,algorithm,random_state),其中ase_estimator是基本分类器,选用CART;n_estimators是弱分类器个数;learning_rate是学习率,弱分类器权重缩减系数;algorithm,选择SAMME.R算法;random_state,设置为None。在本专利技术一实施例中,n_estimators取50个,learning_rate取值范围为0到1。相较于现有技术,本专利技术具有以下有益效果:本专利技术方法,经过数据预处理、特征提取、AdaBoost分类器构建目标用户模型,提供一张宽带提速目标用户成功概率的排名列表,提高企业外呼营销的成功率,减少企业的人工成本。附图说明图1为本专利技术宽带目标用户识别整体流程图。图2为本专利技术识别系统的流程图。图3为宽带目标用户不同概率区间的营销成功率。具体实施方式下面结合附图,对本专利技术的技术方案进行具体说明。本专利技术提供了一种基于Adaboost算法的宽带目标用户识别方法,首先,进行数据建模,即对宽带目标用户数据样本进行预处理得到训练样本;而后,对训练样本进行特征选择,把能够表达用户行为信息的特征值输入Adaboost分类器训练得到宽带目标用户数据模型;最后,对运营商提供的宽带目标用户数据样本,采用同样的方法选择具有用户行为信息的特征值,输入到已建立好的宽带目标用户数据模型中,得到宽带目标用户营销成功概率值排名表,从而为运营商提供营销优先级建议。该方法具体实现步骤如下:步骤S1、数据样本的获取及特征提取:对宽带目标用户数据样本,以派单信息为基础表,通过用户ID,关联数据仓库的相关表,获得包括用户基本信息、套餐内容、行为特征的数据,得到包括用户ID、姓名、用户网龄、宽带速率、在网时长、流量趋势的23个属性维度的宽表;此后,筛选掉对建模没有实际意义字段;对套餐内容字段结合业务规则提取出可量化的套餐价格档次;经过数据预处理,得到宽带目标用户行为的相关特征信息作为后续建模的数据集,即训练样本集;步骤S2、基于AdaBoost算法的宽带目标用户识别:输入训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},初始化样本权重为D1(x)=1/n;每一轮本文档来自技高网
...

【技术保护点】
1.一种基于Adaboost算法的宽带目标用户识别方法,其特征在于,首先,进行数据建模,即对宽带目标用户数据样本进行预处理得到训练样本;而后,对训练样本进行特征选择,把能够表达用户行为信息的特征值输入Adaboost分类器训练得到宽带目标用户数据模型;最后,对运营商提供的宽带目标用户数据样本,采用同样的方法选择具有用户行为信息的特征值,输入到已建立好的宽带目标用户数据模型中,得到宽带目标用户营销成功概率值排名表,从而为运营商提供营销优先级建议。

【技术特征摘要】
1.一种基于Adaboost算法的宽带目标用户识别方法,其特征在于,首先,进行数据建模,即对宽带目标用户数据样本进行预处理得到训练样本;而后,对训练样本进行特征选择,把能够表达用户行为信息的特征值输入Adaboost分类器训练得到宽带目标用户数据模型;最后,对运营商提供的宽带目标用户数据样本,采用同样的方法选择具有用户行为信息的特征值,输入到已建立好的宽带目标用户数据模型中,得到宽带目标用户营销成功概率值排名表,从而为运营商提供营销优先级建议。2.根据权利要求1所述的一种基于Adaboost算法的宽带目标用户识别方法,其特征在于,该方法具体实现步骤如下:步骤S1、数据样本的获取及特征提取:对宽带目标用户数据样本,以派单信息为基础表,通过用户ID,关联数据仓库的相关表,获得包括用户基本信息、套餐内容、行为特征的数据,得到包括用户ID、姓名、用户网龄、宽带速率、在网时长、流量趋势的23个属性维度的宽表;此后,筛选掉对建模没有实际意义字段;对套餐内容字段结合业务规则提取出可量化的套餐价格档次;经过数据预处理,得到宽带目标用户行为的相关特征信息作为后续建模的数据集,即训练样本集;步骤S2、基于AdaBoost算法的宽带目标用户识别:输入训练样本集D={(x1,y1),(x2,y2),...,(xn,yn)},初始化样本权重为D1(x)=1/n;每一轮根据样本权重训练弱分类器ht=C(D,Dt);根据训练结果计算弱分类器的错误率根据错误率...

【专利技术属性】
技术研发人员:郭丽清杜涵
申请(专利权)人:厦门大学嘉庚学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1