一种识别目标终端的方法和装置制造方法及图纸

技术编号:18426952 阅读:40 留言:0更新日期:2018-07-12 02:08
本发明专利技术公开了一种识别目标终端的方法,包括:从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对第二数据进行数据校验和/或数据转换后得到分析数据集;获取分析数据集,根据用户的通信特征从分析数据集中提取用户的特征向量;用户的特征向量用于表征用户具有的通信特征;根据用户的特征向量将所有用户分为第一用户和第二用户,根据第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据第二用户的特征向量和第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据第二聚类结果识别出目标终端。本发明专利技术还公开了一种识别目标终端的装置。

A method and device for identifying the target terminal

The present invention discloses a method for identifying the target terminal, including: extracting data from the data source, preprocessing the data according to the preset strategy to remove the abnormal first data, preserving the second data for the normal data set, and analyzing data for the second data and / or data conversion to get the analysis data. Collect the analysis data set, extract the user's feature vector from the analysis data set according to the user's communication features; the user's feature vector is used to characterize the communication features of the user; according to the user's feature vector, all users are divided into first and second users, and all the first users' data are obtained according to the data of the first user. A user's clustering results, as the first clustering result, is clustered according to the second user's eigenvector and the first clustering results, and the clustering results for all users are obtained as the second clustering results, and the target terminal is identified according to the second clustering results. The invention also discloses a device for identifying the target terminal.

【技术实现步骤摘要】
一种识别目标终端的方法和装置
本专利技术涉及业务支撑技术,尤其涉及一种识别目标终端的方法和装置。
技术介绍
在移动互联网时代,第二条曲线是拉动收入的关键,而终端则是第二条曲线的重要载体。现阶段移动公司整体终端销售主要依靠社会渠道进行销售,如何对社会渠道销售终端进行有效监控和管理,并提高移动公司酬金对用户发展质量的效率是当前移动公司面临的主要问题之一,目前采用的方法是对用户与销售终端通信行为进行聚类分析,挖掘出疑似违规销售终端,防控移动公司终端销售的市场秩序被扰乱和酬金流失的风险。现有技术中基于用户的通信行为、消费特征、办理业务和位置信息等内容运用K-means相似度聚类算法进行聚类,该算法是指根据用户的通信特征等内容计算用户与用户之间的相似性,相似性聚类算法的理论基础是信息过滤和信息检索,不需要业务人员对聚类对象的评价等进行主观判定,只需要通过对对象的内容进行特征提取,可以达到对对象的特征表示。聚类算法提取用户的特征属性,从而判定用户与用户的相似程度。K-means相似性聚类算法包括两种:启发式相似性聚类方法和模型构建方法。启发式相似性聚类方法是根据业务人员的经验来选择相关的计算方式,再由计算结果和实际的结果进行比对验证,根据对照结果修改计算公式以达到最终聚类结果。模型构造方法是根据历史数据集训练出一个对应的数据模型,计算用户之间的特征向量,进而发现疑似问题数据。现有的K-means相似度聚类算法方案存在以上的缺点:1、新入网用户和新指标维度加入影响聚类准确性问题。由于新入网用户表现出的通信特征信息很少,新加入的统计维度也会对用户特征信息产生影响,这样会产生冷启动的现象。K-means相似度聚类算法不具有足够的多样性,使得聚类结果会很快地收敛于一个小范围的集合,从而丧失对更多用户通信特征信息内容关联的判断,无法有效的对新加入用户做出全面而准确的聚类,而新加入的统计维度也会对用户聚类产生准确性的影响。2、数据稀疏问题。由于用户的通信行为、消费特征、办理业务和位置信息等转换成用户特征向量与用户对应关系时,极少用户能涵盖到大部分维度的特征向量,很大一部分用户只表现出对某些维度的特征向量,大量新用户的入网使得用户特征矩阵数据稀疏问题更加明显,同时用户之间选择的差异性也造成很大的数据稀疏。对于数据稀疏问题,利用K-means相似度聚类算法基于二元关系的方法不能达到全面而准确的识别疑似违规终端的效果。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种识别目标终端的方法和装置,解决冷启动、数据稀疏和运算性能的问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例提供了一种识别目标终端的方法,所述方法包括:从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据所述第二聚类结果识别出目标终端。上述方案中,所述根据所述第一用户的数据获得对应所有第一用户的聚类结果,包括:根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。上述方案中,所述根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,包括:根据所述第一聚类结果确定所述第一用户聚类的特征向量;确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。上述方案中,所述根据所述第二聚类结果识别出目标终端,包括:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。上述方案中,所述用户的通信特征分为若干个主题;所述根据所述第二聚类结果确定用于识别所述目标终端的预测向量,包括:根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。本专利技术实施例提供了一种识别目标终端的装置,所述装置,包括:第一处理模块、第二处理模块、第三处理模块和第四处理模块;其中,所述第一处理模块,用于从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;所述第二处理模块,用于获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;所述第三处理模块,用于根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;所述第四处理模块,用于根据所述第二聚类结果识别出目标终端。上述方案中,所述第三处理模块,具体用于根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。上述方案中,所述第三处理模块,还用于:根据所述第一聚类结果确定所述第一用户聚类的特征向量;确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。上述方案中,所述第四处理模块,具体用于:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。上述方案中,所述用户的通信特征分为若干个主题;所述第四处理模块,还用于根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测向量。与现有技术相比,本专利技术提供的一种识别目标终端的方法和装置,从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转本文档来自技高网
...

【技术保护点】
1.一种识别目标终端的方法,其特征在于,所述方法包括:从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据所述第二聚类结果识别出目标终端。

【技术特征摘要】
1.一种识别目标终端的方法,其特征在于,所述方法包括:从数据源提取数据,根据预设策略对数据进行预处理,以去除异常的第一数据,保留用于得到分析数据集正常的第二数据;对所述第二数据进行数据校验和/或数据转换后得到所述分析数据集;获取所述分析数据集,根据用户的通信特征从所述分析数据集中提取用户的特征向量;所述用户的特征向量用于表征用户具有的通信特征;根据所述用户的特征向量将所有用户分为第一用户和第二用户,根据所述第一用户的数据获得对应所有第一用户的聚类结果,作为第一聚类结果;根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,作为第二聚类结果;根据所述第二聚类结果识别出目标终端。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一用户的数据获得对应所有第一用户的聚类结果,包括:根据所述第一用户的数据构造第一用户特征矩阵,针对根据所述第一用户特征矩阵生成的第一用户特征图,运用图摘要聚类方法进行聚类后获得所述第一聚类结果,所述第一聚类结果中包含若干个第一用户聚类。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二用户的特征向量和所述第一聚类结果进行聚类,得到对应所有用户的聚类结果,包括:根据所述第一聚类结果确定所述第一用户聚类的特征向量;确定第二用户的特征向量与所述第一用户聚类的特征向量的相似程度参数,根据所述相似程度参数将所述第二用户加入相应的所述第一用户聚类,获得对应所述所有用户的所述第二聚类结果。4.根据权利要求1所述的方法,其特征在于,所述根据所述第二聚类结果识别出目标终端,包括:根据所述第二聚类结果确定用于识别所述目标终端的预测向量;根据所述预测向量和各个用户的特征向量确定用于表征所述预测向量与所述各个用户的特征向量相似度的识别参数,根据所述识别参数识别目标终端。5.根据权利要求4所述的方法,其特征在于,所述用户的通信特征分为若干个主题;所述根据所述第二聚类结果确定用于识别所述目标终端的预测向量,包括:根据所述第二聚类结果确定每个用户聚类在主题集上的特征向量;根据所述用户聚类在主题集上的特征向量,计算主题与主题之间的差异度;根据所述差异度识别维度为零值的主题,使用预测值填充所述零值的主题,对所述预测值进行排序,根据前K个预测值确定的特征向量作为所述预测...

【专利技术属性】
技术研发人员:曾瑞张威
申请(专利权)人:中国移动通信集团黑龙江有限公司中国移动通信集团公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1