本发明专利技术公开了一种通信企业集团客户成员识别方法,包括:根据基础训练数据进行特征工程,获取关键特征;根据关键特征从基础训练数据中选取训练数据,并利用训练数据对识别模型训练;根据预设指标对识别模型的识别效果进行评估,根据评估结果对模型参数进行调整,直至评估结果达到预设值,得到最优识别模型;根据关键特征,利用最优识别模型对新增业务数据进行通信企业集团客户成员识别。本发明专利技术通过特征工程获取对识别影响重要的关键特征,避免了特征选取的盲目性,进一步提高识别质量、性能、效果和识别效率。本发明专利技术还公开了一种存储介质和计算机设备。
Identification method, storage medium and computer equipment of customer members in communication enterprise group
【技术实现步骤摘要】
通信企业集团客户成员识别方法、存储介质和计算机设备
本专利技术涉及通讯
,具体而言,涉及一种通信企业集团客户成员识别方法、存储介质和计算机设备。
技术介绍
通信企业集团客户市场存在客户信息虚假、集团成员真假并存等现状,因此,如何有效识别现有集团成员的真实性,以针对真实集团成员展开有针对性的维护,在提高客户服务质量的同时,降低企业运营成本,成为通信企业亟待解决的问题。现有的通信企业集团客户成员识别,存在如下问题:现有方法的特征选取多基于常识假设。即针对成员识别,按照固定的基本常识选取一些常用的固定特征(例如:订购VPNM、集团统付、集团彩铃、手机邮箱、是否漫游、终端类型等),但是基于常识选取的特征并不一定是影响识别的区别特征,从而导致识别质量下降。
技术实现思路
本专利技术正是基于上述问题,提出了一种通信企业集团客户成员识别方法、存储介质和计算机设备。有鉴于此,本专利技术提出了一种通信企业集团客户成员识别方法,包括如下步骤:根据基础训练数据进行特征工程,获取关键特征;根据所述关键特征从所述基础训练数据中选取训练数据,并利用所述训练数据对识别模型训练;根据预设指标对所述识别模型的识别效果进行评估,根据评估结果对模型参数进行调整,直至评估结果达到预设值,得到最优识别模型;根据所述关键特征,利用所述最优识别模型对新增业务数据进行通信企业集团客户成员识别。本专利技术还公开一种存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述技术方案所述的通信企业集团客户成员识别方法。本专利技术还公开一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述技术方案所述的通信企业集团客户成员识别方法。本专利技术的有益效果是:通过特征工程获取对识别影响重要的关键特征,再根据关键特征利用基础训练数据对识别模型进行训练,再利用预设指标对识别模型进行优化,得到最优识别模型,再利用最优识别模型进行识别,避免了特征选取的盲目性,进一步提高识别质量、性能、效果和识别效率。附图说明图1示出了根据本专利技术的实施例提供的一种通信企业集团客户成员识别方法流程图;图2示出了业务场景示意图;图3示出了通话网络示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的其他方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图1示出了根据本专利技术的实施例提供的一种通信企业集团客户成员识别方法流程图。如图1所示,本实施例中,一种通信企业集团客户成员识别方法,包括如下步骤:根据基础训练数据进行特征工程,获取关键特征;根据所述关键特征从所述基础训练数据中选取训练数据,并利用所述训练数据对识别模型训练;其中,因为基础训练数据有多个维度的数据特征,根据所述关键特征从所述基础训练数据中选取训练数据,即为从基础训练数据中选择与关键特征对应的数据,作为训练数据。根据预设指标对所述识别模型的识别效果进行评估,根据评估结果对模型参数进行调整,直至评估结果达到预设值,得到最优识别模型;其中,对模型参数进行调整可采用网格搜索+交叉验证的方法。根据所述关键特征,利用所述最优识别模型对新增业务数据进行通信企业集团客户成员识别。在算法识别领域,通常需要先运用先验数据对识别模型进行训练优化,尔后利用经训练的最优识别模型对待识别数据进行识别。基础训练数据即为先验数据,基础训练数据中包括订购VPNM、集团统付、集团彩铃、手机邮箱、是否漫游、终端类型等成员业务订购使用特征和成员通信记录等成员通信特征,这些特征并不都与识别相关,一些基于常识选取的特点并不是识别模型的区别特征。如:例如,从业务常识上来说,若集团M为集团成员N缴纳通信费用,则认为成员N为集团M真实的集团客户成员,由此,将“是否集团统付”变量作为分类模型的重要特征。但通过对真实数据分析发现,实际业务中存在如图2所示的情况。图2中,集团成员1与集团成员2在集团客户系统中均显示为集团A的集团客户成员,但仅集团成员1实际就职于集团A,集团成员2实际就职于集团B,也就是说,对集团A而言,集团成员1为真正的集团客户成员,而集团成员2则是虚假的集团客户成员。假设集团A缴付其员工(集团成员1)的通信费用,集团B缴付其员工(集团成员2)的通信费用,则集团成员1与集团成员2的通信费用均是集团统付,在判断集团成员2是否为集团A的真实成员时,在“是否集团统付”这一变量上均取值为“真”,即“是否集团统付”无法作为区分集团A真实与虚假成员的有效特征。因此,仅基于常识假设进行特征选取是不合理的。在上述实施例中,通过特征工程获取对识别影响重要的关键特征,再根据关键特征利用基础训练数据对识别模型进行训练,得到具有优化识别模型参数的识别模型,再利用该识别模型对待识别数据进行识别,避免了特征选取的盲目性,进一步提高识别质量、性能、效果和识别效率。可选地,所述根据基础训练数据进行特征工程,获取关键特征之前,还包括,对所述基础训练数据进行数据清洗、字段填充和类别数据不平衡处理。数据清洗:即删除缺失值非常严重的数据记录以及记录错误的数据记录。这些缺失值非常严重的数据记录,无法用于识别,反而会使识别性能下降,因此需要删除。字段填充:针对一些缺失值不是很严重的数据记录,如果将这些数据记录都删除,那么样本数据会减少很多,因此需要对该类数据进行填充,以使得数据更完善有效,方法是根据同属性值的平均数或者众数对缺失值填充。类别数据不平衡处理:即平衡类别数据,可采用合成少数类过采样技术来平衡类别数据。现有方法未考虑实际业务中存在的类别数据不均衡问题,假设共有100名集团成员,其中包含90名真实成员,10名虚假成员,在运用模型评估时,由于虚假成员数量相对于真实成员数量少很多,模型在测试时更偏向将被判断对象预测为真实成员,从而影响评估性能。上述实施例中,通过数据清洗,减少没有意义的数据,从而提高识别速度;通过字段填充,从而增加有效数据,提高识别效果;通过类别数据不平衡处理,避免类别数据不均衡带来的评估效果影响,从而提高评估效果。可选地,所述关键特征包括成员业务订购使用优选特征和节点可达的真实成员数;所述根据基础训练数据进行特征工程,获取关键特征,包括,对所述基础训练数据中的通信数据进行挖掘,获得节点可达的真实成员数;对所述基础训练数据中的成员业务订购使用特征进行选取,获得所述成员业务订购使用优选特征。节点可达的真实成员数的意义和求取如下:如图3(a)所示,假设用户A与用户B均为集团M的真实用户,由于二者在第一层通话中并没有发生通话关系,因此二者之本文档来自技高网...
【技术保护点】
1.一种通信企业集团客户成员识别方法,其特征在于,包括如下步骤:/n根据基础训练数据进行特征工程,获取关键特征;/n根据所述关键特征从所述基础训练数据中选取训练数据,并利用所述训练数据对识别模型训练;/n根据预设指标对所述识别模型的识别效果进行评估,根据评估结果对模型参数进行调整,直至评估结果达到预设值,得到最优识别模型;/n根据所述关键特征,利用所述最优识别模型对新增业务数据进行通信企业集团客户成员识别。/n
【技术特征摘要】
1.一种通信企业集团客户成员识别方法,其特征在于,包括如下步骤:
根据基础训练数据进行特征工程,获取关键特征;
根据所述关键特征从所述基础训练数据中选取训练数据,并利用所述训练数据对识别模型训练;
根据预设指标对所述识别模型的识别效果进行评估,根据评估结果对模型参数进行调整,直至评估结果达到预设值,得到最优识别模型;
根据所述关键特征,利用所述最优识别模型对新增业务数据进行通信企业集团客户成员识别。
2.根据权利要求1所述的一种通信企业集团客户成员识别方法,其特征在于,所述根据基础训练数据进行特征工程,获取关键特征之前,还包括,
对所述基础训练数据进行数据清洗、字段填充和类别数据不平衡处理。
3.根据权利要求1或2所述的一种通信企业集团客户成员识别方法,其特征在于,所述关键特征包括成员业务订购使用优选特征和节点可达的真实成员数;
所述根据基础训练数据进行特征工程,获取关键特征,包括,
对所述基础训练数据中的通信数据进行挖掘,获得节点可达的真实成员数;
对所述基础训练数据中的成员业务订购使用特征进行选取,获得所述成员业务订购使用优选特征。
4.根据权利要求3所述的一种通信企业集团客户成员识别方法,其特征在于,所述对所述基础训练数据中的成员业务订购使用特征进行选取,获得所述成员业务订购使用优选特征,包括,
对所述成员业务订购使用特征内的特征两两进行相关性分析,对相关性系数大于第一预设值的两个特征进行择一删除,得到由剩余的所述成员业务订购使用特征内的特征组成的第一成员业务订购使用特征;
对所述第一成员业务订购使用特征内的每个特征和成员的类别数据进行相关性分析,选取相关性系数大于第二预设值的特征,得到第二成员业务订购使用特征;
采用递归特征消除和交叉验...
【专利技术属性】
技术研发人员:李真,王海洋,冯利光,刘大伟,李雪梅,
申请(专利权)人:烟台中科网络技术研究所,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。