当前位置: 首页 > 专利查询>济南大学专利>正文

基于排序学习和集成学习的异常电话主动预测方法及系统技术方案

技术编号:20593083 阅读:24 留言:0更新日期:2019-03-16 09:13
本公开公开了基基于排序学习和集成学习的异常电话主动预测方法及系统,包括:采集电话样本,基于分析和组合对电话样本的特征进行选择;将采集到的样本分为训练集和测试集;对于训练集样本,采用排序学习处理数据,得出的结果作为新的测试集,然后组建n组新的训练集继续通过学习模型,得出n组结果,再将这n组结果通过集成学习,输出最后的测试结果。本公开有益效果:使用排序学习和集成学习预测异常电话准确率高于单一使用排序学习,和常规方法比我们的方法更能主动预测异常电话,可以进行解决大规模数据问题。

Active Abnormal Telephone Prediction Method and System Based on Ordering Learning and Integrated Learning

This disclosure discloses an active abnormal telephone prediction method and system based on sequential learning and ensemble learning, which includes: collecting telephone samples, selecting the characteristics of telephone samples based on analysis and combination; dividing the collected samples into training sets and test sets; using sequential learning to process data for training set samples, the results obtained are taken as a new test set, and then n is formed. The group of new training sets continue to get n group results through learning model, and then output the final test results through ensemble learning. Beneficial effects of this disclosure: The accuracy of using sequencing learning and ensemble learning to predict abnormal telephone calls is higher than using sequencing learning alone, and conventional methods are more proactive than our methods in predicting abnormal telephone calls, which can solve large-scale data problems.

【技术实现步骤摘要】
基于排序学习和集成学习的异常电话主动预测方法及系统
本公开涉及机器学习和数据挖掘领域,特别是涉及基于排序学习和集成学习的异常电话主动预测方法及系统。
技术介绍
本部分的陈述仅仅是提高了与本公开相关的
技术介绍
,并不必然构成现有技术。被动检测方法是当前解决异常电话识别问题的主要形式,即一个电话被大量用户举报标记后,会被识别为异常电话。然而,随着诈骗电话出现的形式越来越多样,涉及范围越来越广泛,被动检测方法在信息挖掘、特征分析方面有不足导致准确率和时效性遇到瓶颈。大数据的技术的发展,使得个人信息在多种平台上泄露,为了解决此问题,许多方案相继提出,比如SVM算法、决策树算法等都开始应用到异常电话的识别模型中。随着技术的发展排序学习和集成算法也开始运用到异常电话识别模型中。现有的技术中,有几种比较常见的识别异常电话的方法:(1)黑白名单技术主要是通过受理用户投诉、举报等手段获取到异常电话号码,然后由互联网公司以及运营商设置黑白名单功能,直接在用户呼叫或被叫时检测出垃圾电话,提醒用户阻断源自该类号码的电信服务。目前,我国电信用户实名制还不完善,真实性差且随意变换,因此该方法的防范效果非常有限。(2)声誉系统技术主要是在用户接受呼叫之前由声誉系统向被叫方提供关于主叫方的声誉情况。该用户声誉情况的表示通常以声誉分值来表示。当声誉分值较低时,用户可根据该主叫的声誉分值有选择的接受或者拒绝该呼叫。但是,如何缺定用户声誉是一个难点。(3)异常话务检测技术主要是是采用信令监测手段,对区域内的话务流量流向进行统计分析,提取呼叫数据中的呼叫时间、持续时间等参数,通过监测话务模型的异常变化及时发现可能存在的异常通话事件。但,该方法需要在收集一定的话务流量后才能作出判决,防范的时效性相对较差。(4)语音检测技术是一种依靠硬件支持的垃圾电话检测技术。它通过语音内容检测SPIT具有实效性好、精确度高等优点,但由于语音识别算法复杂,处理能力需求很高,无论从工程实现还是部署成本角度而言,目前都难以满足在大规模电信网中的应用需求。综上,现有传统方法在异常电话识别的应用有以下缺点:(1)从原理上看,上述方法都是分类思想,所以在效果方面都很相近。(2)以上方法都是后知后觉的被动处理方案,缺少能主动对用户进行异常检测的系统。
技术实现思路
为了解决现有技术的不足,本公开提供了基于排序学习和集成学习的异常电话主动预测方法及系统,将排序学习应用到样本数据处理,将分类问题转换成排序问题,并且通过集成算法处理得到更精确的异常电话识别,成为一套能主动预测异常电话的模型。第一方面,本公开提供了基于排序学习和集成学习的异常电话主动预测方法;基于排序学习和集成学习的异常电话主动预测方法,包括:步骤(1):采集电话样本,提取每个电话号码的数据特征;步骤(2):将采集的电话样本分为训练集M和测试集N;所述训练集M,包括:a条正常电话号码和b条异常电话号码;所述测试集N,包括:待测试的电话号码;步骤(3):基于排序学习算法构建排序模型,将训练集M每个电话号码的数据特征输入到排序模型中,将训练集M每个电话号码对应的设定分数作为排序模型的输出值,对排序模型进行训练,得到训练好的排序模型;将测试集N输入到已经训练好的排序模型中,输出测试集N中每个电话号码对应的分数;将分数按照从大到小进行排序,选择排序靠前的p个电话号码作为新的测试集P;步骤(4):从测试集N中随机选取选取n组电话号码,每组是q个电话号码;将每一组q个电话号码分别与b条异常电话号码组合,构成新的训练集Qi,i的取值范围是1到n;将新的测试集P与新的训练集Qi进行组合,得到数据集Yi;将数据集Yi输入到已经训练好的排序模型中,输出结果Zi;步骤(5):利用集成学习中的平均法,计算结果Zi的平均值,输出最终得分。作为可能的一些实现方式,所述排序学习算法,包括:RankingSVM算法或Ranknet算法。作为可能的一些实现方式,所述电话样本,包括正常电话号码、异常电话号码和待测试的电话号码。作为可能的一些实现方式,所述电话号码的数据特征,包括:用户话单覆盖天数、日均主叫次数、日均主叫时长、日均被叫次数、日均被叫时长、日均长途次数、日均漫游次数或日均主叫联系人。第二方面,本公开还提供了基于排序学习和集成学习的异常电话主动预测系统,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面任一可能的实现方式中的方法。第三方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面任一可能的实现方式中的任一方法的步骤。与现有技术相比,本公开的有益效果是:1.特征选择更有针对性,组合后的特征会更加多样和有效。2.使用排序学习模型,将分类问题转换成排序问题,在解决问题上具有创新性。并且实验结果比传统方法有明显提高。3.对排序学习模型的处理结果进行集成学习处理,使实验结果的准确率又提高了一个层次。4.将排序学习和集成学习结合,与传统的方法进行比较,我们的方法可以对异常电话进行主动预测。5.该模型适合大规模数据处理和预测。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为一个或多个实施方式的排序学习模型的使用方法策略;图2为一个或多个实施方式的集成学习处理策略。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。本公开首先进行电话特征的选择和组合,天均联系人数目>50,并且天均联系人数目/天均主叫次数>0.8(公式一),基本可以判定该样本为欺诈电话。天均联系人数目<=50,天均覆盖天数<10,如果满足天均主叫时长/天均主叫次数>15(公式二)或者天均被叫时长/天均被叫次数>15(公式三),并且满足公式一,则基本可以判断样本为欺诈电话。对于天均覆盖天数<5的样本,天均主叫时长/天均主叫次数>10或者天均被叫时长/天均被叫次数>10,并且天均主叫时长或天均被叫时长>500,可以判断样本为欺诈电话。天均主叫次数+天均被叫次数=天均长途次数(>10),可作为一个特征进行某些样本的分析。前9位相同>100,可作为一个特征进行某些样本的分析。对样本训练集和测试集进行排序学习处理,对第一次处理结果构成新的测试集,并且构建10个新的训练集,再次通过排序学习模型,得出10个新的结果,并且对新的结果进行集成学习处理,最终得到输出结果。其中关于排序学习,排序学习将机器学习的技术很好地应用到了排序问题中,并提出了新的理论和算法,不仅有效地解决了排序的问题,其中一些算法的本文档来自技高网
...

【技术保护点】
1.基于排序学习和集成学习的异常电话主动预测方法,其特征是,包括:步骤(1):采集电话样本,提取每个电话号码的数据特征;步骤(2):将采集的电话样本分为训练集M和测试集N;所述训练集M,包括:a条正常电话号码和b条异常电话号码;所述测试集N,包括:待测试的电话号码;步骤(3):基于排序学习算法构建排序模型,将训练集M每个电话号码的数据特征输入到排序模型中,将训练集M每个电话号码对应的设定分数作为排序模型的输出值,对排序模型进行训练,得到训练好的排序模型;将测试集N输入到已经训练好的排序模型中,输出测试集N中每个电话号码对应的分数;将分数按照从大到小进行排序,选择排序靠前的p个电话号码作为新的测试集P;步骤(4):从测试集N中随机选取选取n组电话号码,每组是q个电话号码;将每一组q个电话号码分别与b条异常电话号码组合,构成新的训练集Qi,i的取值范围是1到n;将新的测试集P与新的训练集Qi进行组合,得到数据集Yi;将数据集Yi输入到已经训练好的排序模型中,输出结果Zi;步骤(5):利用集成学习中的平均法,计算结果Zi的平均值,输出最终得分。

【技术特征摘要】
1.基于排序学习和集成学习的异常电话主动预测方法,其特征是,包括:步骤(1):采集电话样本,提取每个电话号码的数据特征;步骤(2):将采集的电话样本分为训练集M和测试集N;所述训练集M,包括:a条正常电话号码和b条异常电话号码;所述测试集N,包括:待测试的电话号码;步骤(3):基于排序学习算法构建排序模型,将训练集M每个电话号码的数据特征输入到排序模型中,将训练集M每个电话号码对应的设定分数作为排序模型的输出值,对排序模型进行训练,得到训练好的排序模型;将测试集N输入到已经训练好的排序模型中,输出测试集N中每个电话号码对应的分数;将分数按照从大到小进行排序,选择排序靠前的p个电话号码作为新的测试集P;步骤(4):从测试集N中随机选取选取n组电话号码,每组是q个电话号码;将每一组q个电话号码分别与b条异常电话号码组合,构成新的训练集Qi,i的取值范围是1到n;将新的测试集P与新的训练集Qi进行组合,得到数据集Yi;将数据集Yi输入到已经训练好的排序模型中,输出结果Zi;步骤...

【专利技术属性】
技术研发人员:纪科刘健孙润元陈贞翔马坤王琳袁雅涵
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1