基于排序学习和集成学习的异常电话主动预测方法及系统技术方案

技术编号：20593083 阅读：24 留言：0更新日期：2019-03-16 09:13

本公开公开了基基于排序学习和集成学习的异常电话主动预测方法及系统，包括：采集电话样本，基于分析和组合对电话样本的特征进行选择；将采集到的样本分为训练集和测试集；对于训练集样本，采用排序学习处理数据，得出的结果作为新的测试集，然后组建n组新的训练集继续通过学习模型，得出n组结果，再将这n组结果通过集成学习，输出最后的测试结果。本公开有益效果：使用排序学习和集成学习预测异常电话准确率高于单一使用排序学习，和常规方法比我们的方法更能主动预测异常电话，可以进行解决大规模数据问题。

Active Abnormal Telephone Prediction Method and System Based on Ordering Learning and Integrated Learning

This disclosure discloses an active abnormal telephone prediction method and system based on sequential learning and ensemble learning, which includes: collecting telephone samples, selecting the characteristics of telephone samples based on analysis and combination; dividing the collected samples into training sets and test sets; using sequential learning to process data for training set samples, the results obtained are taken as a new test set, and then n is formed. The group of new training sets continue to get n group results through learning model, and then output the final test results through ensemble learning. Beneficial effects of this disclosure: The accuracy of using sequencing learning and ensemble learning to predict abnormal telephone calls is higher than using sequencing learning alone, and conventional methods are more proactive than our methods in predicting abnormal telephone calls, which can solve large-scale data problems.

全部详细技术资料下载

【技术实现步骤摘要】
基于排序学习和集成学习的异常电话主动预测方法及系统
本公开涉及机器学习和数据挖掘领域，特别是涉及基于排序学习和集成学习的异常电话主动预测方法及系统。
技术介绍
本部分的陈述仅仅是提高了与本公开相关的
技术介绍
，并不必然构成现有技术。被动检测方法是当前解决异常电话识别问题的主要形式，即一个电话被大量用户举报标记后，会被识别为异常电话。然而，随着诈骗电话出现的形式越来越多样，涉及范围越来越广泛，被动检测方法在信息挖掘、特征分析方面有不足导致准确率和时效性遇到瓶颈。大数据的技术的发展，使得个人信息在多种平台上泄露，为了解决此问题，许多方案相继提出，比如SVM算法、决策树算法等都开始应用到异常电话的识别模型中。随着技术的发展排序学习和集成算法也开始运用到异常电话识别模型中。现有的技术中，有几种比较常见的识别异常电话的方法：(1)黑白名单技术主要是通过受理用户投诉、举报等手段获取到异常电话号码，然后由互联网公司以及运营商设置黑白名单功能，直接在用户呼叫或被叫时检测出垃圾电话，提醒用户阻断源自该类号码的电信服务。目前，我国电信用户实名制还不完善，真实性差且随意变换，因此该方法的防范效果非常有限。(2)声誉系统技术主要是在用户接受呼叫之前由声誉系统向被叫方提供关于主叫方的声誉情况。该用户声誉情况的表示通常以声誉分值来表示。当声誉分值较低时，用户可根据该主叫的声誉分值有选择的接受或者拒绝该呼叫。但是，如何缺定用户声誉是一个难点。(3)异常话务检测技术主要是是采用信令监测手段，对区域内的话务流量流向进行统计分析，提取呼叫数据中的呼叫时间、持续时间等参数，通过监测话务模型的异常...

【技术保护点】
1.基于排序学习和集成学习的异常电话主动预测方法，其特征是，包括：步骤(1)：采集电话样本，提取每个电话号码的数据特征；步骤(2)：将采集的电话样本分为训练集M和测试集N；所述训练集M，包括：a条正常电话号码和b条异常电话号码；所述测试集N，包括：待测试的电话号码；步骤(3)：基于排序学习算法构建排序模型，将训练集M每个电话号码的数据特征输入到排序模型中，将训练集M每个电话号码对应的设定分数作为排序模型的输出值，对排序模型进行训练，得到训练好的排序模型；将测试集N输入到已经训练好的排序模型中，输出测试集N中每个电话号码对应的分数；将分数按照从大到小进行排序，选择排序靠前的p个电话号码作为新的测试集P；步骤(4)：从测试集N中随机选取选取n组电话号码，每组是q个电话号码；将每一组q个电话号码分别与b条异常电话号码组合，构成新的训练集Qi，i的取值范围是1到n；将新的测试集P与新的训练集Qi进行组合，得到数据集Yi；将数据集Yi输入到已经训练好的排序模型中，输出结果Zi；步骤(5)：利用集成学习中的平均法，计算结果Zi的平均值，输出最终得分。

【技术特征摘要】
1.基于排序学习和集成学习的异常电话主动预测方法，其特征是，包括：步骤(1)：采集电话样本，提取每个电话号码的数据特征；步骤(2)：将采集的电话样本分为训练集M和测试集N；所述训练集M，包括：a条正常电话号码和b条异常电话号码；所述测试集N，包括：待测试的电话号码；步骤(3)：基于排序学习算法构建排序模型，将训练集M每个电话号码的数据特征输入到排序模型中，将训练集M每个电话号码对应的设定分数作为排序模型的输出值，对排序模型进行训练，得到训练好的排序模型；将测试集N输入到已经训练好的排序模型中，输出测试集N中每个电话号码对应的分数；将分数按照从大到小进行排序，选择排序靠前的p个电话号码作为新的测试集P；步骤(4)：从测试集N中随机选取选取n组电话号码，每组是q个电话号码；将每一组q个电话号码分别与b条异常电话号码组合，构成新的训练集Qi，i的取值范围是1到n；将新的测试集P与新的训练集Qi进行组合，得到数据集Yi；将数据集Yi输入到已经训练好的排序模型中，输出结果Zi；步骤...

【专利技术属性】
技术研发人员：纪科，刘健，孙润元，陈贞翔，马坤，王琳，袁雅涵，
申请(专利权)人：济南大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人