一种基于分解聚合的电信诈骗电话的分类检测方法技术

技术编号:16755700 阅读:88 留言:0更新日期:2017-12-09 02:09
本发明专利技术公开了一种基于分解聚合的电信诈骗电话的分类检测方法,属于数据挖掘、机器学习和商务智能等领域。首先对原始CDR数据进行不同正负类比例的横向划分与采样,针对某训练样本,随机抽取特定比例的特征属性用于构造基础分类器;对任一训练样本,根据基础分类器的输出结果构造分类矩阵,对各相同比例中的分类结果进行聚合,并通过最大投票法确定各类别比例下的投票结果。将各个比例分类器中的分类结果作为新的分类特征构造二级分类器,确定各正负比例的基分类器对于测试结果的权重。本发明专利技术适用于各种大数据场景下的不平衡分类,避免了不同正负类样本比例下模型精度的波动性,分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。

A classification detection method based on decomposition polymerization of telecommunication fraud telephone

The invention discloses a classification and detection method based on decomposition polymerization of telecommunication fraud telephone, which belongs to the fields of data mining, machine learning and business intelligence. The transverse division and sampling the first class the proportion of different positive and negative of the original CDR data, aiming at training samples, randomly selected attributes of a specific proportion for the construction of base classifier; for any training samples according to the output results based classifier structure classification matrix, aggregate on the classification results in the same proportion, and to determine the percentage of the vote by vote. The classification result of each proportion classifier is used as the new classification feature to construct the two level classifier, and the weight of each positive and negative base classifier is determined for the test result. The invention is applicable to the unbalanced classification of various big data scenarios, and avoids the fluctuation of the accuracy of the models under the proportion of different positive and negative samples. The classification results have strong stability and robustness, and can achieve high classification and detection efficiency.

【技术实现步骤摘要】
一种基于分解聚合的电信诈骗电话的分类检测方法
本专利技术属于数据挖掘,机器学习和商务智能等领域,具体是一种基于分解聚合的电信诈骗电话的分类检测方法。
技术介绍
近年来我国电信诈骗案件时有发生,严重威胁到人民的财产安全和社会的稳定。由于通话量巨大,监管部门难以对所有电话进行实时监管与拦截,因此如何利用数据挖掘中的分类、异常检测等方法实现自动化的疑似诈骗电话的检测,对监管部门来说是一个巨大的挑战。诈骗电话分类检测的实际问题,首先是数据量较大,仅以国际通话端为例,每天的呼叫量在2000万次以上;同时,在原始的数据中,被拦截和标注的诈骗电话样本在全部通话记录中仅占较小的一部分,使得数据类别具有显著的不平衡特点。比如,少量被检出的诈骗电话被标注为正类样本,而其余大部分通话均被标注为负类样本,在目前的国际电话的记录中,正负比例达到了40:1。实际上,这种类别不平衡的现象存在于大量的实际应用场景中,如网络入侵检测,信用卡欺诈检测等有监督的异常检测问题中。对于兼具大规模和不平衡类别特点的数据来说,难以通过统一的模型进行训练。一方面由于数据量过大,用单一模型需要消耗大量的时间和空间;另一方面由于数据本本文档来自技高网...
一种基于分解聚合的电信诈骗电话的分类检测方法

【技术保护点】
一种基于分解聚合的电信诈骗电话的分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网络中的CDR数据,将被检出的少量诈骗电话记录标注为正类样本,其余的标注为负类样本;步骤二、设定正负样本比例为X%,对CDR数据进行横向的连续采样划分,反复采样L次,得到L个正负类比例为X%的样本子集;步骤三、按照等步长的方式依次改变正负类比例,进行A次,共产生A*L个训练子集;步骤四、对CDR数据按照特征属性进行纵向分解,得到F种不同的类别属性子集;具体而言,CDR数据共有M个特征,随机抽取Y%的属性特征,共计M*Y%个属性特征作为基础分类器的分类特征;通过有放回的随机抽样抽取采样F次,得到F种不同的类别...

【技术特征摘要】
1.一种基于分解聚合的电信诈骗电话的分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网络中的CDR数据,将被检出的少量诈骗电话记录标注为正类样本,其余的标注为负类样本;步骤二、设定正负样本比例为X%,对CDR数据进行横向的连续采样划分,反复采样L次,得到L个正负类比例为X%的样本子集;步骤三、按照等步长的方式依次改变正负类比例,进行A次,共产生A*L个训练子集;步骤四、对CDR数据按照特征属性进行纵向分解,得到F种不同的类别属性子集;具体而言,CDR数据共有M个特征,随机抽取Y%的属性特征,共计M*Y%个属性特征作为基础分类器的分类特征;通过有放回的随机抽样抽取采样F次,得到F种不同的类别属性子集;步骤五、原始CDR数据被划分为了A*L*F个训练样本区,每个训练样区同时具有特定正负类比例及特征属性;步骤六、针对每个训练样本区中的数据,利用决策树分类模型在子特征属性空间上构造一个分类器,共得到A*L*F个基础分类器;步骤七、针对原始CDR数据中的某训练样本,在A*L*F个基础分类器上分别输出分类预测结果,构造成该训练样本的分类矩阵;具体来说,矩阵中的每个元素对应了一种特定正负比例下,在特定的属性特征子集中的分类结果;步骤八、针对该分类矩阵,对横向相同正负比例的分类结果进行聚合,并进行特征集合筛选;步骤九、针对筛选后的...

【专利技术属性】
技术研发人员:万辛刘冠男李鹏安茂波林浩吴俊杰高圣翔孙晓晨虞宇琪郭佳
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1