The invention discloses a classification and detection method based on decomposition polymerization of telecommunication fraud telephone, which belongs to the fields of data mining, machine learning and business intelligence. The transverse division and sampling the first class the proportion of different positive and negative of the original CDR data, aiming at training samples, randomly selected attributes of a specific proportion for the construction of base classifier; for any training samples according to the output results based classifier structure classification matrix, aggregate on the classification results in the same proportion, and to determine the percentage of the vote by vote. The classification result of each proportion classifier is used as the new classification feature to construct the two level classifier, and the weight of each positive and negative base classifier is determined for the test result. The invention is applicable to the unbalanced classification of various big data scenarios, and avoids the fluctuation of the accuracy of the models under the proportion of different positive and negative samples. The classification results have strong stability and robustness, and can achieve high classification and detection efficiency.
【技术实现步骤摘要】
一种基于分解聚合的电信诈骗电话的分类检测方法
本专利技术属于数据挖掘,机器学习和商务智能等领域,具体是一种基于分解聚合的电信诈骗电话的分类检测方法。
技术介绍
近年来我国电信诈骗案件时有发生,严重威胁到人民的财产安全和社会的稳定。由于通话量巨大,监管部门难以对所有电话进行实时监管与拦截,因此如何利用数据挖掘中的分类、异常检测等方法实现自动化的疑似诈骗电话的检测,对监管部门来说是一个巨大的挑战。诈骗电话分类检测的实际问题,首先是数据量较大,仅以国际通话端为例,每天的呼叫量在2000万次以上;同时,在原始的数据中,被拦截和标注的诈骗电话样本在全部通话记录中仅占较小的一部分,使得数据类别具有显著的不平衡特点。比如,少量被检出的诈骗电话被标注为正类样本,而其余大部分通话均被标注为负类样本,在目前的国际电话的记录中,正负比例达到了40:1。实际上,这种类别不平衡的现象存在于大量的实际应用场景中,如网络入侵检测,信用卡欺诈检测等有监督的异常检测问题中。对于兼具大规模和不平衡类别特点的数据来说,难以通过统一的模型进行训练。一方面由于数据量过大,用单一模型需要消耗大量的时间和空间 ...
【技术保护点】
一种基于分解聚合的电信诈骗电话的分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网络中的CDR数据,将被检出的少量诈骗电话记录标注为正类样本,其余的标注为负类样本;步骤二、设定正负样本比例为X%,对CDR数据进行横向的连续采样划分,反复采样L次,得到L个正负类比例为X%的样本子集;步骤三、按照等步长的方式依次改变正负类比例,进行A次,共产生A*L个训练子集;步骤四、对CDR数据按照特征属性进行纵向分解,得到F种不同的类别属性子集;具体而言,CDR数据共有M个特征,随机抽取Y%的属性特征,共计M*Y%个属性特征作为基础分类器的分类特征;通过有放回的随机抽样抽取采样F次 ...
【技术特征摘要】
1.一种基于分解聚合的电信诈骗电话的分类检测方法,其特征在于,具体步骤如下:步骤一、收集电信网络中的CDR数据,将被检出的少量诈骗电话记录标注为正类样本,其余的标注为负类样本;步骤二、设定正负样本比例为X%,对CDR数据进行横向的连续采样划分,反复采样L次,得到L个正负类比例为X%的样本子集;步骤三、按照等步长的方式依次改变正负类比例,进行A次,共产生A*L个训练子集;步骤四、对CDR数据按照特征属性进行纵向分解,得到F种不同的类别属性子集;具体而言,CDR数据共有M个特征,随机抽取Y%的属性特征,共计M*Y%个属性特征作为基础分类器的分类特征;通过有放回的随机抽样抽取采样F次,得到F种不同的类别属性子集;步骤五、原始CDR数据被划分为了A*L*F个训练样本区,每个训练样区同时具有特定正负类比例及特征属性;步骤六、针对每个训练样本区中的数据,利用决策树分类模型在子特征属性空间上构造一个分类器,共得到A*L*F个基础分类器;步骤七、针对原始CDR数据中的某训练样本,在A*L*F个基础分类器上分别输出分类预测结果,构造成该训练样本的分类矩阵;具体来说,矩阵中的每个元素对应了一种特定正负比例下,在特定的属性特征子集中的分类结果;步骤八、针对该分类矩阵,对横向相同正负比例的分类结果进行聚合,并进行特征集合筛选;步骤九、针对筛选后的...
【专利技术属性】
技术研发人员:万辛,刘冠男,李鹏,安茂波,林浩,吴俊杰,高圣翔,孙晓晨,虞宇琪,郭佳,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。