一种基于协同网络表示学习的电信异常检测方法技术

技术编号:20593084 阅读:29 留言:0更新日期:2019-03-16 09:13
本发明专利技术公开了一种基于协同网络表示学习的电信异常检测方法,属于数据挖掘与机器学习领域。首先训练xgboost分类器,测试每条CDR数据的欺诈类别概率构成待检测的信令数据集。提取主被叫用户构成通联二部图P,根据评分从信令数据集中选取疑似欺诈的主叫节点生成种子节点集合Z,并将存在共同被叫邻居的任意两个主叫添加到协同网络集合G。通联二部图P扩展出待选的被叫节点集合B,并移除不满足条件的被叫用户,保留下来的被叫节点更新到集合B'中;扩展并更新种子节点集合Z',去重合并更新协同网络G',降维得到嵌入向量进行建模预测,取异常得分最大的N个作为检测结果输出。本发明专利技术保证了生成的协同网络的质量,提高计算速度,可以适应不同的数据特点。

A Telecommunication Anomaly Detection Method Based on Cooperative Network Representation Learning

The invention discloses a telecommunication anomaly detection method based on cooperative network representation learning, which belongs to the field of data mining and machine learning. Firstly, the xgboost classifier is trained to test the fraud class probability of each CDR data to construct the signaling data set to be detected. The main and called users are extracted to form a connected bipartite graph P. According to the score, the suspected fraudulent calling nodes are selected from the signaling data set to generate seed node set Z, and any two calls with common called neighbors are added to the cooperative network set G. The connected bipartite graph P expands the set B of called nodes to be selected, removes the called users who do not satisfy the conditions, updates the remaining called nodes to the set B', expands and updates the set Z', removes the merge and updates the cooperative network G', and obtains the embedding vector to model and predict, and takes the N with the largest anomaly score as the output of the detection results. The invention guarantees the quality of the generated cooperative network, improves the calculation speed, and can adapt to different data characteristics.

【技术实现步骤摘要】
一种基于协同网络表示学习的电信异常检测方法
本专利技术属于数据挖掘与机器学习和商务智能等领域,涉及大规模且稀疏数据中的异常检测问题,具体是一种基于协同网络表示学习的电信异常检测方法。
技术介绍
近年来我国电信诈骗案件时有发生,严重威胁到了人民的财产安全和社会的稳定。因此如何利用数据挖掘中的分类和异常检测等方法实现对电信诈骗对象的精准识别,对监管部门和整个社会来说都具有着重要的现实意义。传统的方法主要集中在对单一诈骗对象行为的建模上,如对信令数据进行分类等,这种局部的建模视角严重限制了模型的表现能力。电信诈骗行为本身具有很强的群体性和协同性,常常会出现多个诈骗主叫共同呼叫同一个被叫的情况,而正常主叫之间就极少存在这种共同邻居。这种协同性能够很好地区分正常主叫和诈骗主叫,能够显著地提升模型对于诈骗的识别效果,但以往的方法却很少考虑。实际上,这种现象在实际应用场景中广泛存在,如网络入侵检测,社交网络中的水军识别等。因此需要一种能够同时融合个体行为以及群体协同性的异常检测方法。
技术实现思路
本专利技术有鉴于在大规模稀疏数据中进行电信诈骗异常检测的难度和挑战,同时考虑到诈骗行为本身的群体性和协同性,提出了一种基于协同网络表示学习的电信异常检测方法。具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器。静态属性包括通话时长、被叫地,主叫地,呼叫等待时长等特征;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;步骤五、对当前主叫协同网络G中和当前种子节点集合Z中的主叫节点进行分析,若任意两个主叫之间同时拨打过同一个被叫用户,即在二部图上表现为存在共同被叫邻居,就在这两个主叫节点之间建立一条无向边,并将邻居数量作为边上的权重,更新协同网络G;更新协同网络G是指将存在共同被叫邻居的两个主叫节点,边以及权重放入当前的主叫协同网络G。当前主叫协同网络G初始值为空,当前种子节点集合Z初始值为步骤四选出的平均评分最高的K个主叫。步骤六、从当前种子节点集合Z出发,在通联二部图P上寻找与种子节点集合Z中的主叫发生过通话关系的被叫节点,扩展出待选的被叫节点集合B;步骤七、从待选的被叫节点集合B中,选择某被叫用户的接听电话数量小于J1或者平均CDR欺诈评分小于J2,从待选的被叫节点集合B中移除该被叫用户,保留下来的被叫节点更新到集合B'中;J1为所有被叫用户接听电话的数量的第一百分位数;J2为所有被叫用户平均CDR欺诈评分的第一百分位数;步骤八、从更新的被叫节点集合B'出发,在通联二部图P上寻找与该集合B'的被叫发生过通关系话的主叫节点,扩展成新的疑似诈骗主叫,更新到种子节点集合Z';步骤九、返回步骤五,对当前主叫协同网络G中和更新的种子节点集合Z'中的主叫节点进行去重合并,更新协同网络G为协同网络G';步骤十、计算当前迭代中,更新的协同网络G'中新增的主叫占原有协同网络G中主叫的比例;步骤十一、判断该比例是否小于人工设定的阈值,如果是,则协同网络G为收敛,执行步骤十二;否则,更新的协同网络G'和更新的种子节点集合Z'作为当前集合,返回执行步骤六;步骤十二、使用网络表示学习方法对收敛的主叫协同网络进行降维表示,每个主叫节点得到一个D维的嵌入向量表示;步骤十三、使用无监督的异常检测模型OneClassSVM对每个主叫节点的嵌入向量表示进行建模预测,得到每个节点的异常得分并从大到小进行排序,取异常得分最大的N个作为模型的最终检测结果输出。本专利技术的优点在于:1)、一种基于协同网络表示学习的电信诈骗主体检测方法,使用了信令级别的分类模型的异常评分作为种子节点集合的召回策略,可以融合传统的对个体行为建模的长处。同时提高种子节点的可信度,保证了生成的协同网络的质量。2)、一种基于协同网络表示学习的电信诈骗主体检测方法,使用自定义的剪枝策略如利用百分位数的统计策略对被叫用户集合B进行过滤。这样的网络生成过程不仅有助于缓存内存占用,提高计算速度,而且可以适应不同的数据特点,自定义不同的剪枝策略,控制网络的大小和最终形态。3)、一种基于协同网络表示学习的电信诈骗主体检测方法,使用网络表示学习方法对主叫协同网络进行降维并进行异常检测,使用嵌入向量的方式从群体性和协同性的角度刻画出了诈骗主叫的异常程度。附图说明图1为本专利技术一种基于协同网络表示学习的电信异常检测方法原理图;图2为本专利技术实一种基于协同网络表示学习的电信异常检测方法流程图;具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术一种基于协同网络表示学习的电信异常检测方法,如图1所示,输入原始的流式信令数据,训练信令级别的xgboost欺诈分类器,利用xgboost分类器对信令数据进行评分,根据信令评分筛选出K个最疑似诈骗的主叫节点,并存入包含异常评分的信令数据库中;将K个最疑似诈骗的主叫节点生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;判断如果主叫之间存在共同的被叫邻居,则在两个主叫节点之间建边,同时更新主叫协同网络G,从种子节点集合Z出发,在通联二部图P上扩展被叫节点;根据不同的自定义剪枝策略,如黑白名单筛选,统计规则筛选,以及信令级别的欺诈评分筛选,从核心被叫节点开始,在通联二部图上扩展,生成新的疑似诈骗主叫节点,最后迭代收敛,使用网络表示学习方法对收敛的主叫协同网络进行降维,并使用异常检测模型OneClassSVM对主叫节点的embedding进行建模,输出各节点的异常评分。如图2所示,具体步骤如下:步骤一、收集一段时间如一周内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器。静态属性包括通话时长、被叫地,主叫地,呼叫等待时长等特征;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集,并存入Elasticsearch数据库中;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;从当天的Elasticsearch数据库中,利用networkx抽取主被叫之间的通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;设定种子节点个数为10000,根据自定义的召回策略从信令数据集中召回信本文档来自技高网...

【技术保护点】
1.一种基于协同网络表示学习的电信异常检测方法,其特征在于,具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;步骤五、对当前主叫协同网络G中和当前种子节点集合Z中的主叫节点进行分析,若任意两个主叫之间同时拨打过同一个被叫用户,即在二部图上表现为存在共同被叫邻居,就在这两个主叫节点之间建立一条无向边,并将邻居数量作为边上的权重,更新协同网络G;步骤六、从当前种子节点集合Z出发,在通联二部图P上寻找与种子节点集合Z中的主叫发生过通话关系的被叫节点,扩展出待选的被叫节点集合B;步骤七、从待选的被叫节点集合B中,选择某被叫用户的接听电话数量小于J1或者平均CDR欺诈评分小于J2,从待选的被叫节点集合B中移除该被叫用户,保留下来的被叫节点更新到集合B'中;J1为所有被叫用户接听电话的数量的第一百分位数;J2为所有被叫用户平均CDR欺诈评分的第一百分位数;步骤八、从更新的被叫节点集合B'出发,在通联二部图P上寻找与该集合B'的被叫发生过通关系话的主叫节点,扩展成新的疑似诈骗主叫,更新到种子节点集合Z';步骤九、返回步骤五,对当前主叫协同网络G中和更新的种子节点集合Z'中的主叫节点进行去重合并,更新协同网络G为协同网络G';步骤十、计算当前迭代中,更新的协同网络G'中新增的主叫占原有协同网络G中主叫的比例;步骤十一、判断该比例是否小于人工设定的阈值,如果是,则协同网络G为收敛,执行步骤十二;否则,更新的协同网络G'和更新的种子节点集合Z'作为当前集合,返回执行步骤六;步骤十二、使用网络表示学习方法对收敛的主叫协同网络进行降维表示,每个主叫节点得到一个D维的嵌入向量表示;步骤十三、使用无监督的异常检测模型OneClass SVM对每个主叫节点的嵌入向量表示进行建模预测,得到每个节点的异常得分并从大到小进行排序,取异常得分最大的N个作为模型的最终检测结果输出。...

【技术特征摘要】
1.一种基于协同网络表示学习的电信异常检测方法,其特征在于,具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;步骤五、对当前主叫协同网络G中和当前种子节点集合Z中的主叫节点进行分析,若任意两个主叫之间同时拨打过同一个被叫用户,即在二部图上表现为存在共同被叫邻居,就在这两个主叫节点之间建立一条无向边,并将邻居数量作为边上的权重,更新协同网络G;步骤六、从当前种子节点集合Z出发,在通联二部图P上寻找与种子节点集合Z中的主叫发生过通话关系的被叫节点,扩展出待选的被叫节点集合B;步骤七、从待选的被叫节点集合B中,选择某被叫用户的接听电话数量小于J1或者平均CDR欺诈评分小于J2,从待选的被叫节点集合B中移除该被叫用户,保留下来的被叫节点更新到集合B'中;J1为所有被叫用户接听电话...

【专利技术属性】
技术研发人员:张震刘冠男张亮林浩吴俊杰马欢缪亚男
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1