The invention discloses a telecommunication anomaly detection method based on cooperative network representation learning, which belongs to the field of data mining and machine learning. Firstly, the xgboost classifier is trained to test the fraud class probability of each CDR data to construct the signaling data set to be detected. The main and called users are extracted to form a connected bipartite graph P. According to the score, the suspected fraudulent calling nodes are selected from the signaling data set to generate seed node set Z, and any two calls with common called neighbors are added to the cooperative network set G. The connected bipartite graph P expands the set B of called nodes to be selected, removes the called users who do not satisfy the conditions, updates the remaining called nodes to the set B', expands and updates the set Z', removes the merge and updates the cooperative network G', and obtains the embedding vector to model and predict, and takes the N with the largest anomaly score as the output of the detection results. The invention guarantees the quality of the generated cooperative network, improves the calculation speed, and can adapt to different data characteristics.
【技术实现步骤摘要】
一种基于协同网络表示学习的电信异常检测方法
本专利技术属于数据挖掘与机器学习和商务智能等领域,涉及大规模且稀疏数据中的异常检测问题,具体是一种基于协同网络表示学习的电信异常检测方法。
技术介绍
近年来我国电信诈骗案件时有发生,严重威胁到了人民的财产安全和社会的稳定。因此如何利用数据挖掘中的分类和异常检测等方法实现对电信诈骗对象的精准识别,对监管部门和整个社会来说都具有着重要的现实意义。传统的方法主要集中在对单一诈骗对象行为的建模上,如对信令数据进行分类等,这种局部的建模视角严重限制了模型的表现能力。电信诈骗行为本身具有很强的群体性和协同性,常常会出现多个诈骗主叫共同呼叫同一个被叫的情况,而正常主叫之间就极少存在这种共同邻居。这种协同性能够很好地区分正常主叫和诈骗主叫,能够显著地提升模型对于诈骗的识别效果,但以往的方法却很少考虑。实际上,这种现象在实际应用场景中广泛存在,如网络入侵检测,社交网络中的水军识别等。因此需要一种能够同时融合个体行为以及群体协同性的异常检测方法。
技术实现思路
本专利技术有鉴于在大规模稀疏数据中进行电信诈骗异常检测的难度和挑战,同时考虑到诈骗行为本身的群体性和协同性,提出了一种基于协同网络表示学习的电信异常检测方法。具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器。静态属性包括通话时长、被叫地,主叫地,呼叫等待时长等特征;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将 ...
【技术保护点】
1.一种基于协同网络表示学习的电信异常检测方法,其特征在于,具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;步骤五、对当前主叫协同网络G中和当前种子节点集合Z中的主叫节点进行分析,若任意两个主叫之间同时拨打过同一个被叫用户,即在二部图上表现为存在共同被叫邻居,就在这两个主叫节点之间建立一条无向边,并将邻居数量作为边上的权重,更新协同网络G;步骤六、从当前种子节点集合Z出发,在通 ...
【技术特征摘要】
1.一种基于协同网络表示学习的电信异常检测方法,其特征在于,具体步骤如下:步骤一、收集一段时间内的电信网络CDR数据,人工选择带有欺诈标签的部分CDR数据,结合主叫端呼叫记录的静态属性,训练在信令级别预测欺诈的xgboost分类器;步骤二、将每条CDR数据分别输入该xgboost分类器,得到每条CDR数据属于欺诈类别的概率,将概率值作为该CDR数据的欺诈评分属性,所有带评分属性的CDR数据集构成待检测的信令数据集;步骤三、根据待检测的信令数据集,提取每条通话记录中的主被叫用户,在对应的主被叫节点之间生成一条无向边,所有主被叫之间的边构成通联二部图P;步骤四、根据xgboost分类器得到的欺诈评分,从信令数据集中选取平均评分最高的K个主叫作为疑似欺诈的主叫节点,生成种子节点集合Z,并初始化一个空的集合记为主叫协同网络G;步骤五、对当前主叫协同网络G中和当前种子节点集合Z中的主叫节点进行分析,若任意两个主叫之间同时拨打过同一个被叫用户,即在二部图上表现为存在共同被叫邻居,就在这两个主叫节点之间建立一条无向边,并将邻居数量作为边上的权重,更新协同网络G;步骤六、从当前种子节点集合Z出发,在通联二部图P上寻找与种子节点集合Z中的主叫发生过通话关系的被叫节点,扩展出待选的被叫节点集合B;步骤七、从待选的被叫节点集合B中,选择某被叫用户的接听电话数量小于J1或者平均CDR欺诈评分小于J2,从待选的被叫节点集合B中移除该被叫用户,保留下来的被叫节点更新到集合B'中;J1为所有被叫用户接听电话...
【专利技术属性】
技术研发人员:张震,刘冠男,张亮,林浩,吴俊杰,马欢,缪亚男,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。