一种基于异构神经网络技术的VoIP恶意行为检测方法及系统技术方案

技术编号:34325967 阅读:54 留言:0更新日期:2022-07-31 01:08
本发明专利技术公开一种基于异构神经网络技术的VoIP恶意行为检测方法及系统,涉及网络信息安全领域,通过从VoIP多数据源中抽取出信息对象,构建异构信息网络,利用GEM模型获得节点向量表示;再通过计算不同节点之间的相似度进行聚类,通过对同一类节点打上相同标签来丰富训练数据,再对对分类算法进行有监督学习分类,获取有害的VoIP节点。本发明专利技术能够利用多种数据源的信息,通过挖掘异构信息网络中的隐式关系和隐藏模式发现有害VoIP行为。和隐藏模式发现有害VoIP行为。和隐藏模式发现有害VoIP行为。

【技术实现步骤摘要】
一种基于异构神经网络技术的VoIP恶意行为检测方法及系统


[0001]本专利技术涉及网络信息安全领域,觉涉及一种基于异构神经网络技术的VoIP恶意行为检测方法及系统。

技术介绍

[0002]VoIP(Voice over Internet Protocol)是指通过互联网传输语音和多媒体内容的技术,其原理是将用户的语音从音频信号转化为数字信号,可以通过WI

FI或运营商的移动数据网络发送数据。VoIP的快速发展,也带来了许多安全威胁,如一些攻击者利用VoIP线路,对用户发起骚扰或诈骗活动,会导致用户的通话线路被阻塞。
[0003]针对VoIP有害行为的发现分析技术,多数利用呼叫记录、VoIP流量等数据。对于呼叫记录而言,主要包括呼叫者和被呼叫者的用户和服务域名,其中用户名可以是电话号码,服务域名是主机的完全限定域名(FQDN)或IP地址。对于VoIP流量而言,主要包括流量记录中消息传输的路径消息,即IP之间的关系;同时还包括流量记录中消息传输的路径信息,即IP之间的转发关系。当前技术往往利用上述数据进行统计分析或提取特征后进行模型识别,如专利CN111556013A就是基于VoIP流量利用统计得到的各类指标,判断某些指标是否超过阈值,一旦超过阈值就将定义有害行为。一般而言,VoIP良性与有害行为之间,在用户名和服务域名,以及电话号码之间的关联关系存在不同,例如设备和活动聚集性等方面。现有研究缺乏对多种数据集的关联分析,无法挖掘VoIP行为中的隐式关系和显式关系。已有专利CN111556013A是利用从VoIP流量中提取出的特征进行统计分析,在数据源方面较为单一;没有挖掘VoIP行为中的隐藏关系。

技术实现思路

[0004]本专利技术的目的是提供一种基于异构神经网络技术的VoIP恶意行为检测方法及系统,能够利用多种数据源的信息,通过挖掘异构信息网络中的隐式关系和隐藏模式发现有害VoIP行为。
[0005]为达到上述目的,本专利技术采用以下技术方案:
[0006]一种基于异构神经网络技术的VoIP恶意行为检测方法,包括以下步骤:
[0007]从VoIP多数据源中抽取出信息对象;
[0008]根据信息对象的关联关系提取各信息对象之间的元路径,由全部相关的元路径构造全节点邻接矩阵,根据该全节点邻接矩阵构建异构信息网络,该异构信息网络中的节点表示信息对象,边表示信息对象之间的连接关系元路径;
[0009]根据与信息对象相关的不同的元路径,获取异构信息网络和对应的邻接矩阵,通过训练GEM模型利用异构信息网络的邻接矩阵及其特征矩阵,得到节点向量表示;
[0010]根据节点向量表示,计算不同节点之间的相似度,将相似度大于某一阈值的节点聚为一类;
[0011]对于同一类的节点,利用该类中部分节点标签对该类中所有节点打上相同标签,
得到标注好的数据;
[0012]基于标注好的数据,监督分类算法对输入的节点向量表示进行学习分类,获取有害的VoIP节点。
[0013]进一步地,VoIP多数据源包括VoIP流量数据、呼叫详细记录和VoIP应用知识库信息,该VoIP流量数据包括电话号码和非电话号码形式的VoIP用户名,该呼叫详细记录包括IP类型的服务域名和FQDN类型的服务域名,该VoIP应用知识库信息包括通过人工或模型对VoIP流量数据和呼叫详细记录进行用户危险等级标注。
[0014]进一步地,所述部分节点标签来自于VoIP应用知识库信息。
[0015]进一步地,利用基于正负采样的交叉熵损失函数对GEM模型进行训练,该交叉熵损失函数的表达式如下:
[0016][0017]其中,节点j是节点i随机游走访达的邻居;i
n
~P
n
(i)表示负采样:节点j
n
是从节点i的负采样分布P
n
中采样得到,Q为采样样本数,σ是非线性激活函数,h
i
,h
j
表示第i,j个节点的embedding向量,E表示两个节点的关系描述,log底数为10。
[0018]进一步地,所述分类算法为逻辑回归、支持向量机、决策树、随机森林、XGBoost、LightGBM、CatBoost中的一种。
[0019]一种基于异构神经网络技术的VoIP恶意行为检测系统,包括存储器和处理器,在该存储器上存储有计算机程序,该处理器执行该程序时实现上述方法的步骤。
[0020]一种计算机可读存储介质,存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
[0021]本方法对多数据源的VoIP信息进行了提取,结合了呼叫详细记录和VoIP流量,从而提取了包括用于标识呼叫者和被叫者的用户名和服务域名、流量记录中消息传输的路径信息、电信账号的通话记录信息等信息。针对VoIP异构网络信息,在图表示学习过程中,筛选出了最优损失函数。与已有方法相比只关注单一数据源相比,本方法采用了三类数据源,分别是:1)VoIP流量数据,2)呼叫详细记录,3)VoIP应用知识库信息,其中VoIP应用知识库信息主要包括通过人工/模型标记的用户危险等级等信息。与已有方法未挖掘VoIP行为中的隐藏关系相比,本方法通过多维信息多关联分析,能够挖掘VoIP行为中的隐式关系和隐藏模式,以提高检测能力。在VoIP有害行为涉及到的信息对象包括但不限于用户名、完全限定域名(FQDN)、IP地址、电话号码等。这些信息对象构成的关联网络属于异构信息网络,即构成的对象和连接包括多个不同的类型。与使用同构信息网络相比,异构信息网络包含更多的信息,更有利于进行隐式关系和隐藏模式挖掘。较之现有的技术仅利用单一数据源,本专利技术利用了多种VoIP数据源,能够充分利用了VoIP信息对象,便于进行多维信息融合和关联网络构建。较之现有技术仅利用统计方法,本专利技术利用了图表示学习方法,可以充分学习到节点之间的交互信息,能够挖掘VoIP行为中的隐式关系和隐藏模式,以提高VoIP有害行为检测管理能力,有助于打击恶意服务,净化网络环境。
附图说明
[0022]图1是本专利技术实施例的异构信息网络实例图。
[0023]图2是本专利技术实施例的异构信息网络实例的网络模式图。
具体实施方式
[0024]为使本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
[0025]本实施例公开了一种基于异构神经网络技术的VoIP恶意行为检测方法,在多VoIP数据源下使用异构信息网络检测恶意VoIP行为,本实施例使用的VoIP多数据源形成的异构信息网络实例如图1所示,具体而言,包括以下处理步骤:
[0026]步骤一:从多数据源中抽取出信息对象。
[0027]本实施例中的多数据源信息包括:m∈M为电话号码的集合,n∈N为非电话号码形式的VoIP用户名的集合,p∈P为IP类型的服务域名集合,q∈Q为FQDN类型的服务域名集合。
[0028]步骤二:将信息对象本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构神经网络技术的VoIP恶意行为检测方法,其特征在于,包括以下步骤:从VoIP多数据源中抽取出信息对象;根据信息对象的关联关系提取各信息对象之间的元路径,由全部相关的元路径构造全节点邻接矩阵,根据该全节点邻接矩阵构建异构信息网络,该异构信息网络中的节点表示信息对象,边表示信息对象之间的连接关系;根据与信息对象相关的不同的元路径,获取异构信息网络和对应的邻接矩阵,通过训练GEM模型利用异构信息网络的邻接矩阵及其特征矩阵,得到节点向量表示;根据节点向量表示,计算不同节点之间的相似度,将相似度大于某一阈值的节点聚为一类;对于同一类的节点,利用该类中部分节点标签对该类中所有节点打上相同标签,得到标注好的数据;基于标注好的数据,监督分类算法对输入的节点向量表示进行学习分类,获取有害的VoIP节点。2.如权利要求1所述的方法,其特征在于,VoIP多数据源包括VoIP流量数据、呼叫详细记录和VoIP应用知识库信息,该VoIP流量数据包括电话号码和非电话号码形式的VoIP用户名,该呼叫详细记录包括IP类型的服务域名和FQDN类型的服务域名,该VoIP应用知识库信息包括通过人工或模型对VoIP流量数据和呼叫详细记录进行用户危险等级标注。3.如权利要求2所述的方法,其特征在于,所述部分...

【专利技术属性】
技术研发人员:李鹏王晨旭张震沈亮王立强李钊段冬梅杜梅婕
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1