一种恶意网站检测方法、装置、系统及设备制造方法及图纸

技术编号:37347865 阅读:45 留言:0更新日期:2023-04-22 21:43
本发明专利技术公开了一种恶意网站攻击检测方法、装置、系统及设备,方法包括:步骤1,网站定量特征提取:从待检测网站网页源码提取待检测网站的定量特征;步骤2,网站语义特征提取:从网页源码中选定与网站语义密切相关的重要标签,从选定的重要标签中提取各个标签的语义信息,将各个标签的语义信息合成为待检测网站的语义特征;步骤3,生成网站的特征向量:将定量特征与语义特征合成为特征向量;步骤4,检测恶意网站:以待检测网站的特征向量为输入,利用以过采样拓展图拓扑结构方式构建的增广图数据为训练数据预先训练好的图卷积神经网络分类器进行预测得出该待检测网站的类型分类,类型分类包括:恶意网站与合法网站。该方法能准确检测恶意网站。测恶意网站。测恶意网站。

【技术实现步骤摘要】
一种恶意网站检测方法、装置、系统及设备


[0001]本专利技术涉及网络安全领域,尤其涉及一种恶意网站检测方法、装置、系统及设备。

技术介绍

[0002]恶意网站是试图通过漏洞,安装恶意软件的方式来干扰计算机操作,收集用户个人信息甚至完全控制用户机器的网站。在多数情况下,恶意网站往往伪装成合法网站的样子,它可以让人们正常浏览页面内容,同时非法获取用户机器中的各种数据。恶意网站不仅是传播电脑病毒的重要源头,还会善用“伪装”手段,传播不良信息或者实现欺诈行为。严重影响了网民利益以及上网的安全性。
[0003]恶意网站一般有三种表现形式:钓鱼网站,垃圾邮件网站以及恶意软件网站。钓鱼网站会尽可能的模仿正常网站的表现形式,通过视觉上欺骗用户来窃取用户的隐私信息。当访问者输入自己的个人信息或者银行卡信息时,这些数据将会被不法分子窃取,甚至可能出售用户的个人信息,造成严重损失。垃圾网站是指通过一系列技术颠覆搜索引擎排名算法导致其搜索结果优先的不良网站。垃圾网站中可能含有指向不良网站的链接,虚假或非法的内容等。通过增加用户搜索的几率来像用户传播不良信息。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种恶意网站攻击检测方法,其特征在于,包括:步骤1,网站定量特征提取:获取待检测网站的网页源码,从网页源码中提取待检测网站的定量特征,所述定量特征包括:内容特征和链接特征;步骤2,网站语义特征提取:从待检测网站的网页源码中选定与网站语义密切相关的重要标签,从选定的重要标签中提取各个标签的语义信息,将各个标签的语义信息合成为待检测网站的语义特征;步骤3,生成网站的特征向量:将所述步骤1得出的待检测网站的定量特征与所述步骤2得出的待检测网站的语义特征合成为待检测网站的特征向量;步骤4,检测恶意网站:以待检测网站的特征向量为输入,利用以过采样拓展图拓扑结构方式构建的网站拓扑增广图数据作为训练数据预先训练好的图卷积神经网络分类器进行预测得出该待检测网站的类型分类,所述类型分类包括:恶意网站与合法网站。2.根据权利要求1所述的恶意网站攻击检测方法,其特征在于,所述方法中,按以下方式以过采样拓展图拓扑结构方式构建的网站拓扑增广图数据作为训练数据训练图卷积神经网络分类器,包括:步骤401,对现有网站拓扑进行特征提取:通过图神经网络分类器对输入的网站的特征向量进行提取,学习网站节点表示,得出网站节点属性和图拓扑信息;步骤402,在嵌入空间中生成少数类节点的特征属性:利用恶意网站的特征值与它们在嵌入空间中最近的邻域进行插值生成新节点属性,该新节点属性属于恶意网站节点类别;步骤403,构造新合成节点与旧节点之间的链接关系:新合成节点后需要构造新、旧节点的链接关系,对网站原拓扑图进行扩充,采用带权内积解码器计算新合成节点与旧节点之间的相关性,推导边的生成,根据生成的边在网站原拓扑图上链接新合成节点完成网站原拓扑图的扩充得到网站拓扑增广图数据;步骤404,以得到的网站拓扑增广图数据作为训练数据训练图卷积神经网络分类器。3.根据权利要求1或2所述的恶意网站攻击检测方法,其特征在于,所述方法中,所述图卷积神经网络分类器的结构是由输入层、隐藏层和输出层组成的双层图卷积神经网络;其中,输入层的输入为网站拓扑增广图数据的邻接矩阵以及各网站的特征向量,输入层的图卷积公式为:其中,g
θ
为图卷积神经网络分类器的卷积核;x是输入的网站节点;θ是切比雪夫系数向量;是的度矩阵;A是图的邻接矩阵;I
N
为单位矩阵;隐藏层作为特征提取器,接收所述输入层的输出,该隐藏层的传递函数为:其中,各参数含义为:σ是非线性激活函数;是的度矩阵;A是网络中网站拓扑图的邻接矩阵,I
N
为网络中网站拓扑图的单位矩阵;H
(l)
是图神经网络层的特征,W
(l)
是图神经网络层的权重;
输出层的前向传播公式为:其中,W
(0)
为输入层



隐藏层的权重矩阵;W
(1)
为隐藏层



输出层的权重矩阵,X是网站节点嵌入特征;输出层分类的损失函数为:其中,Loss是输出层的分类损失函数;Y
L
是具有标签的网站节点索引集;F表示特征向量的数量;Z是经过图卷积神经网络分类器传播后的输出向量。4.根据权利要求1或2所述的恶意网站攻击检测方法,其特征在于,所述步骤1中,按以下方式从网页源码中提取待检测网站的内容特征和链接特征,包括:以标签为单位对网页源码进行拆分,拆分后得到以标签为单位的HTML代码,从<title>、<meta>、<body>、<a>各标签对应的HTML代码提取待检测网站的内容特征及链接特征;其中,所述待检测网站的内容特征包括:停用词数量特征值、错误词数量特征值、关键字数量特征值、网页文本词汇数量特征值;所述待检测网站的链接特征包括:网页排名值、空链接数量特征值、网页重定向链接数量特征值、网页外部链接数量特征值。5.根据权利要求4所述的恶意网站攻击检测方法,其特征在于,所述停用词数量特征值的停用词指网页文本中没有实际意义的词汇,该停用词数量特征值的计算方式如下:的停用词指网页文本中没有实际意义的词汇,该停用词数量特征值的计算方式如下:其中,F1为停用词数量特征值;stop_rate是停用词比率,指网页中停用词数量占总字数的比率,N
s
和N
t
分别是网页中停用词数量与总字数;是停用词比率的阈值,取值为0

1,按逐次升高0.1,其他特征向量保持不变,来记录准确率最高时的值作为基值;所述错误词数量特征值的错误词汇指网页文本中拼写错误或者不存在的词汇,该错误词数量特征值的计算方式如下:词数量特征值的计算方式如下:其中,F2为错误词数量特征值;error_rate为错误词比率,指网页中错误的词数量占总
字数的比率,N
e
和N
t
分别是网页中的错误字数和总字数;是错误词比率的阈值,取值为0

1,按逐次升高0.1,其他特征向量保持不变,来记录准确率最高时的值作为基值;所述关键字数量特征值的计算方式如下:其中,F3为关键字数量特征值;N
k
表示网页中的关键字;是关键字个数的参数,在网页中取值为100以内,按逐次升高10,其他特征向量保持不变,来记录准确率最高时的值作为基值;所述网页排名值的计算方式如下:其中,F5为网页排名值;PR是网络拓扑图中网站节点的PageRank值;d是阻尼因子,一般取0.85;p
k
是当前计算的网站页面;是指向网站p
k
的网站页面集合;L(p
k
)是p
k
链出网站页面的数量;N是所有页面的数量;所述空链接数量特征值的计算方式如下:所述空链接数量特征值的计算方式如下:其中,F6为空链接数量特征值;null_rate是网页空链接率,L
e
和L
t
分别是网页中空链接和总链接的数量;是网页空链接率的阈值,取值为0~1之间,按逐次升高0.1,其它特征向量保持不变,来记录准确率最高时的值作为基值;所述网页重定向链接数量特征值的计算方式如下:所述网页重定向链接数量特征值的计算方式如下:其中,F7为网页重定向链接数量特征值;redirect_rate是网页重定向链接率,L
r
和L
t
分别是重定向链接数量和总链接数量;是网页重定向链接率的阈值,取值为0~1之间,以逐次升高0.1,其它特征向量保持不变,来记录准确率最高时的值作为基值;所述网页外部链接数量特征值的计算方式如下:
其中,F8为网页外部链接数量特征值;out_rate是网页重定向链接率,L
ex
和L
t
分别是重定向链接数量和总链接数量;是网页重定向链接率的阈值,取值为0~1之间,按逐次升高0.1,其它特征向量保持不变,来记录准确率最高时的值作为基值。6.根据权利要求1或2所述的恶意网站攻击检测方法,其特征在于,所述步骤2中,按以下方式从待检测网站的网页源码中选定与网站语义密切相关的重要标签,从选定的重要标签中提取各个标签的语义信息,合成待检测网站的语义特征,包括:从待检测网站的网页源码中选定<body>、<keyword>、<description>和<title>四种标签作为与网站语义密切相关的重要标签;将选定的同一标签内的文本视为整体,采用word2vec算法从各标签中的上下文词汇,预测当前词汇得到当前词汇的向量化表示,将得到的每个词汇的输出向量以标签为单位聚合成为标签向量,将所有标签向量结合生成标签矩阵,利用标签矩阵通过自注意力机制得出查询向量序列、关键向量序列和值向量序列,通过查询向量序列、关键向量序列和值向量序列计算得出各标签的注意力值,标签的注意力值的计算公式为:其中,D是注意力值;Q,K,V分别为查询向量序列、关键向量序列和值向量序列,是尺度;利用上述方式计算得出的<body>、<keyword>、<description>和<title>标签的注意力值,按以下方式计算合成待检测网站的语义特征,为:o
i
=v
i
·
d

i,j
其中,各参数含义为:F9为待检测网站的语义特征;o
i
为输出向量的行向量,其中每一行分别代表<body>、<keyword>,<description>和<title>标签的注意力值;O
page
为网页语义向量;o
body
,o
keyword
,o
description
,o
title
分别为<body>,<keyword>,<description>,<title>标签的语义向量。7.一种恶意网站攻击检测装置,其特征在于,包括:网站定量特征提取模块、网站语义特征提取模块、网站特征...

【专利技术属性】
技术研发人员:陈双武徐子鎐刘丽哲何华森杨坚杨锋
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1