一种基于制造技术

技术编号:39749084 阅读:25 留言:0更新日期:2023-12-17 23:46
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于Bert模型和三支决策算法的网页暗链检测方法


[0001]本专利技术属于网络安全
,具体涉及一种基于
Bert
模型和三支决策算法的网页暗链检测方法


技术介绍

[0002]近年来,随着网络技术的不断发展,利用网络流量获取经济收益已经成为一种普遍的营销方式

然而,这种方式也被不法分子引入到网络黑灰产业链中,其中“网页暗链”就是一种典型的问题

网页暗链指不法分子通过夺取网站服务器一定权限,修改网页内容,将异常的网页链接以在线访客不可见

但搜索引擎能索引到的形式隐藏其中,以提升异常网页链接的搜索引擎排名,进而为异常网页引入大量流量

网页暗链往往被非法链接到色情

诈骗

赌博

非法游戏私服

虚假医疗等黑灰产业,甚至是反动信息

暗链严重扰乱了搜索引擎排名机制,使得搜索结果用户满意度下降,甚至因为误导用户造成损失而引起法律纠纷
。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Bert
模型和三支决策算法的网页暗链检测方法,其特征在于:包括下列步骤:
S1、
收集正常网页和网页暗链中的文本信息形成数据集,基于该数据集训练面向暗链文本特征的
Bert
模型;
S2、
提取待检测网页中的文本信息,利用所述
Bert
模型从上述文本信息中提取特征向量,再通过三支决策算法对所述特征向量进行分类,得到待检测网页的决策集合,决策集合包含负向决策

正向决策和边界决策三种元素;
S3、
根据三支决策算法的分类结果判断待检测网页是否存在暗链,利用所述
Bert
模型从上述文本信息中提取特征向量,当能确定待检测网页是否存在暗链时,根据判断结果向第三方警示

报告或结束本网页的检测,而后转到步骤
S2
;当网站中是否存在暗链无法判断时,将由下一步处理网站中无法判断的边界域标签文本;
S4、
对于归为边界域的标签文本,通过
minHashing
算法依次计算其与异常文本数据库中所有记录的文本字段的相似度,根据相似度选择将该标签文本保存在异常文本数据库的已有类别中或新设置的类别中;
S5、
根据异常文本数据库中某类异常文本的频数或者异常文本数据库中记录的总数是否超过对应阈值判断是否将异常文本数据库中异常文本交由人工复核审查,审查后更新数据集并重新训练
Bert
模型
。2.
根据权利要求1所述的一种基于
Bert
模型和三支决策算法的网页暗链检测方法,其特征在于:所述步骤
S1
包括:
S1.1、
收集大量网站的
URL
地址;
S1.2、
对于收集的
URL
地址集合中每条
URL
地址,进行分类

标注和保存,形成数据集;
S1.3、
设定暗链数据集中暗链样本的数量阈值,当暗链样本的数量超过数量阈值,则停止数据集的采集,执行下一步
Bert
模型的训练,否则通过本步骤继续采集暗链样本以补充负样本,降低样本偏置;
S1.4、
基于构建的暗链数据集,训练基于
Bert
的暗链文本分类模型
。3.
根据权利要求2所述的一种基于
Bert
模型和三支决策算法的网页暗链检测方法,其特征在于:所述步骤
S1.2

URL
地址集合中每条
URL
地址
u
i
进行处理,对
URL
地址集合中每条
URL
地址
u
i
进行处理,具体执行以下操作:
S1.2.1、
爬取
u
i
对应网页的超文本数据
h
i

S1.2.2、
计算超文本中
&lt;head&gt;
部分的
Hash

hash(h
i
)
,然后将
URL
地址
u
i
及其对应的网页头部
Hash

hash(h
i
)
保存在网页源数据库中;
S1.2.3、
对于超文本
&lt;head&gt;
部分,提取
&lt;title&gt;
以及
&lt;meta&gt;
标签中的文本信息;对于超文本
&lt;body&gt;
部分,提取每个具体锚文本中的文本信息,对于每个标签或锚文本中提取的文本信息分别进行人工标注,根据文本内容分别标注为负类

标注为正类或丢弃该文本;最后将标注的结果保存到网页暗链数据集中
。4.
根据权利要求2所述的一种基于
Bert
模型和三支决策算法的网页暗链检测方法,其特征在于:所述步骤
S1.3
的采集过程中每隔一个指定时间,对于网页源数据库中每个
URL
地址
u
i
依次执行如下操作:
S1.3.1、
爬取
u
i
对应网页的超文本数据
h

i

S1.3.2、
计算超文本中
&lt;head&gt;
部分的
Hash

hash(h

i
)
,判断
hash(h

i
)
与数据库中保存的
u
i
对应的
Hash

hash(h
i
)
是否一致;如果
hash(h

)
i

hash(h
i
)
,判断该网页未被篡改植入暗链,结束
u
i
的处理,读取下一条
URL
地址
u
i+1
,跳转到
S1.3.1
;如果
hash(h

)
i
≠hash(h
i
)
,说明该网页有一定概率被篡改并植入暗链,对其进行人工复核;
S1.3.3、
对于超文本
&lt;head&gt;
部分,提取
&lt;title&gt;
以及
&lt;meta&gt;
标签中的文本信息;对于超文本
&lt;body&gt;
部分,提取每个具体锚文本中的文本信息,对于每个标签或锚文本中提取的文本信息分别进行人工标注,然后将标注为负类的结果保存到网页暗链数据集中;
S1.3.4、
如果暗链数据集中暗链样本的数量超过阈值
ξ
,则停止数据集的采集,执行下一步
Bert
模型的训练;否则读取下一条
URL
地址
u
i+1
,跳转到
S1.3.1。5.
根据权利要求1所述的一种基于
Bert
模型和三支决策算法的网页暗链检测方法,其特征在于:所述步骤
S2
包括:步骤
S2.1、
获取待检测的网页的超文本数据;步骤
S2.2、
提取出网页中每一个标签的文本,然后对上述文本进行预处理,将文本数据中重复

无效的数据进行删减,形成待检测网页的特征文本集合其中
n
为待检测网页中有效标签文本的数量,
t
i
为有效标签文本;步骤
S2.3、
利用步骤
S1
训练好的
Bert
模型提取待检测网页标签文本的特征向量集合
x
...

【专利技术属性】
技术研发人员:刘家银王群印杰方静雯邵谦熊维梁广俊夏玲玲诸葛程晨郭向民倪雪莉马卓
申请(专利权)人:江苏警官学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1