基于改进simhash的有害网址检测方法、装置与系统制造方法及图纸

技术编号:35021835 阅读:24 留言:0更新日期:2022-09-24 22:51
本发明专利技术提供一种基于改进simhash的有害网址检测方法、装置与系统。该方法包括:获取疑似有害网页的HTML文件,从HTML文件中抽取得到网页标题和网页正文并进行分词;计算每个词汇的词汇权重和哈希值;根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到疑似有害网页的网页签名,记作签名A;将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集;计算签名A与候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。URL为有害网址。URL为有害网址。

【技术实现步骤摘要】
基于改进simhash的有害网址检测方法、装置与系统


[0001]本专利技术涉及互联网与网络空间安全
,特别是针对互联网中家族性、同源性有害网址的检测发现,尤其涉及一种基于改进simhash的有害网址检测方法、装置与系统。

技术介绍

[0002]有害网址指网络中一切对人们身份隐私、财产安全、精神健康等产生威胁的网站网址,不仅包括以挂马网站、钓鱼网站为代表的恶意网站网址,还包括大量黑灰产网站网址,涉及违法内容的网站网址。在有害网址中,为了躲避封禁,存在大量攻击者使用域名生成算法自动产生域名的网址,大量有害网址是攻击方一次性注册批量域名生成的,因此屡封不止。
[0003]当前对有害网址的检测主要有:(1)针对网址URL和域名的检测,建立 URL/域名黑白名单库;而为了逃避检测,产生有害网址的攻击方通常采取域名生成算法(DGA)频繁创建注册新域名或动态变换域名、利用IP

flux等技术变换域名和IP的解析关系,以此来对抗域名黑名单和启发式规则等检测算法。(2) 基于传统机器学习或深度学习的分类模型检测。(3)DNS探测;在针对网页内容分析的方法中,多数是利用深度学习算法训练文本分类以及图像分类模型来实现对有害网址的检测。这类方法需要大量标注数据,同时深度模型参数多、模型训练时间长,在有害网址生存周期日益缩短的情况下,难以对攻击者批量生成的内容相似的家族性、同源性有害网址进行快速地主动检测发现。其中,前两种检测方法都属于被动分析检测,第三种检测方法为主动分析检测方法。

技术实现思路
<br/>[0004]为了能够主动检测发现家族性、同源性有害网址,本专利技术提供一种基于改进 simhash的有害网址检测方法、装置与系统,获取网页HTML文件并从中抽取其网页标题和网页正文,采用从网页标题和网页正文来表征网页内容,然后通过计算网页标题和网页正文的改进simhash签名建立高速的分段索引,实现针对攻击者批量生成的家族性、同源性网页实现快速检测识别。
[0005]第一方面,本专利技术提供一种基于改进simhash的有害网址检测方法,包括:
[0006]步骤1:获取疑似有害网页的HTML文件,从所述HTML文件中抽取得到网页标题和网页正文,并对所述网页标题和所述网页正文进行分词;
[0007]步骤2:计算每个词汇的词汇权重和哈希值;
[0008]步骤3:根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到所述疑似有害网页的网页签名,记作签名A;
[0009]步骤4:将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集;所述候选网页签名集中包括至少一个已知有害网址的网页签名,记作签名B;
[0010]步骤5:计算签名A与所述候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。
[0011]进一步地,在步骤2之前,还包括:对分词结果进行清洗以去掉无法反映网页内容的文本信息。
[0012]进一步地,步骤2中的计算每个词汇的词汇权重具体包括:
[0013]针对网页标题的分词结果,使用词频作为每个词汇的词汇权重;
[0014]针对网页正文的分词结果,按照公式(1)计算每个词汇的词汇权重;
[0015][0016]其中,n
c
与分别表示词汇c和c
i
在网页正文中出现的次数,len(c)和len(c
i
)分别为词汇c和c
i
的长度;len(d
j
)和len(d
f
)分别为网页正文d
j
和d
f
的总字符数;∑len(d
j
)和∑len(d
f
)分别为所有网页正文的总字符数和包含词汇c的所有网页正文的总字符数,i表示词汇序号,j表示网页正文序号。
[0017]进一步地,步骤2中的计算每个词汇的哈希值具体包括:采用MD5哈希算法计算每个词汇的哈希值。
[0018]进一步地,步骤3中的网页标题的签名和网页正文的签名的计算过程具体包括:
[0019]步骤A1:将每个词汇的n位哈希值表示为n维特征向量;
[0020]步骤A2:采用词汇的词汇权重对其特征向量进行加权,融合所有词汇的加权后特征向量以得到网页标题或网页正文的n维特征向量;
[0021]步骤A3:对网页标题或网页正文的n维特征向量中的元素取值进行数值降维;
[0022]步骤A4:将数值降维后的n维特征向量表示为n位字符串作为网页标题或网页正文的签名。
[0023]进一步地,步骤A3具体包括:若元素取值大于0,则数值降维后为1;若元素取值小于0则数值降维后为0。
[0024]进一步地,步骤4中的分段索引的构建过程具体包括:
[0025]将所有已知有害网址的网页签名均分割成若干个相同长度的子签名段;
[0026]以每个子签名段为key值,以包含所述key值的所有网页签名的列表为value 值,构建得到分段索引。
[0027]进一步地,步骤5中,采用两个签名之间的汉明距离作为两个签名之间的相似度。
[0028]第二方面,本专利技术提供一种基于改进simhash的有害网址检测装置,包括:
[0029]网页文本处理单元,用于获取目标网页的HTML文件,从所述HTML文件中抽取得到网页标题和网页正文,并对所述网页标题和所述网页正文进行分词;所述目标网页指已知有害网址对应的网页或疑似有害网页;
[0030]签名生成单元,用于计算每个词汇的词汇权重和哈希值;根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到目标网页的网页签名;其中,将疑似有害网页的网页签名记作签名A,将已知有害网址对应的网页的网页签名记作签名B;
[0031]索引单元,用于将目标网页的签名分割成若干个相同长度的子签名段;利用预先构建的分段索引对疑似有害网页的每个子签名段进行检索以便提取得到与签名A存在至少
一个相同子签名段的候选网页签名集;所述候选网页签名集中包括至少一个签名B;
[0032]相似度计算单元,用于计算签名A与所述候选网页签名集中每个签名B之间的相似度;
[0033]输出单元,用于当存在至少一个相似度值大于设定阈值的签名B时,将签名A对应的疑似有害网页的URL标记为有害网址。
[0034]第三方面,本专利技术提供过一种基于改进simhash的有害网址检测系统,包括:有害网址数据离线存储装置、网址数据实时收集装置、数据上报装置和上述的有害网址检测装置;
[0035]所述有害网址检测装置从所述有害网址数据离线存储装置中读入已知有害网址数据以构建分段索引;并从网址数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进simhash的有害网址检测方法,其特征在于,包括:步骤1:获取疑似有害网页的HTML文件,从所述HTML文件中抽取得到网页标题和网页正文,并对所述网页标题和所述网页正文进行分词;步骤2:计算每个词汇的词汇权重和哈希值;步骤3:根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名,将两个签名进行拼接得到所述疑似有害网页的网页签名,记作签名A;步骤4:将签名A分割成若干个相同长度的子签名段,利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集;所述候选网页签名集中包括至少一个已知有害网址的网页签名,记作签名B;步骤5:计算签名A与所述候选网页签名集中每个签名B之间的相似度,若存在至少一个相似度值大于设定阈值的签名B,则认为签名A对应的疑似有害网页的URL为有害网址。2.根据权利要求1所述的基于改进simhash的有害网址检测方法,其特征在于,在步骤2之前,还包括:对分词结果进行清洗以去掉无法反映网页内容的文本信息。3.根据权利要求1所述的基于改进simhash的有害网址检测方法,其特征在于,步骤2中的计算每个词汇的词汇权重具体包括:针对网页标题的分词结果,使用词频作为每个词汇的词汇权重;针对网页正文的分词结果,按照公式(1)计算每个词汇的词汇权重;其中,n
c
与分别表示词汇c和c
i
在网页正文中出现的次数,len(c)和len(c
i
)分别为词汇c和c
i
的长度;len(d
j
)和len(d
f
)分别为网页正文d
j
和d
f
的总字符数;∑len(d
j
)和∑len(d
f
)分别为所有网页正文的总字符数和包含词汇c的所有网页正文的总字符数,i表示词汇序号,j表示网页正文序号。4.根据权利要求1所述的基于改进simhash的有害网址检测方法,其特征在于,步骤2中的计算每个词汇的哈希值具体包括:采用MD5哈希算法计算每个词汇的哈希值。5.根据权利要求1所述的基于改进simhash的有害网址检测方法,其特征在于,步骤3中的网页标题的签名和网页正文的签名的计算过程具体包括:步骤A1:将每个词汇的n位哈希值表示为n维特征向量;步骤A2:采用词汇的词汇权重对其特征向量进行加...

【专利技术属性】
技术研发人员:李星王凯巫岚刘树新潘菲普黎明王庚润李英乐江昊聪朱宇航
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1