当前位置: 首页 > 专利查询>中国人民解放军战略支援部队信息工程大学专利>正文

基于改进simhash的有害网址检测方法、装置与系统制造方法及图纸

技术编号：35021835 阅读：24 留言：0更新日期：2022-09-24 22:51

本发明专利技术提供一种基于改进simhash的有害网址检测方法、装置与系统。该方法包括：获取疑似有害网页的HTML文件，从HTML文件中抽取得到网页标题和网页正文并进行分词；计算每个词汇的词汇权重和哈希值；根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名，将两个签名进行拼接得到疑似有害网页的网页签名，记作签名A；将签名A分割成若干个相同长度的子签名段，利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集；计算签名A与候选网页签名集中每个签名B之间的相似度，若存在至少一个相似度值大于设定阈值的签名B，则认为签名A对应的疑似有害网页的URL为有害网址。URL为有害网址。URL为有害网址。

全部详细技术资料下载

【技术实现步骤摘要】
基于改进simhash的有害网址检测方法、装置与系统

[0001]本专利技术涉及互联网与网络空间安全
，特别是针对互联网中家族性、同源性有害网址的检测发现，尤其涉及一种基于改进simhash的有害网址检测方法、装置与系统。

技术介绍

[0002]有害网址指网络中一切对人们身份隐私、财产安全、精神健康等产生威胁的网站网址，不仅包括以挂马网站、钓鱼网站为代表的恶意网站网址，还包括大量黑灰产网站网址，涉及违法内容的网站网址。在有害网址中，为了躲避封禁，存在大量攻击者使用域名生成算法自动产生域名的网址，大量有害网址是攻击方一次性注册批量域名生成的，因此屡封不止。
[0003]当前对有害网址的检测主要有：(1)针对网址URL和域名的检测，建立 URL/域名黑白名单库；而为了逃避检测，产生有害网址的攻击方通常采取域名生成算法(DGA)频繁创建注册新域名或动态变换域名、利用IP
‑
flux等技术变换域名和IP的解析关系，以此来对抗域名黑名单和启发式规则等检测算法。(2) 基于传统机器学习或深度学习的分类模型检测。(3)DNS探测；在针对网页内容分析的方法中，多数是利用深度学习算法训练文本分类以及图像分类模型来实现对有害网址的检测。这类方法需要大量标注数据，同时深度模型参数多、模型训练时间长，在有害网址生存周期日益缩短的情况下，难以对攻击者批量生成的内容相似的家族性、同源性有害网址进行快速地主动检测发现。其中，前两种检测方法都属于被动分析检测，第三种检测方法为主动分析检测方法。

技术实现思路
<...

【技术保护点】

【技术特征摘要】
1.基于改进simhash的有害网址检测方法，其特征在于，包括：步骤1：获取疑似有害网页的HTML文件，从所述HTML文件中抽取得到网页标题和网页正文，并对所述网页标题和所述网页正文进行分词；步骤2：计算每个词汇的词汇权重和哈希值；步骤3：根据词汇权重和哈希值采用simhash算法计算网页标题的签名和网页正文的签名，将两个签名进行拼接得到所述疑似有害网页的网页签名，记作签名A；步骤4：将签名A分割成若干个相同长度的子签名段，利用预先构建的分段索引对每个子签名段进行检索以便提取得到与签名A存在至少一个相同子签名段的候选网页签名集；所述候选网页签名集中包括至少一个已知有害网址的网页签名，记作签名B；步骤5：计算签名A与所述候选网页签名集中每个签名B之间的相似度，若存在至少一个相似度值大于设定阈值的签名B，则认为签名A对应的疑似有害网页的URL为有害网址。2.根据权利要求1所述的基于改进simhash的有害网址检测方法，其特征在于，在步骤2之前，还包括：对分词结果进行清洗以去掉无法反映网页内容的文本信息。3.根据权利要求1所述的基于改进simhash的有害网址检测方法，其特征在于，步骤2中的计算每个词汇的词汇权重具体包括：针对网页标题的分词结果，使用词频作为每个词汇的词汇权重；针对网页正文的分词结果，按照公式(1)计算每个词汇的词汇权重；其中，n
c
与分别表示词汇c和c
i
在网页正文中出现的次数，len(c)和len(c
i
)分别为词汇c和c
i
的长度；len(d
j
)和len(d
f
)分别为网页正文d
j
和d
f
的总字符数；∑len(d
j
)和∑len(d
f
)分别为所有网页正文的总字符数和包含词汇c的所有网页正文的总字符数，i表示词汇序号，j表示网页正文序号。4.根据权利要求1所述的基于改进simhash的有害网址检测方法，其特征在于，步骤2中的计算每个词汇的哈希值具体包括：采用MD5哈希算法计算每个词汇的哈希值。5.根据权利要求1所述的基于改进simhash的有害网址检测方法，其特征在于，步骤3中的网页标题的签名和网页正文的签名的计算过程具体包括：步骤A1：将每个词汇的n位哈希值表示为n维特征向量；步骤A2：采用词汇的词汇权重对其特征向量进行加...

【专利技术属性】
技术研发人员：李星，王凯，巫岚，刘树新，潘菲，普黎明，王庚润，李英乐，江昊聪，朱宇航，
申请(专利权)人：中国人民解放军战略支援部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人