一种黑产网站的识别方法及系统技术方案

技术编号:31828533 阅读:19 留言:0更新日期:2022-01-12 13:01
本发明专利技术提供了一种黑产网站的识别方法及系统,该方法包括:获取黑产网站样本,标记所述黑产网站样本的初始权重;根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板;提取所述黑产网站样本中的外部链接网站,根据所述外部链接网站的内容生成SimHash的第二签名;根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;选择所述目标权重中高权重的网站,通过SimHash碰撞查找黑产网站。本发明专利技术实现对网站的分类,然后通过SimHash碰撞可精确快速的查找到黑产网站,提高了查找黑产网站的准确率和效率。高了查找黑产网站的准确率和效率。高了查找黑产网站的准确率和效率。

【技术实现步骤摘要】
一种黑产网站的识别方法及系统


[0001]本专利技术涉及互联网数据处理
,尤其涉及一种黑产网站的识别方法及系统。

技术介绍

[0002]在信息网络快速发展的背景下,电信网络诈骗已成为当前发展最快,且严重影响人民群众安全感的刑事犯罪。由于网络和对应的智能设备不断的融入居民的日常生活中,电信网络诈骗出现了一些新变化和新特征。
[0003]比如,由电话和短信诈骗向网络诈骗进行转移,犯罪分子能够实施网络诈骗,网络黑灰产业扮演了“帮凶”的角色。从一些案件数据分析,网络诈骗一般使用APP和网站作为载体,以游戏娱乐、刷单赚钱、投资理财、推荐股票或冒充公检法等名义实施诈骗行为。其中,黑产网站是实施犯罪最核心的环节,其承担了诈骗过程中的信息获取和转账支付两个环节,如果能提早发现所有的黑产网站,监管部门就能及时封堵,避免人民群众上当受骗。
[0004]但是,目前通过关键词搜索网页内容来识别是否为黑产网站,但犯罪集团已洞悉该方法,新的黑产网站已通过将宣传内容和话术转化为图片、视频或动态加载的方式实现,原来的搜索方式已无法达到预期效果。

技术实现思路

[0005]本专利技术的目的在于提供一种黑产网站的识别方法及系统,提高了识别黑产网站的效率和准确性。
[0006]为实现上述目的,第一方面,本专利技术提供了一种黑产网站的识别方法,该方法包括:首先获取黑产网站样本,标记所述黑产网站样本的初始权重;根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板;获取所述黑产网站样本中的外部链接网站,根据所述外部链接网站的内容生成SimHash的第二签名;根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;选择所述目标权重中高权重的网站,通过SimHash碰撞查找黑产网站。
[0007]本专利技术实施例提供的黑产网站的识别方法的有益效果在于:通过将黑产网站样本的内容生成SimHash的第一签名和将外部链接网站生成SimHash的第二签名,且不断调整权重,得到目标权重,实现了对网站的分类,然后通过SimHash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
[0008]可选的,所述黑产网站样本包括首页超文本标记语言,所述根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板,包括:通过SimHash算法计算所述首页超文本标记语言的内容,生成SimHash的第一签名,并将所述SimHash的第一签名标记为所述黑产模。其有益效果在于:根据黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板,提高了将网站标记黑产模板的准确性。
[0009]可选的,所述根据所述初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重,包括:通过PageRank算法,计算所述黑产网站样本的初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重;
[0010]所述调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重,包括:删除所述外部链接网站中为高权重的合法网站,对所述黑产网站样本的权重和所述外部链接网站的权重进行调整;通过PageRank算法计算所述黑产网站样本的权重和所述外部链接网站的权重,得到所述目标权重。其有益效果在于:通过PageRank算法,计算出黑产网站样本的权重和外部链接网站的权重,且删除外部链接网站中为高权重的合法网站,调整权重后再通过PageRank算法计算黑产网站样本的权重和外部链接网站的权重,得到目标权重,使各个网站进行可靠的分类,提高查找黑产网站的准确率和效率。
[0011]可选的,获取黑产网站样本之前,包括:收集黑产网址,建立黑产样本库,利用互联网爬虫获取所述黑产网址中的内容,建立原始网站数据库,所述获取黑产网站样本,包括从所述黑产样本库中获取黑产网站样本,所述获取所述黑产网站样本中的外部链接网站,包括:从所述原始网站数据库中获取所述黑产网站样本中的外部链接网站。其有益效果在于:通过收集各类黑产网站作为黑产网站样本,并建立黑产样本库,以及收集外部链接网站,建立原始网站数据库,便于快速获取黑产网站样本和外部链接网站。
[0012]可选的,所述选择权重较高的网站,通过SimHash碰撞查找黑产网站之后,包括:将查找到的所述黑产网站收集至所述黑产样本库中。其有益效果在于:将识别到的黑产网站收集至黑产样本库中,实现了对黑产样本库中数据的补充,执行该方法时可不断识别发现新的黑产网站。
[0013]在第二方面,本专利技术实施例提供一种黑产网站的识别系统,该系统包括:
[0014]获取单元,用于获取黑产网站样本;处理单元,用于标记所述黑产网站样本的初始权重,并根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板;所述获取单元还用于提取所述黑产网站样本中的外部链接网站,所述处理单元根据所述外部链接网站的内容生成SimHash的第二签名;计算单元,用于根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整单元,用于调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;查找单元,用于选择所述目标权重中高权重的网站,通过SimHash碰撞查找黑产网站。
[0015]本专利技术实施例提供的黑产网站的识别系统的有益效果在于:通过处理单元将黑产网站样本的内容生成SimHash的第一签名和将外部链接网站生成SimHash的第二签名,且调整单元不断调整权重,得到目标权重,实现了对网站的分类,然后通过SimHash碰撞可精确快速的查找到黑产网站,大大提高了查找黑产网站的准确率和效率。
[0016]可选的,所述黑产网站样本包括首页超文本标记语言,所述处理单元,还用于通过SimHash算法计算所述首页超文本标记语言的内容,生成SimHash的第一签名,并将所述SimHash的第一签名标记为所述黑产模板。其有益效果在于:根据黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板,提高了将网站标记黑产模板的准确性。
[0017]可选的,所述计算单元,通过PageRank算法计算所述黑产网站样本的初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重,所述调整单元用于删除所述外部链接网站的权重中为高权重的合法网站,对所述黑产网站样本的权重和所述外部链接网站
的权重进行调整,所述计算单元,还用于通过PageRank算法计算所述黑产网站样本的权重和所述外部链接网站的权重,得到所述目标权重。其有益效果在于:通过PageRank算法,计算出黑产网站样本的权重和外部链接网站的权重,且删除外部链接网站中为高权重的合法网站,调整权重后再通过PageRank算法计算黑产网站样本的权重和外部链接网站的权重,得到目标权重,根据目标权重使各个网站进行可靠的分类,提高查找黑产网站的准确率和效率。
[0018]可选的,还包括收集单元,用于收集黑产网址,建立黑产样本库,并利用互联网爬虫获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种黑产网站的识别方法,其特征在于,包括:获取黑产网站样本;标记所述黑产网站样本的初始权重;根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板;获取所述黑产网站样本中的外部链接网站,根据所述外部链接网站的内容生成SimHash的第二签名;根据所述初始权重,计算得到所述黑产网站样本的权重和所述外部链接网站的权重;调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重;选择所述目标权重中高权重的网站,通过SimHash碰撞查找黑产网站。2.根据权利要求1所述的方法,其特征在于,所述黑产网站样本包括首页超文本标记语言;所述根据所述黑产网站样本的内容生成SimHash的第一签名,并标记为黑产模板,包括:通过SimHash算法计算所述首页超文本标记语言的内容,生成SimHash的第一签名,并将所述SimHash的第一签名标记为所述黑产模板。3.根据权利要求2所述的方法,其特征在于,所述根据所述初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重,包括:通过PageRank算法,计算所述黑产网站样本的初始权重,得到所述黑产网站样本的权重和所述外部链接网站的权重;所述调整所述黑产网站样本的权重和所述外部链接网站的权重,得到目标权重,包括:删除所述外部链接网站中为高权重的合法网站,对所述黑产网站样本的权重和所述外部链接网站的权重进行调整;通过PageRank算法计算所述黑产网站样本的权重和所述外部链接网站的权重,得到所述目标权重。4.根据权利要求1至3任一项所述的方法,其特征在于,所述获取黑产网站样本之前,包括:收集黑产网址,建立黑产样本库;利用互联网爬虫获取所述黑产网址中的内容,建立原始网站数据库;所述获取黑产网站样本,包括:从所述黑产样本库中获取黑产网站样本;所述获取所述黑产网站样本中的外部链接网站,包括:从所述原始网站数据库中获取所述黑产网站样本中的外部链接网站。5.根据权利要求4所述的方法,其特征在于,所述选择权重较高的网站,通过SimHash碰撞查找黑产网站之后,包括:将...

【专利技术属性】
技术研发人员:薛跃凌建国辛阳宋轶非
申请(专利权)人:上海安恒时代信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1