一种仿冒网站识别方法、装置及设备制造方法及图纸

技术编号:38665703 阅读:7 留言:0更新日期:2023-09-02 22:46
本说明书实施例提供一种仿冒网站识别方法、装置及设备,可应用于大数据技术领域。所述方法包括:基于目标保护网站确定至少一个待分析网站;分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图;通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度;根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度;综合所述网页指纹相似度和网页图片相似度确定目标保护网站与待分析网站之间的网站相似度;基于所述网站相似度从所述至少一个待分析网站中筛选对应于目标保护网站的仿冒网站。上述方法,预先确定待分析网站减少比对压力,同时提高了识别结果的准确性,有效确定仿冒网站,保障网络安全。保障网络安全。保障网络安全。

【技术实现步骤摘要】
一种仿冒网站识别方法、装置及设备


[0001]本说明书实施例涉及大数据
,特别涉及一种仿冒网站识别方法、装置及设备。

技术介绍

[0002]随着信息时代的发展,用户可以通过越来越多的网站实现不同的线上操作,例如线上业务处理、线上娱乐等。但是,除了正常的网站之外还存在针对特定网站的仿冒网站。一部分仿冒网站通过设置相似的内容和版式达到吸引流量的效果,还存在一部分仿冒网站通过构建与正常网站相似的界面,窃取用户的数据甚至对用户进行诈骗。无论是什么类型的仿冒网站,都对用户登入正常网站造成了影响,甚至会造成用户的数据泄露甚至是经济损失。
[0003]目前在识别仿冒网站,一方面由于仿冒网站一般不通过外链与其他网站链接,且一段时间后就会关停,导致难以发现仿冒网站,另一方面对仿冒网站进行识别时,主要由运营人员根据网站数据进行模糊检索和手动排查,在识别仿冒网站时存在准确性差、识别效率低等问题。因此,目前亟需一种能够准确有效地对仿冒网站进行识别的技术方案。

技术实现思路

[0004]本说明书实施例的目的是提供一种仿冒网站识别方法、装置及设备,以解决如何准确有效地对仿冒网站进行识别的问题。
[0005]为解决上述技术问题,本说明书实施例提供一种仿冒网站识别方法,包括:基于目标保护网站确定至少一个待分析网站;分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图;通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度;根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度;综合所述网页指纹相似度和网页图片相似度确定目标保护网站与待分析网站之间的网站相似度;基于所述网站相似度从所述至少一个待分析网站中筛选对应于目标保护网站的仿冒网站。
[0006]在一些实施方式中,所述基于目标保护网站确定至少一个待分析网站,包括:爬取候选网站数据;基于网页特定元素从候选网站数据中识别出待分析网站;所述网页特定元素包括图标、标题中的至少一种。
[0007]在一些实施方式中,所述分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图之前,还包括:获取待分析网站的网站主体;所述网站主体包括证书主体和/或域名备案主体;从待分析网站中剔除与目标保护网站为相同网站主体的网站。
[0008]在一些实施方式中,所述分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图,包括:分别提取目标保护网站和待分析网站的页面中的关键词;将关键词整合为向量数组;所述向量数组构成对应网页的网页指纹特征。
[0009]基于上述实施方式,所述分别提取目标保护网站和待分析网站的页面中的关键
词,包括:提取页面文本信息;基于页面文本信息的语义分析结果对页面文本信息进行分词;从分词结果中去除无意义词得到关键词。
[0010]基于前述实施方式,所述将关键词整合为向量数组,包括:基于TF

IDF算法将关键词转化为关键词参数;将关键词参数合并为一维的向量数组。
[0011]在一些实施方式中,所述根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度,包括:对网页截图进行预处理;所述预处理包括图片灰度化处理和图像增强处理中的至少一种;利用图像识别引擎输出预处理后的网页截图的截图特征值;根据所述截图特征值确定所述目标保护网站与待分析网站之间的网页图片相似度。
[0012]在一些实施方式中,所述通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度,包括:基于余弦或欧式距离确定所述目标保护网站与待分析网站之间的网页指纹相似度;相应的,所述根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度,包括:基于余弦或欧式距离确定所述目标保护网站与待分析网站之间的网页图片相似度。
[0013]在一些实施方式中,所述网页指纹相似度和网页图片相似度对应有相应的权重值;所述综合所述网页指纹相似度和网页图片相似度确定目标保护网站与待分析网站之间的网站相似度,包括:综合所述网页指纹相似度和网页图片相似度以及对应的所述权重值,计算目标保护网站与待分析网站之间的网站相似度。
[0014]在一些实施方式中,所述待分析网站对应有分析优先级;所述分析优先级用于确定待分析网站以及待分析网站的处理顺序;所述分析优先级通过目标保护网站与待分析网站的URL相似度而确定。
[0015]在一些实施方式中,所述基于所述网站相似度从所述至少一个待分析网站中筛选对应于目标保护网站的仿冒网站,包括:基于网站相似度的大小排序筛选出特定数量的仿冒网站,或,基于网站相似度与相似度阈值的比较结果筛选出仿冒网站。
[0016]本说明书实施例还提出一种仿冒网站识别装置,包括:待分析网站确定模块,用于基于目标保护网站确定至少一个待分析网站;提取模块,用于分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图;网页指纹相似度确定模块,用于通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度;网页图片相似度确定模块,用于根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度;网站相似度确定模块,用于综合所述网页指纹相似度和网页图片相似度确定目标保护网站与待分析网站之间的网站相似度;仿冒网站筛选模块,用于基于所述网站相似度从所述至少一个待分析网站中筛选对应于目标保护网站的仿冒网站。
[0017]本说明书实施例还提出一种电子设备,包括存储器和处理器;所述存储器用于存储计算机程序/指令;所述处理器用于执行所述计算机程序/指令以实现上述仿冒网站识别方法的步骤。
[0018]本说明书实施例还提出一种计算机可读存储介质,其上存储有计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述仿冒网站识别方法的步骤。
[0019]本说明书实施例还提出一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现上述仿冒网站识别方法的步骤。
[0020]由以上本说明书实施例提供的技术方案可见,本说明书实施例首先根据需要保护
的网站确定至少一个待分析网站,再分别提取这些网站的网页指纹特征和网页截图,并分别计算网站指纹相似度和网页图片相似度,最后综合网页指纹相似度和网页图片相似度确定网站相似度,从而根据网站相似度筛选出相应的仿冒网站。通过上述方法,预先确定待分析网站,减少比对的压力,同时结合网页指纹和网页图片进行相似性判断,提高了识别结果的准确性,进而有效确定仿冒网站,保障网络安全。
附图说明
[0021]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本说明书实施例一种仿冒网站识别方法的流程图;
[0023]图2为本说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种仿冒网站识别方法,其特征在于,包括:基于目标保护网站确定至少一个待分析网站;分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图;通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度;根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度;综合所述网页指纹相似度和网页图片相似度确定目标保护网站与待分析网站之间的网站相似度;基于所述网站相似度从所述至少一个待分析网站中筛选对应于目标保护网站的仿冒网站。2.如权利要求1所述的方法,其特征在于,所述基于目标保护网站确定至少一个待分析网站,包括:爬取候选网站数据;基于网页特定元素从候选网站数据中识别出待分析网站;所述网页特定元素包括图标、标题中的至少一种。3.如权利要求1所述的方法,其特征在于,所述分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图之前,还包括:获取待分析网站的网站主体;所述网站主体包括证书主体和/或域名备案主体;从待分析网站中剔除与目标保护网站为相同网站主体的网站。4.如权利要求1所述的方法,其特征在于,所述分别提取所述目标保护网站和待分析网站的网页指纹特征和网页截图,包括:分别提取目标保护网站和待分析网站的页面中的关键词;将关键词整合为向量数组;所述向量数组构成对应网页的网页指纹特征。5.如权利要求4所述的方法,其特征在于,所述分别提取目标保护网站和待分析网站的页面中的关键词,包括:提取页面文本信息;基于页面文本信息的语义分析结果对页面文本信息进行分词;从分词结果中去除无意义词得到关键词。6.如权利要求4所述的方法,其特征在于,所述将关键词整合为向量数组,包括:基于TF

IDF算法将关键词转化为关键词参数;将关键词参数合并为一维的向量数组。7.如权利要求1所述的方法,其特征在于,所述根据所述网页截图确定所述目标保护网站与待分析网站之间的网页图片相似度,包括:对网页截图进行预处理;所述预处理包括图片灰度化处理和图像增强处理中的至少一种;利用图像识别引擎输出预处理后的网页截图的截图特征值;根据所述截图特征值确定所述目标保护网站与待分析网站之间的网页图片相似度。8.如权利要求1所述的方法,其特征在于,所述通过所述网页指纹特征确定所述目标保护网站与待分析网站之间的网页指纹相似度,包括:基于余弦或欧式距离确定所述目标保护网站与待分析网站之间的网页指纹相似度;
...

【专利技术属性】
技术研发人员:王凤杰闫立志郑杭杰张强
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1