System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网站标识的识别方法、装置、电子设备及存储介质制造方法及图纸_技高网

网站标识的识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41154096 阅读:5 留言:0更新日期:2024-04-30 18:19
本申请涉及一种网站标识的识别方法、装置、电子设备及存储介质,所述网站标识的识别方法,依据待检测网站的统一资源定位符信息,获取待检测网站的网页图标和网页图片,依据网页图片与网页图标之间的图片相似度,确定网页图片是否包含待检测网站的网页标识图片,若网页图片不包含待检测网站的网页标识图片,则依据网页图片进行文字识别,得到图片文字信息,从而采用图片文字信息和待检测网站的网页关键信息,识别出待检测网站的网页标识图片。可见,本申请采用图文结合的方式进行网页标识图片识别,解决了现有相关技术中采用网站标识路径获取网站标识,导致识别准确性低的问题,提高了网页标识图片的识别准确性。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种网站标识的识别方法、装置、电子设备及存储介质


技术介绍

1、随着互联网的发展,不同的运营主体会各自运营其创建的一个或多个网站,而同一运营主体的网站通常都会设置相同的网站logo也即网站标识,网站logo是网站形象和公司品牌的重要组成部分。现实中,部分违规非法用户可能会利用网站logo,如在恶意网站上使用知名组织的logo,迷惑普通网络用户,进而开展钓鱼、欺诈等网络犯罪行为。

2、现有相关技术中在筛序恶意网站上的网站logo时,通常是采用解析网站页面源代码,根据网站logo文件命名特征,在网页源代码中提取网站logo路径,进而获取网站logo。该方式虽然可以提取网站logo,但是,不同网站的logo图片位置不固定,以及网站logo未按照缺省设置或基于层叠样式表(cascading style sheets,css)的文件路径隐藏等,便不能有效识别网站logo,导致网站logo识别准确性低的问题。


技术实现思路

1、第一方面,本申请提供了一种网站标识的识别方法,包括:

2、依据待检测网站的统一资源定位符信息,获取所述待检测网站的网页图标和网页图片;

3、依据所述网页图片与所述网页图标之间的图片相似度,确定所述网页图片是否包含所述待检测网站的网页标识图片;

4、若所述网页图片不包含所述待检测网站的网页标识图片,则依据所述网页图片进行文字识别,得到图片文字信息;

5、采用所述图片文字信息和所述待检测网站的网页关键信息,识别出所述待检测网站的网页标识图片。

6、可选的,所述采用所述图片文字信息和所述待检测网站的网页关键信息,识别出所述待检测网站的网页标识图片,包括:

7、提取所述待检测网站的网站标题文本和网站域名;

8、对所述网站标题文本进行分词,得到分词结果;

9、采用所述分词结果和所述网站域名,生成所述网页关键信息;

10、将所述图片文字信息和所述网页关键信息进行关键词对比,得到关键词对比结果;

11、基于所述关键词对比结果,确定所述待检测网站的所述网页标识图片。

12、可选的,所述将所述图片文字信息和所述网页关键信息进行关键词对比,得到关键词对比结果,包括:

13、采用所述网页关键信息确定所述待检测网站对应的目标关键词;

14、判断所述图片文字信息是否包含所述目标关键词;

15、若所述图片文字信息包含所述目标关键词,则将关键词对比成功结果确定为所述关键词对比结果;

16、若所述图片文字信息不包含所述目标关键词,则将关键词对比失败结果确定为所述关键词对比结果。

17、可选的,基于所述关键词对比结果,确定所述待检测网站的所述网页标识图片,包括:

18、判断所述关键词对比结果是否为关键词对比成功结果;

19、在所述关键词对比结果为所述关键词对比成功结果的情况下,将包含所述图片文字信息的网页图片确定为所述网页标识图片。

20、可选的,所述提取所述待检测网站的网站域名,包括:

21、基于所述统一资源定位符信息进行后缀去除,得到所述待检测网站的一级域名信息;

22、采用所述一级域名信息,生成所述网站域名。

23、可选的,所述依据待检测网站的统一资源定位符信息,获取所述待检测网站的网页图标,包括:

24、依据所述统一资源定位符信息,获取网站图标的超链接;

25、根据所述超链接进行目标类型文件抓取,得到图标类型文件;

26、从所述图标类型文件中,提取所述网页图标。

27、可选的,所述依据所述网页图片与所述网页图标之间的图片相似度,确定所述网页图片是否包含所述待检测网站的网页标识图片,包括:

28、确定所述网页图片与所述网页图标之间的图片相似度;

29、判断所述图片相似度是否大于所述预设相似度阈值;

30、在所述图片相似度大于所述预设相似度阈值的情况下,确定所述网页图片包含所述网页标识图片,并从所述网页图片中提取目标相似图片,将所述目标相似图片识别为所述网页标识图片;

31、在所述图片相似度不大于所述预设相似度阈值的情况下,确定所述网页图片不包含所述网页标识图片。

32、第二方面,本申请提供了一种网站标识的识别装置,包括:

33、获取模块,用于依据待检测网站的统一资源定位符信息,获取所述待检测网站的网页图标和网页图片;

34、确定模块,用于依据所述网页图片与所述网页图标之间的图片相似度,确定所述网页图片是否包含所述待检测网站的网页标识图片;

35、文字识别模块,用于若所述网页图片不包含所述待检测网站的网页标识图片,则依据所述网页图片进行文字识别,得到图片文字信息;

36、网页标识识别模块,用于采用所述图片文字信息和所述待检测网站的网页关键信息,识别出所述待检测网站的网页标识图片。

37、第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

38、存储器,用于存放计算机程序;

39、处理器,用于执行存储器上所存放的程序时,实现第一方面任一项所述的网站标识的识别方法。

40、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的网站标识的识别方法。

41、本申请实施例依据待检测网站的统一资源定位符信息,获取待检测网站的网页图标和网页图片,以依据网页图片与网页图标之间的图片相似度,确定网页图片是否包含待检测网站的网页标识图片,若网页图片不包含待检测网站的网页标识图片,则依据网页图片进行文字识别,得到图片文字信息,从而采用图片文字信息和待检测网站的网页关键信息,识别出待检测网站的网页标识图片。可见,本申请采用图文结合的方式进行网页标示图片识别,解决了现有相关技术中采用网站标识路径获取网站标识,导致识别准确性低的问题,提高了网页标识图片的识别准确性。

本文档来自技高网...

【技术保护点】

1.一种网站标识的识别方法,其特征在于,包括:

2.根据权利要求1所述的网站标识的识别方法,其特征在于,所述采用所述图片文字信息和所述待检测网站的网页关键信息,识别出所述待检测网站的网页标识图片,包括:

3.根据权利要求2所述的网站标识的识别方法,其特征在于,所述将所述图片文字信息和所述网页关键信息进行关键词对比,得到关键词对比结果,包括:

4.根据权利要求2所述的网站标识的识别方法,其特征在于,基于所述关键词对比结果,确定所述待检测网站的所述网页标识图片,包括:

5.根据权利要求2所述的网站标识的识别方法,其特征在于,所述提取所述待检测网站的网站域名,包括:

6.根据权利要求1所述的网站标识的识别方法,其特征在于,所述依据待检测网站的统一资源定位符信息,获取所述待检测网站的网页图标,包括:

7.根据权利要求1所述的网站标识的识别方法,其特征在于,所述依据所述网页图片与所述网页图标之间的图片相似度,确定所述网页图片是否包含所述待检测网站的网页标识图片,包括:

8.一种网站标识的识别装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的网站标识的识别方法。

...

【技术特征摘要】

1.一种网站标识的识别方法,其特征在于,包括:

2.根据权利要求1所述的网站标识的识别方法,其特征在于,所述采用所述图片文字信息和所述待检测网站的网页关键信息,识别出所述待检测网站的网页标识图片,包括:

3.根据权利要求2所述的网站标识的识别方法,其特征在于,所述将所述图片文字信息和所述网页关键信息进行关键词对比,得到关键词对比结果,包括:

4.根据权利要求2所述的网站标识的识别方法,其特征在于,基于所述关键词对比结果,确定所述待检测网站的所述网页标识图片,包括:

5.根据权利要求2所述的网站标识的识别方法,其特征在于,所述提取所述待检测网站的网站域名,包括:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:贾东征王亚杰李广恺李建强刘科栋吕青王坤峰
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1