基于图数据库的仿冒网站检测方法、装置、设备及介质制造方法及图纸

技术编号:38765910 阅读:14 留言:0更新日期:2023-09-10 10:39
本申请实施例提供一种基于图数据库的仿冒网站检测方法、装置、设备及介质,涉及网站检测技术领域。所述方法包括:基于相同属性维度提取合法网站和待检测网站的强相关属性数据;根据强相关属性数据搜索合法网站的合法网站资产;基于相同属性维度提取合法网站和待检测网站的相似特征数据;分别构建合法网站和待检测网站的图数据;根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测。本申请通过基于同样的属性维度分别提取合法网站与待检测网站的特征数据并分别构建图数据,将合法网站与待检测网站的图数据进行匹配以识别得到仿冒网站,从而有效提高了仿冒网站检测的效率和准确性。检测的效率和准确性。检测的效率和准确性。

【技术实现步骤摘要】
基于图数据库的仿冒网站检测方法、装置、设备及介质


[0001]本申请涉及网站检测
,具体而言,涉及一种基于图数据库的仿冒网站检测方法、装置、设备及存储介质。

技术介绍

[0002]随着网络技术的发展,网络安全成为人们不得不重视的问题,正规网站被仿冒的趋势越来越严重。仿冒网站主要是黑客组织为了经济利益而采用的一种手法,通过仿冒看似完全正常合规的站点页面,实际在网站中植入大量的第三方链接和内容,实现传播和推广地下灰色产业、欺诈用户骗取个人机密信息从而谋取非法利益的目的。因此,如何快速、准确地检测正规网站是否有相应的仿冒网站出现,以减少用户以及正规网站的损失,成为亟待解决的问题。

技术实现思路

[0003]本申请实施例的目的在于提供一种基于图数据库的仿冒网站检测方法、装置、设备及存储介质,能够快速、准确地进行仿冒网站检测。
[0004]第一方面,本申请实施例提供了一种基于图数据库的仿冒网站检测方法,包括:基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据;基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产;基于所述属性维度分别提取所述目标合法网站的相似特征数据和所述待检测网站的相似特征数据;根据所述目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据,根据所述待检测网站的强相关属性数据和相似特征数据构建第二图数据;根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果。
[0005]在本申请实施例中,通过提取合法网站的强相关属性数据、合法网站资产以及相似特征数据构建图数据,同时以相同的维度提取待检测网站的数据并构建图数据,通过合法网站与待检测网站的图数据进行对比以进行仿冒网站识别,从而大大提高了仿冒网站检测的准确性和效率。
[0006]在一些可能的实施例中,所述基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产,包括:基于预设的第三方数据源对所述目标合法网站的强相关属性数据进行扩展;根据扩展后的所述目标合法网站的强相关属性数据在图数据库中循环搜索所述目标合法网站的合法网站资产。
[0007]在本申请实施例中,通过对合法网站的强相关属性数据进行扩展,并循环搜索与
合法网站关联的合法网站资产,从而能够提高合法网站资产获取的全面性,更好地排除待检测网站被误识别为仿冒网站的情况,进一步提高了仿冒网站检测的准确性。
[0008]在一些可能的实施例中,所述相似特征数据具体为网站指纹;所述网站指纹包括原生指纹、衍生指纹、技术组件指纹、关键词指纹中的至少一种。
[0009]在本申请实施例中,通过多维度提取合法网站的网站指纹,包括原生指纹、衍生指纹、技术组件指纹等,作为用于构建网站图数据的相似特征数据,从而进一步提高了仿冒网站检测的准确性。
[0010]在一些可能的实施例中,所述根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果,包括:判断所述第一图数据和所述第二图数据中属性为强相关的边是否相连;若是,则确定所述待检测网站为合法网站;若否,则对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值,若所述综合相似度分值超过预设阈值,则确定所述待检测网站为疑似仿冒网站,若所述综合相似度分值未超过所述预设阈值,则确定所述待检测网站为合法网站。
[0011]在本申请实施例中,通过图计算的方式来获取合法网站与待检测网站的综合相似度分值,并根据分值与阈值的比较来判断待检测网站是否为仿冒网站,从而大大提高了仿冒网站识别的检测速度,减少计算资源的占用。
[0012]在一些可能的实施例中,所述的基于图数据库的仿冒网站检测方法还包括:对所述原生指纹、所述衍生指纹和所述关键词指纹中的至少一种进行划分,得到高权重指纹和低权重指纹;其中,所述高权重指纹在综合相似度分值中所占的权重大于所述低权重指纹在综合相似度分值中所占的权重;所述对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值,具体为:根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值。
[0013]在本申请实施例中,通过对各种网站指纹划分不同的计算权重,并根据不同的权重计算最终的综合相似度分值,能够更合理的计算出合法网站与待检测网站的相似度,从而进一步提高了仿冒网站检测的准确性。
[0014]在一些可能的实施例中,所述低权重指纹在综合相似度分值中所占的权重大于所述技术组件指纹在综合相似度分值中所占的权重,且所述高权重指纹、所述低权重指纹、所述技术组件指纹各自在综合相似度分值中所占的权重的和为100%。
[0015]在本申请实施例中,通过将高权重指纹、低权重指纹和技术组件指纹各自在综合相似度分值中所占的权重配置为相加的和等于100%,并且按照高权重指纹、低权重指纹和技术组件指纹的权重从大到小的比例进行配置,能够更合理的计算出合法网站与待检测网站的相似度,从而进一步提高了仿冒网站检测的准确性。
[0016]在一些可能的实施例中,在所述对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值之前,还包括:
根据预设条件筛选出所述高权重指纹中的目标指纹和所述低权重指纹中的目标指纹并进行组合,得到权重组合指纹;对所述目标合法网站的权重组合指纹与所述待检测网站的权重组合指纹进行匹配并判断是否命中,若匹配命中则确定所述待检测网站为疑似仿冒网站。
[0017]在本申请实施例中,通过根据高权重指纹和低权重指纹中分别筛选部分指纹并进行组合,获得组合权重指纹,根据组合权重指纹对合法网站与待检测网站进行相似匹配,若命中则直接判别为疑似仿冒网站,从而省去其他维度的网站指纹相似度计算过程,进一步提高了仿冒网站检测的效率。
[0018]在一些可能的实施例中,所述根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值,具体为:按照从先到后对所述高权重指纹、所述低权重指纹和所述技术组件指纹进行匹配的次序,对所述目标合法网站与所述待检测网站进行网站指纹匹配,并根据匹配命中的网站指纹及其对应的权重对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值。
[0019]在本申请实施例中,通过按照从先到后依次对高权重指纹、低权重指纹和技术组件指纹进行匹配和计算,能够优先匹配和计算权重较高的指纹特征,从而更快速完成仿冒网站检测的过程,进一步提高了仿冒网站检测的效率。
[0020]在一些可能的实施例中,所述原生指纹包括以下至少一种:网站响应的header、html源码、网页title、icon图标、网页footer、网页引用js的url、网页dom树、robots页面源码、网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图数据库的仿冒网站检测方法,其特征在于,包括:基于预设的属性维度分别获取目标合法网站的强相关属性数据和待检测网站的强相关属性数据;基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产;基于所述属性维度分别提取所述目标合法网站的相似特征数据和所述待检测网站的相似特征数据;根据所述目标合法网站的强相关属性数据、合法网站资产和相似特征数据构建第一图数据,根据所述待检测网站的强相关属性数据和相似特征数据构建第二图数据;根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果。2.根据权利要求1所述的基于图数据库的仿冒网站检测方法,其特征在于,所述基于所述目标合法网站的强相关属性数据搜索所述目标合法网站的合法网站资产,包括:基于预设的第三方数据源对所述目标合法网站的强相关属性数据进行扩展;根据扩展后的所述目标合法网站的强相关属性数据在图数据库中循环搜索所述目标合法网站的合法网站资产。3.根据权利要求1所述的基于图数据库的仿冒网站检测方法,其特征在于,所述相似特征数据具体为网站指纹;所述网站指纹包括原生指纹、衍生指纹、技术组件指纹、关键词指纹中的至少一种。4.根据权利要求3所述的基于图数据库的仿冒网站检测方法,其特征在于,所述根据所述第一图数据和所述第二图数据对所述待检测网站进行仿冒网站检测得到检测结果,包括:判断所述第一图数据和所述第二图数据中属性为强相关的边是否相连;若是,则确定所述待检测网站为合法网站;若否,则对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值,若所述综合相似度分值超过预设阈值,则确定所述待检测网站为疑似仿冒网站,若所述综合相似度分值未超过所述预设阈值,则确定所述待检测网站为合法网站。5.根据权利要求4所述的基于图数据库的仿冒网站检测方法,其特征在于,还包括:对所述原生指纹、所述衍生指纹和所述关键词指纹中的至少一种进行划分,得到高权重指纹和低权重指纹;其中,所述高权重指纹在综合相似度分值中所占的权重大于所述低权重指纹在综合相似度分值中所占的权重;所述对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值,具体为:根据各种网站指纹对应的权重对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值。6.根据权利要求5所述的基于图数据库的仿冒网站检测方法,其特征在于,所述低权重指纹在综合相似度分值中所占的权重大于所述技术组件指纹在综合相似度分值中所占的权重,且所述高权重指纹、所述低权重指纹、所述技术组件指纹各自在综合相似度分值中所占的权重的和为100%。
7.根据权利要求5所述的基于图数据库的仿冒网站检测方法,其特征在于,在所述对所述第一图数据和所述第二图数据进行图计算,得到所述目标合法网站与所述待检测网站的综合相似度分值之前,还包括:根据预设条件筛选出所述高权重指纹中的目标指纹和所述低权重指纹中的目标指纹并进行组合,得到权重组合指纹;对所述目标...

【专利技术属性】
技术研发人员:唐御钦武浩樊兴华薛锋
申请(专利权)人:北京微步在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1