网站指纹生成方法、相似网站识别方法、装置和设备制造方法及图纸

技术编号:39275746 阅读:8 留言:0更新日期:2023-11-07 10:52
本申请涉及一种网站指纹生成方法、相似网站识别方法、装置、计算机设备、存储介质和计算机程序产品。该网站指纹生成方法包括:获取目标网站的网站标识、以及该目标网站所传播的每一网站资源各自的资源地址;对每一资源地址分别进行资源标识提取,获得每一资源地址各自的资源标识;该资源标识包括一个标识串或通过分隔符连接的多个标识串;针对每一标识串,对该标识串进行目录转换处理,确定该标识串对应的资源目录;对每一资源目录分别进行编码处理,获得每一资源目录各自对应的编码序列;基于各编码序列,生成唯一表征目标网站的网站指纹。采用本方法所生成的网站指纹能更加全面地表征目标网站的特点,可以提高网站指纹的准确性。性。性。

【技术实现步骤摘要】
网站指纹生成方法、相似网站识别方法、装置和设备


[0001]本申请涉及计算机
,特别是涉及一种网站指纹生成方法、相似网站识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]网站指纹是能够唯一表征网站的信息,网站指纹能够反映网站的特点,在网站去重、网站推送等场景下均有着广泛的应用空间。
[0003]传统技术中,通过网站主页的HTML(HyperText Markup Language,超文本标记语言)文件提取DOM(Document Object Model,文档对象模型)结构来构建网站指纹,相当于基于网站静态资源确定网站指纹,针对包含动态资源的动态网站,存在网站指纹不准确的缺点。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高准确性的网站指纹生成方法、相似网站识别方法、装置、计算机设备、存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种网站指纹生成方法。所述方法包括:
[0006]获取目标网站的网站标识、以及所述目标网站所传播的每一网站资源各自的资源地址;
[0007]基于所述网站标识,对每一所述资源地址分别进行资源标识提取,获得每一所述资源地址各自的资源标识;所述资源标识包括一个标识串或通过分隔符连接的多个标识串;
[0008]针对每一所述标识串,按照所述标识串在所属资源标识中的位置,对所述标识串进行目录转换处理,确定所述标识串对应的资源目录;
[0009]对每一所述资源目录分别进行序列编码处理,获得每一所述资源目录各自对应的编码序列;
[0010]基于各所述编码序列,生成唯一表征所述目标网站的网站指纹。
[0011]第二方面,本申请还提供了一种相似网站识别方法。所述方法包括:
[0012]获取第一网站的第一网站指纹、以及第二网站的第二网站指纹;所述第一网站指纹和所述第二网站指纹基于上述的网站指纹生成方法生成;
[0013]计算所述第一网站指纹和所述第二网站指纹的指纹相似度;
[0014]在所述指纹相似度满足相似条件的情况下,确定所述第一网站和所述第二网站为相似网站。
[0015]第三方面,本申请还提供了一种网站指纹生成装置。所述装置包括:
[0016]资源地址获取模块,用于获取目标网站的网站标识、以及所述目标网站所传播的每一网站资源各自的资源地址;
[0017]资源标识确定模块,用于基于所述网站标识,对每一所述资源地址分别进行资源
标识提取,获得每一所述资源地址各自的资源标识;所述资源标识包括一个标识串或通过分隔符连接的多个标识串;
[0018]资源目录确定模块,用于针对每一所述标识串,按照所述标识串在所属资源标识中的位置,对所述标识串进行目录转换处理,确定所述标识串对应的资源目录;
[0019]编码模块,用于对每一所述资源目录分别进行序列编码处理,获得每一所述资源目录各自对应的编码序列;
[0020]指纹生成模块,用于基于各所述编码序列,生成唯一表征所述目标网站的网站指纹。
[0021]第四方面,本申请还提供了一种相似网站识别装置。所述装置包括:
[0022]网站指纹获取模块,用于获取第一网站的第一网站指纹、以及第二网站的第二网站指纹;所述第一网站指纹和所述第二网站指纹基于上述的网站指纹生成方法生成;
[0023]相似度确定模块,用于计算所述第一网站指纹和所述第二网站指纹的指纹相似度;
[0024]相似网站识别模块,用于在所述指纹相似度满足相似条件的情况下,确定所述第一网站和所述第二网站为相似网站。
[0025]第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0026]第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0027]第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0028]上述网站指纹生成方法、相似网站识别方法、装置、计算机设备、存储介质和计算机程序产品,获取目标网站的网站标识、以及目标网站所传播的每一网站资源各自的资源地址,基于该网站标识,对每一资源地址分别进行资源标识提取,获得各资源地址各自的资源标识,并通过对各资源标识进行标识串划分和序列编码处理,得到多个编码序列,最后基于各编码序列生成目标网站的网站指纹。由于只要目标网站还在应用,就会传播网站资源,进而能够获取该网站资源对应的资源地址,基于该资源地址生成网站指纹,因此,上述方法与传统基于DOM结构构建网站指纹的方式相比,更难被对抗,能够确保网站指纹的顺利生成。而基于目标网站所传播的每一网站资源各自的资源地址,确定该目标网站的网站指纹,能够在网站指纹生成过程中,综合考虑该目标网站所传播的静态资源和动态资源,使得所生成的网站指纹能够更加全面地表征目标网站的特点,有利于提高网站指纹的准确性。
附图说明
[0029]图1为一个实施例中网站指纹生成方法和相似网站识别方法的应用环境图;
[0030]图2为一个实施例中网站指纹生成方法的流程示意图;
[0031]图3为一个实施例中目标网站的资源传播记录示意图;
[0032]图4为一个实施例中各资源地址各自对应的资源标识示意图;
[0033]图5为一个实施例中各资源标识各自对应的标识串示意图;
[0034]图6为一个实施例中的哈希函数示意图;
[0035]图7为一个实施例中目标网站的网站目录结构示意图;
[0036]图8为一个实施例中各标识串各自对应的资源目录示意图;
[0037]图9为一个实施例中各资源目录各自的关联网站资源的传播总数示意图;
[0038]图10为另一个实施例中网站指纹生成方法的流程示意图;
[0039]图11为一个实施例中相似网站识别方法的流程示意图;
[0040]图12为一个实施例中网站A和网站B的相似性判断过程示意图;
[0041]图13为一个实施例中网站A和网站B的相似性评估结果示意图;
[0042]图14为一个实施例中的相似网站识别过程示意图;
[0043]图15为一个实施例中网站指纹生成装置的结构框图;
[0044]图16为一个实施例中相似网站识别装置的结构框图;
[0045]图17为一个实施例中计算机设备的内部结构图。
具体实施方式
[0046]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0047]本申请实施例提供的网站指纹生成方法和相似指纹识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站指纹生成方法,其特征在于,所述方法包括:获取目标网站的网站标识、以及所述目标网站所传播的每一网站资源各自的资源地址;基于所述网站标识,对每一所述资源地址分别进行资源标识提取,获得每一所述资源地址各自的资源标识;所述资源标识包括一个标识串或通过分隔符连接的多个标识串;针对每一所述标识串,按照所述标识串在所属资源标识中的位置,对所述标识串进行目录转换处理,确定所述标识串对应的资源目录;对每一所述资源目录分别进行序列编码处理,获得每一所述资源目录各自对应的编码序列;基于各所述编码序列,生成唯一表征所述目标网站的网站指纹。2.根据权利要求1所述的方法,其特征在于,所述对每一所述资源地址分别进行资源标识提取,获得每一所述资源地址各自的资源标识,包括:确定各所述资源地址中表征所述网站标识的共性字符串;基于所述共性字符串,对每一所述资源地址分别进行资源标识提取,得到每一所述资源地址各自的原始资源标识;所述原始资源标识,包括所述资源地址中除所述共性字符串以外的其余字符串;对所述原始资源标识中资源标识能力满足能力条件的设定类型字符串进行统一化处理,获得每一所述资源地址各自的资源标识。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取设定的分隔符,将所述资源标识中所包含的每一字符分别与所述分隔符进行字符比对;在所述资源标识所包含的各字符中包括所述分隔符的情况下,以所述分隔符所在位置为切分位置,将所述资源标识切分成多个标识串。4.根据权利要求1所述的方法,其特征在于,所述按照所述标识串在所属资源标识中的位置,对所述标识串进行目录转换处理,确定所述标识串对应的资源目录,包括:按照所述标识串在所属资源标识中的位置,确定所述标识串在所属资源标识中的层级标识;基于所述层级标识和所述标识串的拼接结果,确定所述标识串对应的资源目录。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:从所述标识串的所属资源标识中,确定与所述标识串的层级间隔满足间隔条件的关联标识串;所述基于所述层级标识和所述标识串的拼接结果,确定所述标识串对应的资源目录,包括:拼接所述标识串、以及所述标识串的层级标识,得到所述标识串的初始目录;对所述标识串的初始目录与所述关联标识串进行二次拼接处理,得到所述标识串对应的资源目录。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:确定所述关联标识串的层级标识;拼接所述关联标识串、以及所述关联标识串的层级标识,得到所述关联标识串的初始
目录;所述对所述标识串的初始目录与所述关联标识串进行二次拼接处理,得到所述标识串对应的资源目录,包括:对所述标识串和所述关联标识串各自的初始目录进行二次拼接处理,得到所述标识串对应的资源目录。7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述基于各所述编码序列,生成唯一表征所述目标网站的网站指纹,包括:确定各所述编码序列各自的权重;基于各所述编码序列各自的权重,对各所述编码序列所包含的各编码元素进行元素统计,获得统计序列;对所述统计序列进行元素转换处理,生成唯一表征所述目标网站的网站指纹。8.根据权利要求7所述的方法,其特征在于,所述获...

【专利技术属性】
技术研发人员:牛亚峰张凯张旭甘晓华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1