【技术实现步骤摘要】
网站指纹的计算方法、系统、存储介质和终端
[0001]本申请涉及网络安全领域,特别涉及一种网站指纹的计算方法、计算系统、存储介质和终端。
技术介绍
[0002]当前,在应用开发中,常需要获取网站应用的身份标识,即获取网站指纹,但针对批量网站样本进行指纹主要依赖于人工采集,需要针对每个网站采集其特征字段,并就特征字段进行网站之间的两两比对。一旦网站样本的样本数量较多,将大大降低网站指纹的计算效率,且容易出现误报。
[0003]因此,如何提高网站指纹的计算效率是本领域技术人员亟需解决的技术问题。
技术实现思路
[0004]本申请的目的是提供一种网站指纹的计算方法、计算系统、存储介质和终端,能够提高网站指纹的计算效率。
[0005]为解决上述技术问题,本申请提供一种网站指纹的计算方法,具体技术方案如下:
[0006]获取网站样本,并从所述网站样本中确定目标网站;
[0007]计算所述目标网站对应文档对象化模型的结构向量值;
[0008]对所述目标网站爬虫,得到静态资源列表,解 ...
【技术保护点】
【技术特征摘要】
1.一种网站指纹的计算方法,其特征在于,包括:获取网站样本,并从所述网站样本中确定目标网站;计算所述目标网站对应文档对象化模型的结构向量值;对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;解析所述目标网站的特征字段;根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;将所述示例网站的特征作为所述网站指纹。2.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述计算目标网站的文档对象化模型的结构向量值包括:获取目标网站html页面,构造所述文档对象化模型;在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;累加所有目标节点的权重值,得到结构向量值。3.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述解析所述目标网站的静态文件资源列表包括:对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映射关系;计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;对相邻静态文件资源名通过预设公式计算得到静态哈希值;判断所述静态资源字典是否包含所述静态哈希值;若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;若否,保存所述静态哈希值和对应的静态文件资源名列表、所述静态文件资源对应网页地址。4.根据权利要求3所述的网站指纹的计算方法,其特征在于,所述预设公式为:其中,i为每次计算取的相邻的静态文件资源个数且i大于2,j为每次计算取的若干静态文件资源中第一个静态文件资源在静态文件资源列表中的索引号,k为迭代遍历,用于遍
历索引号在...
【专利技术属性】
技术研发人员:黄明义,何松,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。