一种基于资源搜索引擎生成网页指纹规则的方法、装置制造方法及图纸

技术编号:35524054 阅读:13 留言:0更新日期:2022-11-09 14:44
本申请实施例提供一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及存储介质,其中,该方法包括:获取资产属性信息和所述资源搜索引擎的响应数据;对所述响应数据进行解析,得到关键字信息序列;根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;将所述指纹规则集合存入指纹数据库中。实施本申请实施例,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。节省人力资源和时间成本。节省人力资源和时间成本。

【技术实现步骤摘要】
一种基于资源搜索引擎生成网页指纹规则的方法、装置


[0001]本申请涉及数据分析
,具体而言,涉及一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]现有的指纹识别工具,主要通过手动增加指纹来实现,通常需要扩大指纹识别的覆盖面。如:whatweb通过编写更多的插件来识别更多网页应用程序;FOFA则是通过增加规则的方式进行识别。
[0003]可见,现有技术都是通过手动添加的方式丰富指纹数据库,这需要耗费大量的时间和人力。并且,现有的很多的指纹识别工具,都有自己独立的指纹数据库,而有些指纹数据库并不对外开放,这给识别工具带来了很大的挑战,每个指纹数据库都需要录入更多的指纹规则来扩大识别的范围。

技术实现思路

[0004]本申请实施例的目的在于提供一种基于资源搜索引擎生成网页指纹规则的方法、装置、电子设备及计算机可读存储介质,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
[0005]第一方面,本申请实施例提供了一种基于资源搜索引擎生成网页指纹规则的方法,所述方法包括:
[0006]获取资产属性信息和所述资源搜索引擎的响应数据;
[0007]对所述响应数据进行解析,得到关键字信息序列;
[0008]根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
[0009]将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合
[0010]将所述指纹规则集合存入指纹数据库中。
[0011]在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,根据关键字信息序列查询网页并提取资产属性集合,并将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
[0012]进一步地,所述对所述响应数据进行解析,得到关键字信息序列的步骤,包括:
[0013]对所述响应数据进行清洗,得到多个关键字;
[0014]计算所述多个关键字的TF

IDF值;
[0015]根据所述TF

IDF值获得所述关键字信息序列。
[0016]在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
[0017]进一步地,所述根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合的步骤,包括:
[0018]判断所述响应数据中是否包含产品信息;
[0019]若是,根据所述产品信息和所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合;
[0020]若否,根据所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合。
[0021]在上述实现过程中,根据产品信息和关键字信息序列对资产属性信息进行补充,使得资产属性信息中包含更多信息,同时使得资产属性信息更加准确,便于后续获得指纹规则。
[0022]进一步地,所述将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合的步骤,包括:
[0023]判断所述响应数据中是否包含产品信息;
[0024]若是,根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合;
[0025]若否,根据所述关键字信息序列和所述资产属性集合获得所述指纹规则集合。
[0026]在上述实现过程中,若产品信息可以被识别,根据产品信息、关键字信息序列和资产属性集合得到指纹规则集合,使得指纹规则集合中包含更多的信息,使得到的指纹规则更加准确。
[0027]进一步地,所述根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合的步骤,包括:
[0028]根据所述产品信息和所述关键字信息序列进行组合查询,得到查询网页;
[0029]将所述产品信息与所述查询网页进行比对,根据从所述查询网页中提取的厂商信息、产品类型信息对所述资产属性集合进行补全,得到所述指纹规则集合。
[0030]在上述实现过程中,根据产品信息和关键字信息序列进行组合查询,使得查询过程更加精准,并且提高得到查询网页的效率,减少查询过程中产生的误差。
[0031]进一步地,所述将所述查询网页与所述资产属性集合进行比对,得到所述指纹规则集合的步骤,包括:
[0032]若在所述查询网页中提取出所述资产属性集合中的第一资产属性时,生成第一指纹规则;
[0033]若未在所述查询网页中提取出所述资产属性集合中的第一资产属性,生成第二指纹规则;
[0034]根据所述第一指纹规则和所述第二指纹规则获得所述指纹规则集合。
[0035]在上述实现过程中,根据资产属性集合中的资产属性生成第一指纹规则和第二指纹规则,使得指纹规则集合中包含更多的指纹规则,扩大指纹规则集合的范围。
[0036]第二方面,本申请实施例还提供了一种基于资源搜索引擎生成网页指纹规则的装置,所述装置包括:
[0037]获取模块,用于获取资产属性信息和所述资源搜索引擎的响应数据;
[0038]解析模块,用于对所述响应数据进行解析,得到关键字信息序列;
[0039]资产属性集合获得模块,用于根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;
[0040]关联模块,用于将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;
[0041]存入模块,用于将所述指纹规则集合存入指纹数据库中。
[0042]在上述实现过程中,通过对响应数据进行解析获得关键字信息序列,根据关键字信息序列查询网页并提取资产属性集合,并将关键字信息序列与资产属性集合进行关联,得到指纹规则,可以扩大指纹数据库的范围,不需要手动的方式添加指纹数据库,提高指纹数据库的识别范围,节省人力资源和时间成本。
[0043]进一步地,所述解析模块还用于:
[0044]对所述响应数据进行清洗,得到多个关键字;
[0045]计算所述多个关键字的TF

IDF值;
[0046]根据所述TF

IDF值获得所述关键字信息序列。
[0047]在上述实现过程中,通过对响应数据进行清洗,删除响应数据中错误数据,节省后续获得关键字信息序列的时间,提高效率。
[0048]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0049]第四方面,本申请实施例提供的一种计算机可读存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述方法包括:获取资产属性信息和所述资源搜索引擎的响应数据;对所述响应数据进行解析,得到关键字信息序列;根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合;将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合;将所述指纹规则集合存入指纹数据库中。2.根据权利要求1所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述对所述响应数据进行解析,得到关键字信息序列的步骤,包括:对所述响应数据进行清洗,得到多个关键字;计算所述多个关键字的TF

IDF值;根据所述TF

IDF值获得所述关键字信息序列。3.根据权利要求1所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述根据所述关键字信息序列对所述资产属性信息进行补充,得到资产属性集合的步骤,包括:判断所述响应数据中是否包含产品信息;若是,根据所述产品信息和所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合;若否,根据所述关键字信息序列对所述资产属性信息进行补充,得到所述资产属性集合。4.根据权利要求3所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述将所述关键字信息序列与所述资产属性集合进行关联,得到指纹规则集合的步骤,包括:判断所述响应数据中是否包含产品信息;若是,根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合;若否,根据所述关键字信息序列和所述资产属性集合获得所述指纹规则集合。5.根据权利要求4所述的基于资源搜索引擎生成网页指纹规则的方法,其特征在于,所述根据所述产品信息、所述关键字信息序列和所述资产属性集合获得所述指纹规则集合的步骤,包括:根据所述产品信息和所述关键字信息序列进行组合查询,得到查询网页;...

【专利技术属性】
技术研发人员:何霞
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1