System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理计算领域,特别是涉及一种网页相似度的确定方法、装置、电子设备及可读存储介质。
技术介绍
1、互联网资源数量庞大,潜在价值也十分大。企业都有从大规模互联网数据中发掘有价值资源的需求。为了提高网页资源的处理效率,解决从大规模网页中检索所需的相似网页,及判断大规模网页之间的相似性问题是十分重要的。
2、现有的相似度确定方法包括以下几种:1)利用url(uniform resource locator,统一资源定位系统)计算相似度;2)利用内容确定相似度;3)利用链接关系确定相似度。其中,网页的url与网页的内容并没有实质性的关系,利用url计算相似度,无法解决不同url的内容相似的问题;通过计算网页内容的相似性,对于正文部分为大篇幅文本,虽然网页视觉上相似度很高,但由于文本内容相似度地,导致最终结果准确地较低;利用链接关系进行相似度计算,由于链接关系只是网页中权重较小的信息,效果不是很好。
3、综上所述,现有技术计算网页相似度的准确度较差。
技术实现思路
1、有鉴于此,本申请提供了一种网页相似度的确定方法、装置、电子设备及可读存储介质,主要目的在于解决现有技术中计算网页相似度的准确度较差的技术问题。
2、依据本申请第一方面,提供了一种网页相似度的确定方法,该方法包括:
3、获取待对比的第一网页的第一节点树和第二网页的第二节点树;
4、根据第一节点树、第二节点树和预设筛选规则,确定多个第一目标节点和多个第二目标节
5、根据多个第一目标节点和多个第二目标节点,生成第一网页的第一模型树和第二网页的第二模型树;
6、根据第一模型树和第二模型树,计算每个第一目标节点的第一权重值,以及每个第二目标节点的第二权重值;
7、根据第一权重值、第二权重值、第一模型树和第二模型树,确定第一网页和第二网页之间的网页相似度。
8、可选地,根据第一节点树、第二节点树和预设筛选规则,确定多个第一目标节点和多个第二目标节点的步骤,具体包括:
9、获取第一节点树中的多个第一节点;
10、获取第二节点树中的多个第二节点;
11、利用预设筛选规则,在第一节点中筛选出多个第一目标节点,以及在第二节点中筛选出多个第二目标节点。
12、可选地,根据多个第一目标节点和多个第二目标节点,生成第一网页的第一模型树和第二网页的第二模型树的步骤,具体包括:
13、获取每个第一目标节点的第一全路径信息、第一标签名和第一属性名;
14、获取每个第二目标节点的第二全路径信息、第二标签名和第二属性名;
15、根据多个第一全路径信息、多个第一标签名、多个第一属性名、多个第二全路径信息、多个第二标签名和多个第二属性名,生成第一模型树和生成第二模型树。
16、可选地,根据多个第一全路径信息、多个第一标签名、多个第一属性名、多个第二全路径信息、多个第二标签名和多个第二属性名,生成第一模型树和生成第二模型树的步骤,具体包括:
17、利用预设哈希算法,对每个第一目标节点的第一全路径信息进行加密,生成第一目标节点的第一节点编码;
18、利用预设哈希算法,对每个第二目标节点的第二全路径信息进行加密,生成每个第二目标节点的第二节点编码;
19、根据第一标签名和第一属性名,生成每个第一目标节点的第一节点数据;
20、根据第二标签名和第二属性名,生成每个第二目标节点的第二节点数据;
21、根据多个第一目标节点的多个节点编码和多个第一节点数据,构建第一模型树;
22、根据多个第二目标节点的多个节点编码和多个第二节点数据,构建第二模型树。
23、可选地,根据第一模型树和第二模型树,计算每个第一目标节点的第一权重值,以及每个第二目标节点的第二权重值的步骤,具体包括:
24、获取第一模型树的第一层数,以及每个第一目标节点所在的第二层数;
25、根据第二层数和第一层数,计算每个第一目标节点的第一节点权重;
26、获取第二模型树的第三层数,以及每个第二目标节点所在的第四层数;
27、根据第三层数和第四层数,计算每个第二目标节点的第二节点权重。
28、可选地,根据第一权重值、第二权重值、第一模型树和第二模型树,确定第一网页和第二网页之间的网页相似度的步骤,具体包括:
29、获取每个第一目标节点的第一目标节点数据,以及每个第二目标节点的第二目标节点数据;
30、根据第一目标节点数据、第二目标节点数据、第一权重值、第二权重值、预设距离算法和递归算法,计算第一模型树与第二模型树之间的编辑距离,作为第一网页与第二网页之间的网页相似度。
31、可选地,该方法还包括:
32、获取第一网页和第二网页的目标场景;
33、根据目标场景,在多个预设标签中,确定多个目标标签;
34、根据多个目标标签,生成预设筛选规则;
35、根据目标场景,确定预设距离算法中的算法参数。
36、依据本申请第二方面,提供了一种网页相似度的确定装置,该装置包括:
37、获取模块,用于获取待对比的第一网页的第一节点树和第二网页的第二节点树;
38、第一确定模块,用于根据第一节点树、第二节点树和预设筛选规则,确定多个第一目标节点和多个第二目标节点;
39、生成模块,用于根据多个第一目标节点和多个第二目标节点,生成第一网页的第一模型树和第二网页的第二模型树;
40、计算模块,用于根据第一模型树和第二模型树,计算每个第一目标节点的第一权重值,以及每个第二目标节点的第二权重值;
41、第二确定模块,用于根据第一权重值、第二权重值、第一模型树和第二模型树,确定第一网页和第二网页之间的网页相似度。
42、依据本申请第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述方法的步骤。
43、依据本申请第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
44、借由上述技术方案,本申请提供的一种网页相似度的确定方法、装置、电子设备及可读存储介质,通过解析网页的节点树,基于预设筛选规则筛选节点树中的关键节点,提取网页结构对应的目标节点,构建网页的模型树。其后,计算模型树中每个目标节点的权重值,量化节点的重要性,进而计算两个模型树之间的编辑距离作为网页间的相似度。实现了将网页内容中较为重要的结构信息作为相似度计算基础,使得最终相似度的准确性更高的同时,减少相似度计算量,提高计算效率,可以快速计算大批量网页之间的相似性,提高网页相似度计算的实用性。
45、上述说明仅是本申本文档来自技高网...
【技术保护点】
1.一种网页相似度的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一节点树、所述第二节点树和预设筛选规则,确定多个第一目标节点和多个第二目标节点的步骤,具体包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一目标节点和所述多个第二目标节点,生成所述第一网页的第一模型树和所述第二网页的第二模型树的步骤,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述根据多个第一全路径信息、多个第一标签名、多个第一属性名、多个第二全路径信息、多个第二标签名和多个第二属性名,生成所述第一模型树和生成所述第二模型树的步骤,具体包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一模型树和所述第二模型树,计算每个第一目标节点的第一权重值,以及每个第二目标节点的第二权重值的步骤,具体包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一权重值、所述第二权重值、所述第一模型树和所述第二模型树,确定所述第一网页和所述第二网页之间的网页相似度的步骤,具体包
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
8.一种网页相似度的确定装置,其特征在于,包括:
9.一种电子设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1至7中任一项方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任一项方法的步骤。
...【技术特征摘要】
1.一种网页相似度的确定方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一节点树、所述第二节点树和预设筛选规则,确定多个第一目标节点和多个第二目标节点的步骤,具体包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一目标节点和所述多个第二目标节点,生成所述第一网页的第一模型树和所述第二网页的第二模型树的步骤,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述根据多个第一全路径信息、多个第一标签名、多个第一属性名、多个第二全路径信息、多个第二标签名和多个第二属性名,生成所述第一模型树和生成所述第二模型树的步骤,具体包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一模型树和所述第二...
【专利技术属性】
技术研发人员:武文成,王长征,张庆国,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。