System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种网页消重方法、装置、存储介质及电子设备制造方法及图纸_技高网

一种网页消重方法、装置、存储介质及电子设备制造方法及图纸

技术编号:40597825 阅读:5 留言:0更新日期:2024-03-12 22:01
本申请公开了一种网页消重方法、装置、存储介质及电子设备,通过获取第一网页对应的第一摘要文本以及第二网页对应的第二摘要文本,第一网页以及第二网页为位于同一网页列表中的不同网页,获取第一摘要文本中的第一字符串集合,基于第一字符串集合确定第一摘要文本在第二摘要文本中的第一重复率,获取第二摘要文本中的第二字符串集合,基于第二字符串集合确定第二摘要文本在第一摘要文本中的第二重复率,基于第一重复率以及第二重复率,确定第一网页和第二网页的查重结果,基于查重结果对网页列表中网页的排列顺序进行调整,实现对网页列表的消重,改善网页列表中的网页重复问题,提高用户的使用体验。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种网页消重方法、装置、存储介质及电子设备


技术介绍

1、随着网络的发展及广泛应用,网络上的信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。搜索引擎用于帮助人们在网络上快速找到所需要的信息,方便了人们的生产生活,搜索引擎逐渐成为人们使用最频繁的网络服务之一。

2、然而,在搜索引擎返回的网页结果列表中,存在较多的重复网页,网页重复问题一直是用户在使用搜索引擎时遇到的主要问题。


技术实现思路

1、本申请实施例提供的一种网页消重方法、装置、存储介质及电子设备,可以对搜索引擎返回的网页列表实现消重,改善网页列表中的网页重复现象。所述技术方案如下:

2、第一方面,本申请实施例提供的一种网页消重方法,其特征在于,所述方法包括:

3、获取第一网页对应的第一摘要文本以及第二网页对应的第二摘要文本,所述第一网页以及所述第二网页为位于同一网页列表中的不同网页;

4、获取所述第一摘要文本中的第一字符串集合,基于所述第一字符串集合确定所述第一摘要文本在所述第二摘要文本中的第一重复率;

5、获取所述第二摘要文本中的第二字符串集合,基于所述第二字符串集合确定所述第二摘要文本在所述第一摘要文本中的第二重复率;

6、基于所述第一重复率以及所述第二重复率,确定所述第一网页和所述第二网页的查重结果,基于所述查重结果对所述网页列表中网页的排列顺序进行调整。

7、第二方面,本申请实施例提供的一种网页消重装置,所述装置包括:

8、摘要文本获取模块,用于获取第一网页对应的第一摘要文本以及第二网页对应的第二摘要文本,所述第一网页以及所述第二网页为位于同一网页列表中的不同网页;

9、第一重复率计算模块,用于获取所述第一摘要文本中的第一字符串集合,基于所述第一字符串集合确定所述第一摘要文本在所述第二摘要文本中的第一重复率;

10、第二重复率计算模块,用于获取所述第二摘要文本中的第二字符串集合,基于所述第二字符串集合确定所述第二摘要文本在所述第一摘要文本中的第二重复率;

11、网页列表调整模块,用于基于所述第一重复率以及所述第二重复率,确定所述第一网页和所述第二网页的查重结果,基于所述查重结果对所述网页列表中网页的排列顺序进行调整。

12、第三方面,本申请实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

13、第四方面,本申请实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

14、在本申请一个或多个实施例中,首先获取第一网页对应的第一摘要文本以及第二网页对应的第二摘要文本,然后基于第一摘要文本中的第一字符串集合确定第一摘要文本在所述第二摘要文本中的第一重复率,基于第二摘要文本中的第二字符串集合确定所述第二摘要文本在所述第一摘要文本中的第二重复率,最后基于第一重复率以及第二重复率综合确定查重结果,基于查重结果对网页列表中网页的排列顺序进行调整,实现对网页列表的消重,改善网页列表中的网页重复问题,提高用户的使用体验。

本文档来自技高网...

【技术保护点】

1.一种网页消重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述第一摘要文本中的第一字符串集合,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一字符串集合确定所述第一摘要文本在所述第二摘要文本中的第一重复率,包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述第二摘要文本中的第二字符串集合,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第二字符串集合确定所述第二摘要文本在所述第一摘要文本中的第二重复率,包括:

6.根据权利要求1所述的方法,其特征在于,所述基于所述第一重复率以及所述第二重复率,确定所述第一网页和所述第二网页的查重结果,基于所述查重结果对所述网页列表中网页的排列顺序进行调整,包括:

7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

8.一种网页消重装置,其特征在于,所述装置包括:

9.一种存储介质,其上存储有多条指令,其特征在于,所述指令被处理器执行时实现权利要求1~7中任意一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7中任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种网页消重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取所述第一摘要文本中的第一字符串集合,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第一字符串集合确定所述第一摘要文本在所述第二摘要文本中的第一重复率,包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述第二摘要文本中的第二字符串集合,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第二字符串集合确定所述第二摘要文本在所述第一摘要文本中的第二重复率,包括:

6.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:黄简峰
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1