页面搜索分析方法、装置、设备和介质制造方法及图纸

技术编号:33310397 阅读:9 留言:0更新日期:2022-05-06 12:22
本公开提供了一种页面搜索方法、装置、设备和介质,涉及计算机领域,具体涉及计算机网络技术、搜索引擎技术和软件应用技术。该方法包括:基于查询请求确定候选页面;在候选页面中确定至少一个候选页面区域;基于用于候选页面的预设规则,确定至少一个候选页面区域各自的权重;计算查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度;以及至少基于查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度以及至少一个候选页面区域各自的权重,确定查询请求与候选页面的匹配度。匹配度。匹配度。

【技术实现步骤摘要】
页面搜索分析方法、装置、设备和介质


[0001]本公开涉及计算机领域,具体涉及计算机网络技术、搜索引擎技术和软件应用技术,特别涉及一种页面搜索方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]搜索引擎抓取大量网页页面,并对这些页面过滤,进而将过滤后的页面收录入索引库之中。在用户向搜索引擎发送查询请求后,搜索引擎根据请求筛选出相关页面,再通过各种手段对这些页面进行排序,并基于排序结果将相关页面全部或部分展现给用户。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种页面搜索方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种页面搜索方法。页面搜索方法包括:基于查询请求确定候选页面;在候选页面中确定至少一个候选页面区域;基于用于候选页面的预设规则,确定至少一个候选页面区域各自的权重;计算查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度;以及至少基于查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度以及至少一个候选页面区域各自的权重,确定查询请求与候选页面的匹配度。
[0006]根据本公开的另一方面,提供了一种页面搜索装置。页面搜索装置包括:第一确定单元,被配置为基于查询请求确定候选页面;第二确定单元,被配置为在候选页面中确定至少一个候选页面区域;第三确定单元,被配置为基于用于候选页面的预设规则,确定至少一个候选页面区域各自的权重;计算单元,被配置为计算查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度;以及第四确定单元,被配置为至少基于查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度以及至少一个候选页面区域各自的权重,确定查询请求与候选页面的匹配度。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述页面搜索方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述页面搜索方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述页面搜索方法。
[0010]根据本公开的一个或多个实施例,通过将基于查询请求确定的候选页面分为多个
页面区域,并为每个页面区域确定权重,进而基于权重将每个目标区域与查询请求的匹配度进行融合,以确定查询请求与页面区域的匹配度,从而提高了对页面中的不同区域的区分度,实现了对页面中的不同区域的重要度的信息的利用,并提升了搜索结果与查询的匹配程度。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0013]图1示出了根据本公开示例性实施例的页面搜索方法的流程图;
[0014]图2示出了根据本公开示例性实施例的页面搜索方法的流程图;
[0015]图3示出了根据本公开示例性实施例的页面搜索装置的结构框图;以及
[0016]图4示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0019]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0020]相关技术中,现有的页面搜索的方法通常是基于查询请求和标题的匹配度、查询请求与页面数据整体的匹配度进行的。这样的搜索方法维度单一、准确率低。
[0021]为解决上述问题,本公开通过将基于查询请求确定的候选页面分为多个页面区域,并为每个页面区域确定权重,进而基于权重将每个目标区域与查询请求的匹配度进行融合,以确定查询请求与页面区域的匹配度,从而提高了对页面中的不同区域的区分度,实现了对页面中的不同区域的重要度的信息的利用,并提升了搜索结果与查询的匹配程度。
[0022]根据本公开的一方面,提供了一种页面搜索方法。如图1所示,页面搜索方法包括:步骤S101、基于查询请求确定候选页面;步骤S102、在候选页面中确定至少一个候选页面区域;步骤S103、基于用于候选页面的预设规则,确定至少一个候选页面区域各自的权重;步骤S104、计算查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度;以及
步骤S105、至少基于查询请求与至少一个候选页面区域中的每一个候选页面区域的匹配度以及至少一个候选页面区域各自的权重,确定查询请求与候选页面的匹配度。
[0023]由此,通过将与查询对应的候选页面分为多个目标区域,并为每个目标区域确定权重,进而基于权重将查询与每个目标区域的匹配度进行融合,以确定查询与候选页面的匹配度,从而提高了对页面中的不同区域的区分度,实现了对页面中的不同区域的重要度的信息的利用,并提升了搜索结果与查询的匹配程度。
[0024]查询请求例如可以是由用户输入的用于查询的文本。在步骤S101、可以基于查询请求在搜索引擎的索引库中确定候选页面。候选页面例如可以为在索引库中进行初筛而得到的页面,因此可以包括一个或多个页面。在将搜索结果呈现给用户前,可以对候选页面进行进一步筛选、排序,从而能够将与查询请求更相关的页面以在更早地或在更靠前的位置反馈给用户。可以理解的是,本领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面搜索方法,包括:基于查询请求确定候选页面;在所述候选页面中确定至少一个候选页面区域;基于预设规则,确定所述至少一个候选页面区域各自的权重;计算所述查询请求与所述至少一个候选页面区域中的每一个候选页面区域的匹配度;以及至少基于所述查询请求与所述至少一个候选页面区域中的每一个候选页面区域的匹配度以及所述至少一个候选页面区域各自的权重,确定所述查询请求与所述候选页面的匹配度。2.如权利要求1所述的方法,其中,所述在所述候选页面中确定至少一个候选页面区域包括:基于所述候选页面中的多个页面节点中的每一个页面节点的节点信息,将所述多个页面节点中的至少一个节点确定为所述至少一个候选页面区域。3.如权利要求2所述的方法,其中,所述节点信息包括节点位置和与其他节点间的关系中的至少一个,所述至少一个候选页面区域包括以下中的至少一项:头部区域、中部区域、底部区域、左部区域和右部区域。4.如权利要求3所述的方法,其中,所述至少一个候选页面区域包括中部区域,所述中部区域包括主标题区域和正文区域,所述正文区域包括至少一个正文段落区域。5.如权利要求4所述的方法,其中,所述正文区域还包括至少一个小标题区域,所述在所述候选页面中确定至少一个候选页面区域还包括:针对所述正文区域所包括的多个连续段落中的每一个段落,响应于确定该段落和所述多个连续段落中与该段落相邻至少一个段落之间的相似度满足预设条件,将该段落确定为小标题区域。6.如权利要求5所述的方法,其中,所述预设规则指示以下页面区域的权重具有降序关系:主标题区域、按阅读顺序排列的至少一个小标题区域、按阅读顺序排列的至少一个正文段落区域、头部区域、左部区域、右部区域、以及底部区域。7.如权利要求1所述的方法,还包括:获取至少一个用户对历史页面的用户行为数据;在所述历史页面中确定至少一个历史页面区域;以及响应于确定所述用户行为数据指示所述至少一个用户与所述至少一个历史页面区域中的第一历史页面区域的交互满足预设条件,更新所述预设规则以调整所述第一历史页面区域的权重。8.如权利要求7所述的方法,其中,所述预设条件包括以下中的一项:所述至少一个用户在所述第一历史页面区域的平均停留时间大于第一阈值;以及所述至少一个用户中在所述第一历史页面区域的停留时间大于所述第一阈值的用户的数量大于第二阈值,其中,所述更新所述预设规则以调整所述第一历史页面...

【专利技术属性】
技术研发人员:刘伟林赛群
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1