当前位置: 首页 > 专利查询>清华大学专利>正文

网页搜索方法和装置制造方法及图纸

技术编号:16327276 阅读:126 留言:0更新日期:2017-09-29 19:07
本发明专利技术提出一种网页搜索方法和装置,其中,网页搜索方法包括:根据关键字进行搜索,得到匹配网页及其排序之后,由用户选取匹配网页中的第一网页进行标注,进而根据匹配网页中的第二网页与标注为相关和/或无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度,并据此对第二网页进行重新排序。这种方法,一方面充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,另一方面,用户仅需要根据搜索意图对搜索结果中少量网页进行相关性的标注,便可以提升与搜索意图相关的第二网页的排序,降低了用户获取目标信息的时间,提高了用户的体验度。

【技术实现步骤摘要】
网页搜索方法和装置
本专利技术涉及信息检索
,尤其涉及一种网页搜索方法和装置。
技术介绍
随着互联网的普及和发展,越来越多人利用网络进行信息的检索。互联网发展至今,网络上的信息量非常庞大,人们利用搜索引擎在互联网上进行信息检索,搜索引擎对搜索结果进行整理和排序,然后将搜索结果反馈给用户。目前,用户利用搜索引擎进行信息检索时,搜索引擎与用户的交互仅停留在用户输入的搜索关键词中,或者部分利用了用户的浏览日志等信息来优化搜索结果。现有技术中,搜索引擎呈现给用户的搜索结果,往往存在用户所需的网页排序较为靠后的情况,导致用户不能有效定位到所需的网页,增加了用户获取目标信息的时间,降低了用户的体验度。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种网页搜索方法,以实现通过计算第二网页和用户搜索意图之间的相关性,对搜索结果实现重新排序,以快速定位到用户需求的信息,解决了现有技术中因为没有充分考虑用户的搜索意图,导致用户获取需求信息的时间较长,用户体验度差的技术问题。本专利技术的第二个目的在于提出一种网页搜索装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种网页搜索方法,包括:获取搜索的关键字;根据关键字进行搜索,得到匹配网页,以及匹配网页的排序;当用户选取匹配网页中的第一网页进行标注之后,获取第一网页的标注;其中,标注,用于指示第一网页与采用关键字搜索的搜索意图之间的相关性;根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据第二网页与标注为无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度;根据第二网页与搜索意图之间的相关程度,对第二网页进行重新排序。本专利技术实施例的一种网页搜索方法,其中,获取搜索的关键字;根据关键字进行搜索,得到匹配网页,以及匹配网页的排序;用户选取匹配网页中的第一网页进行标注;根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据第二网页与标注为无关的第一网页之间的相关程度,估计第二网页与所述搜索意图之间的相关程度;根据该相关程度,对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注,并根据计算得到的相关程度对第二网页进行重新排序,其充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,降低了用户获取有用信息的时间,提高了用户的体验度。为达上述目的,本专利技术第二方面实施例提出了一种网页搜索装置,包括:获取模块,用于获取搜索的关键字;搜索模块,用于根据关键字进行搜索,得到匹配网页,以及匹配网页的排序;标注模块,用于当用户选取匹配网页中的第一网页进行标注之后,获取第一网页的标注;其中,所述标注,用于指示第一网页与采用关键字搜索的搜索意图之间的相关性;计算模块,用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据第二网页与标注为无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度;重排序模块,用于根据第二网页与搜索意图之间的相关程度,对第二网页进行重新排序。本专利技术实施例的一种网页搜索装置,其中,获取模块,用于获取搜索的关键字;搜索模块,用于根据关键字进行搜索,得到匹配网页,以及匹配网页的排序;标注模块,用于当用户选取匹配网页中的第一网页进行标注之后,获取第一网页的标注;其中,所述标注,用于指示第一网页与采用关键字搜索的搜索意图之间的相关性;计算模块,用于根据匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据第二网页与标注为无关的第一网页之间的相关程度,估计第二网页与搜索意图之间的相关程度;重排序模块,用于根据第二网页与搜索意图之间的相关程度,对第二网页进行重新排序。用户根据搜索意图对搜索结果中的匹配网页进行标注,并根据计算得到的相关程度对第二网页进行重新排序,其充分考虑了用户的搜索意图,能帮助用户快速定位到有用的信息,降低了用户获取有用信息的时间,提高了用户的体验度。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括:存储器,处理器以及存储在存储器中并可在处理器上运行的计算机程序,当处理器执行该计算机程序时,用于执行第一方面所述的网页搜索方法。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,用于执行第一方面所述的网页搜索方法。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种网页搜索方法的流程示意图;图2为本专利技术实施例所提供的一种估算网页和搜索意图相关程度的方法的流程示意图;图3为本实施例提出的一种网页正文文本提取方法的流程示意图;图4为本实施例提出的一种去除包含大量链接节点的方法的流程示意图;图5为本专利技术实施例提供的一种网页搜索装置的结构示意图;图6为本专利技术实施例提供的另一种网页搜索装置的结构示意图;以及图7为本专利技术实施例所提供的提取单元341的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的网页搜索方法和装置。图1为本专利技术实施例所提供的一种网页搜索方法的流程示意图,如图1所示,该方法包括以下步骤:步骤S1,获取搜索的关键字。具体地,在搜索引擎的用户输入界面,用户根据需求输入关键字进行信息查询,搜索引擎识别出用户输入的关键字。步骤S2,根据关键字进行搜索,得到匹配网页,以及匹配网页的排序。具体地,搜索引擎根据用户输入的关键字,在数据库中利用网络爬虫技术进行信息的查询,查询到和用户输入的关键字匹配的网页后,计算出网页和用户搜素意图之间的相关度,得到匹配网页的排序,记录下得到的每一条匹配网页对应的初始排序,并将匹配网页在用户的展示界面中按照初始排序展现出来。其中,搜索引擎根据获得的用户输入的关键字,利用网络爬虫技术搜索目标网页,作为一种可能的实现方式,调用搜索引擎时采用查(Get)请求方式,在请求统一资源定位符(UniformResoureLocator,URL)后面以问号(?)的形式加上发给服务器的参数,多个参数之间用符号&隔开,搜索引擎会基于URL中提交的参数进行分析,获得对应的搜索结果,如使用百度搜索关键词“清华大学”,则访问:“http://www.baidu.com/s?q1=清华大学”即可。其他用于限定网页更新时间等的高级搜索参数,也可在URL后面添加相应的参数来实现,例如,使用百度搜索限定要搜索的网页的时间和每页显示的条数,则访问:http://www.baidu.com/s?q1=清华大学&lm=7&rn=5,即搜索清华大学,最近一周内的网页,且每页显示的条数是5条。步骤S3,当用户选本文档来自技高网...
网页搜索方法和装置

【技术保护点】
一种网页搜索方法,其特征在于,包括以下步骤:获取搜索的关键字;根据所述关键字进行搜索,得到匹配网页,以及所述匹配网页的排序;当用户选取所述匹配网页中的第一网页进行标注之后,获取所述第一网页的标注;其中,所述标注,用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性;根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度;根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序。

【技术特征摘要】
1.一种网页搜索方法,其特征在于,包括以下步骤:获取搜索的关键字;根据所述关键字进行搜索,得到匹配网页,以及所述匹配网页的排序;当用户选取所述匹配网页中的第一网页进行标注之后,获取所述第一网页的标注;其中,所述标注,用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性;根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度;根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序。2.根据权利要求1所述的网页搜索方法,其特征在于,所述根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度包括:提取所述第一网页的正文文本;根据所述第一网页的正文文本、标题和简介,生成所述第一网页的文档;其中,所述第一网页的文档包括标注为相关的第一网页的文档,以及标注为无关的第一网页的文档;提取所述第二网页的标题和简介,生成所述第二网页的文档;根据所述标注为相关的第一网页的文档与所述第二网页的文档之间的相关程度,和/或所述标注为无关的第一网页的文档与所述第二网页的文档之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度。3.根据权利要求2所述的网页搜索方法,其特征在于,所述估计所述第二网页与所述搜索意图之间的相关程度,包括:根据公式计算得到所述第二网页与所述搜索意图之间的相关程度Score;其中,α、β、γ为预设权重,n为所述第二网页在所述匹配网页中的排序;所述标注为相关的第一网页的文档,基于词袋模型向量化表示为V相关1;所述标注为无关的第一网页的文档,基于词袋模型向量化表示为V无关1;所述标注为相关的第一网页的文档,基于词的分布式向量表示模型向量化表示为V相关2;所述标注为无关的第一网页的文档,基于词的分布式向量表示模型向量化表示为V无关2;S相关1为V相关1与所述第二网页的基于词袋模型向量化表示V结果1之间余弦相似度;S相关2为V相关2与所述第二网页的基于词的分布式向量表示模型向量化表示V结果2之间余弦相似度;S无关1为V无关1与所述第二网页的基于词袋模型向量化表示V结果1之间余弦相似度;S无关2为V无关2与所述第二网页的基于词的分布式向量表示模型向量化表示V结果2之间余弦相似度。4.根据权利要求2所述的网页搜索方法,其特征在于,所述提取所述第一网页的正文文本,包括:获取所述第一网页的html文件;根据所述html文件中的各节点所含的链接的数量,确定包含文本内容的节点;根据包含文本内容的节点,生成所述第一网页的正文文本。5.根据权利要求4所述的网页搜索方法,其特征在于,所述获取所述第一网页的html文件之后,还包括:去除对应控制、显示样式和/或注释的节点。6.根据权利要求4所述的网页搜索方法,其特征在于,所述根据所述html文件中的各节点所含的链接的数量,确定包含文本内容的节点,包括:将所述html文件中的各节点所含的链接的数量低于预设阈值的节点,确定为所述包含文本内容的节点。7.根据权利要求1-6任一项所述的网页搜索方法,其特征在于,所述根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序,包括:以所述第二网页与所述搜索意图之间的相关程度越大,所述第二网页进行重新排序后的排序越靠前为原则,对所述第二网页进行重新排序。8.根据权利要求1-6任一项所述的网页搜索方法,其特征在于,所述获取所述第一网页的标注之前,还包括:生成并显示交互页面,其中,所述交互页面显示有所述匹配页面的链接,以及用于获取标注的复选框。9.一种网页搜索装置,其特征在于,包括:获取模块,用于获取搜索的关键字;搜索模块,用于根据所述关键...

【专利技术属性】
技术研发人员:黄永峰刘俊鑫吴方照刘佳伟袁志刚吴思行
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1