【技术实现步骤摘要】
网页搜索方法和装置
本专利技术涉及信息检索
,尤其涉及一种网页搜索方法和装置。
技术介绍
随着互联网的普及和发展,越来越多人利用网络进行信息的检索。互联网发展至今,网络上的信息量非常庞大,人们利用搜索引擎在互联网上进行信息检索,搜索引擎对搜索结果进行整理和排序,然后将搜索结果反馈给用户。目前,用户利用搜索引擎进行信息检索时,搜索引擎与用户的交互仅停留在用户输入的搜索关键词中,或者部分利用了用户的浏览日志等信息来优化搜索结果。现有技术中,搜索引擎呈现给用户的搜索结果,往往存在用户所需的网页排序较为靠后的情况,导致用户不能有效定位到所需的网页,增加了用户获取目标信息的时间,降低了用户的体验度。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种网页搜索方法,以实现通过计算第二网页和用户搜索意图之间的相关性,对搜索结果实现重新排序,以快速定位到用户需求的信息,解决了现有技术中因为没有充分考虑用户的搜索意图,导致用户获取需求信息的时间较长,用户体验度差的技术问题。本专利技术的第二个目的在于提出一种网页搜索装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种网页搜索方法,包括:获取搜索的关键字;根据关键字进行搜索,得到匹配网页,以及匹配网页的排序;当用户选取匹配网页中的第一网页进行标注之后,获取第一网页的标注;其中,标注,用于指示第一网页与采用关键字搜索的搜索意图之间的相关性;根据匹配网页中的 ...
【技术保护点】
一种网页搜索方法,其特征在于,包括以下步骤:获取搜索的关键字;根据所述关键字进行搜索,得到匹配网页,以及所述匹配网页的排序;当用户选取所述匹配网页中的第一网页进行标注之后,获取所述第一网页的标注;其中,所述标注,用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性;根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度;根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序。
【技术特征摘要】
1.一种网页搜索方法,其特征在于,包括以下步骤:获取搜索的关键字;根据所述关键字进行搜索,得到匹配网页,以及所述匹配网页的排序;当用户选取所述匹配网页中的第一网页进行标注之后,获取所述第一网页的标注;其中,所述标注,用于指示所述第一网页与采用所述关键字搜索的搜索意图之间的相关性;根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度;根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序。2.根据权利要求1所述的网页搜索方法,其特征在于,所述根据所述匹配网页中的第二网页与标注为相关的第一网页之间的相关程度,和/或根据所述第二网页与标注为无关的第一网页之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度包括:提取所述第一网页的正文文本;根据所述第一网页的正文文本、标题和简介,生成所述第一网页的文档;其中,所述第一网页的文档包括标注为相关的第一网页的文档,以及标注为无关的第一网页的文档;提取所述第二网页的标题和简介,生成所述第二网页的文档;根据所述标注为相关的第一网页的文档与所述第二网页的文档之间的相关程度,和/或所述标注为无关的第一网页的文档与所述第二网页的文档之间的相关程度,估计所述第二网页与所述搜索意图之间的相关程度。3.根据权利要求2所述的网页搜索方法,其特征在于,所述估计所述第二网页与所述搜索意图之间的相关程度,包括:根据公式计算得到所述第二网页与所述搜索意图之间的相关程度Score;其中,α、β、γ为预设权重,n为所述第二网页在所述匹配网页中的排序;所述标注为相关的第一网页的文档,基于词袋模型向量化表示为V相关1;所述标注为无关的第一网页的文档,基于词袋模型向量化表示为V无关1;所述标注为相关的第一网页的文档,基于词的分布式向量表示模型向量化表示为V相关2;所述标注为无关的第一网页的文档,基于词的分布式向量表示模型向量化表示为V无关2;S相关1为V相关1与所述第二网页的基于词袋模型向量化表示V结果1之间余弦相似度;S相关2为V相关2与所述第二网页的基于词的分布式向量表示模型向量化表示V结果2之间余弦相似度;S无关1为V无关1与所述第二网页的基于词袋模型向量化表示V结果1之间余弦相似度;S无关2为V无关2与所述第二网页的基于词的分布式向量表示模型向量化表示V结果2之间余弦相似度。4.根据权利要求2所述的网页搜索方法,其特征在于,所述提取所述第一网页的正文文本,包括:获取所述第一网页的html文件;根据所述html文件中的各节点所含的链接的数量,确定包含文本内容的节点;根据包含文本内容的节点,生成所述第一网页的正文文本。5.根据权利要求4所述的网页搜索方法,其特征在于,所述获取所述第一网页的html文件之后,还包括:去除对应控制、显示样式和/或注释的节点。6.根据权利要求4所述的网页搜索方法,其特征在于,所述根据所述html文件中的各节点所含的链接的数量,确定包含文本内容的节点,包括:将所述html文件中的各节点所含的链接的数量低于预设阈值的节点,确定为所述包含文本内容的节点。7.根据权利要求1-6任一项所述的网页搜索方法,其特征在于,所述根据所述第二网页与所述搜索意图之间的相关程度,对所述第二网页进行重新排序,包括:以所述第二网页与所述搜索意图之间的相关程度越大,所述第二网页进行重新排序后的排序越靠前为原则,对所述第二网页进行重新排序。8.根据权利要求1-6任一项所述的网页搜索方法,其特征在于,所述获取所述第一网页的标注之前,还包括:生成并显示交互页面,其中,所述交互页面显示有所述匹配页面的链接,以及用于获取标注的复选框。9.一种网页搜索装置,其特征在于,包括:获取模块,用于获取搜索的关键字;搜索模块,用于根据所述关键...
【专利技术属性】
技术研发人员:黄永峰,刘俊鑫,吴方照,刘佳伟,袁志刚,吴思行,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。