查询处理方法、装置、服务器及存储介质制造方法及图纸

技术编号:20329224 阅读:19 留言:0更新日期:2019-02-13 05:48
本发明专利技术实施例公开了一种查询处理方法、装置、服务器及存储介质,其中,所述方法包括:依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。本发明专利技术实施例通过在确定查询序列与段落之间相似度过程中引入了基于知识图谱确定的查询序列中实体向量表示,以及段落中实体向量表示,进而引入了客观世界的知识,具有更好的泛化能力和通用性。

【技术实现步骤摘要】
查询处理方法、装置、服务器及存储介质
本专利技术实施例涉及互联网
,尤其涉及一种查询处理方法、装置、服务器及存储介质。
技术介绍
随着互联网技术的发展,用户越来越倾向于通过搜索引擎或各种问答系统获取所需要的相关信息。而搜索引擎、问答系统的核心技术是排序,通过将排序靠前的相关信息优先展示给用户,以满足用户检索需求。传统的排序是基于字面、后来引入了同义词、点击共现等技术,但是这些方法并没有真正理解语义,也没有很好的泛化能力。目前,随着机器学习、深度学习的发展,一些基于特征或表示的模型取得了不错的成绩,如LTR(LearningtoRank,线性模型)、DSSM(DeepStructuredSemanticModels,深度结构化语言模型)。但诸如此类的模型本质上还是基于统计,需要庞大的训练数据,计算机并没有真正理解语义,并且通过此类模型进行检索排序的泛化能力和通用性有限。
技术实现思路
本专利技术实施例提供了一种查询处理方法、装置、服务器及存储介质,通过在确定查询序列与段落之间相似度时引入基于知识图谱确定的查询序列中实体向量表示,以及段落中实体向量表示,以达到提升查询处理技术的泛化能力和通用性的目的。第一方面,本专利技术实施例提供了一种查询处理方法,包括:依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。可选的,确定查询序列与段落之间的相似度之后,还包括:依据查询序列与各段落之间的相似度,对各段落进行排序。第二方面,本专利技术实施例还提供了一种查询处理装置,包括:第一向量表示模块,用于依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;第二向量表示模块,用于依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;相似度计算模块,用于依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。第三方面,本专利技术实施例还提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任一实施例所述的查询处理方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任一实施例所述的查询处理方法。本专利技术实施例提供的一种查询处理方法、装置、服务器及存储介质,依据查询序列和段落各自的词语和实体确定查询序列和段落各自对应的词向量表示和实体向量表示,通过计算查询序列的词向量表示和实体向量表示分别与段落的词向量表示和实体向量表示的相似度,进而确定查询序列和段落的相似度,以便后续根据该相似度对段落进行排序。由此,在计算查询序列和段落相似度时引入实体向量表示,进而引入了客观世界的知识,使本查询处理方法具有更好的泛化能力和通用性。附图说明图1是本专利技术实施例一提供的一种查询处理方法的流程示意图;图2是本专利技术实施例二提供的一种查询处理方法的流程示意图;图3是本专利技术实施例三提供的一种查询处理装置的结构示意图;图4是本专利技术实施例四提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种查询处理方法的流程图,本实施例可适用于用户通过搜索引擎或问答系统检索的情况,该方法可以由相应的查询处理装置执行,该查询处理装置可以采用软件和/或硬件的方式实现,并可配置于服务器上。如图1所示,本专利技术实施例中提供的查询处理方法可以包括:S110、依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示。在本实施例中,所述查询序列可以是单个或多个关键词,也可以是包括多个关键词的语句,在此不做具体限定。对于查询序列,可移通过分词技术对其进行分词,以获得查询序列中包括的词语,例如可移通过分词词库、停用词词库或者深度学习技术对查询序列进行分词。对于查询序列,可基于知识图谱确定查询序列中包括的各实体,其中,知识图谱是是一种知识库,用于描述现实世界中实体之间的关系,其中,实体可以是人名、地名、机构名、概念等。在本实施例中,为了后续快速准确的计算查询序列和段落的相似度,将查询序列中的词语和实体分别表示为低维实值向量。示例性的,可基于知识图谱数据预先训练一份词向量和实体向量,并将其保持在一个向量空间,纬度一致。对于获得的查询序列中的词语和实体,基于预训练的词向量和实体向量对查询序列中的词语和实体做embeding运算,得到查询序列的词向量表示和实体向量表示,其中,词向量表示和实体向量表示是一种分布式表示。S120、依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示。在本实施例中,可采用与S110相同的方法,利用各种分词技术对段落进行分词,得到段落中包括的词语;基于知识图谱确定段落中包括的各个实体。为了后续快速准确的计算查询序列和段落的相似度,同样将段落的词语和实体分别表示为低维实值向量。示例性的,对于段落包括的词语和实体,基于预先训练的词向量和实体向量对其做embeding运算,得到段落的词向量表示和实体向量表示,其中,词向量表示和实体向量表示是一种分布式表示。S130、依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。通常,在进行信息检索时,通过计算查询序列与段落之间的相似度,确定该段落是否为用户所需要的数据信息。具体的,如果相似度越大,表明段落是用户需要的可能性就越大,即检索的准确行越高。而对于计算查询序列与段落之间的相似度,示例性的,可通过计算查询序列的词向量表示和实体向量表示分别与段落的词向量表示和实体向量表示之间的相似度来确定。在本实施例中,依据查询序列和段落各自的词语和实体确定查询序列和段落各自对应的词向量表示和实体向量表示,并根据查询序列和段落各自的词向量表示和实体向量表示,计算查询序列和段落的相似度,以便后续根据该相似度对段落进行排序。由此,在计算查询序列和段落相似度时引入实体向量表示,进而引入了客观世界的知识,使本查询处理方法具有更好的泛化能力和通用性。进一步的,确定查询序列与段落之间的相似度之后,还可以包括:依据查询序列与各段落之间的相似度,对各段落进行排序。示例性的,根据查询序列与各段落之间的相似度,由高到低对各段落进行排序,并将相似度排在前N的段落反馈给用户,以便用户从中筛选其所需要的内容。由此,通过排序可将相似度高的段落反馈给用户,提升用户检索的准确性和用户体验。实施例二图2为本专利技术实施例二提供的一种查询处理方法的流程示意图。本实施例以上述实施例为基础进行优化,如图2所示,本专利技术实施例中提供的查询处理方法可以包括:S210、依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表本文档来自技高网...

【技术保护点】
1.一种查询处理方法,其特征在于,包括:依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。

【技术特征摘要】
1.一种查询处理方法,其特征在于,包括:依据查询序列中包括的各词语和各实体分别确定查询序列的词向量表示和实体向量表示;依据段落中包括的各词语和各实体分别确定段落的词向量表示和实体向量表示;依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度。2.根据权利要求1所述的方法,其特征在于,依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,确定查询序列与段落之间的相似度,包括:依据查询序列的词向量表示和段落的词向量表示确定查询序列与段落之间的第一相似度;依据查询序列的实体向量表示和段落的实体向量表示确定查询序列与段落之间的第二相似度;依据查询序列与段落之间的第一相似度和第二相似度,确定查询序列与段落之间的相似度。3.根据权利要求2所述的方法,其特征在于,依据查询序列与段落之间的第一相似度和第二相似度,确定查询序列与段落之间的相似度,包括:依据查询序列的词向量表示和段落的实体向量表示确定查询序列与段落之间的第三相似度;依据查询序列的实体向量表示和段落的词向量表示确定查询序列与段落之间的第四相似度;依据查询序列与段落的第一相似度,第二相似度,第三相似度以及第四相似度,确定查询序列与段落之间的相似度。4.根据权利要求3所述的方法,其特征在于,依据查询序列与段落的第一相似度,第二相似度,第三相似度以及第四相似度,确定查询序列与段落之间的相似度,包括:对所述查询序列与段落的第一相似度,第二相似度,第三相似度以及第四相似度进行加权处理,并依据加权结果确定查询序列与段落之间的相似度。5.根据权利要求1所述的方法,其特征在于,依据查询序列的词向量表示和实体向量表示,以及段落的词向量表示和实体向量表示,分别确定查询序列与段落之间的相似度之前,还包括:基于知识图谱确定查询序列中包括的各实体,且基于知识图谱确定段落中包括的各实体。6.根据权利要求1-5中任一所述的方法,其特征在于,确定查询序列与段落之间的相似度之后,还包括:依据查询序列与各段落之间的相似度,对各段落进行排序。7.一种查询处理装置,其特征在...

【专利技术属性】
技术研发人员:冯欣伟宋勋超余淼周环宇康绍舜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1