用于信息检索评分的动态张量注意力制造技术

技术编号:21959013 阅读:30 留言:0更新日期:2019-08-24 22:19
一种使用序列到序列神经网络针对文档对查询进行评分的技术。技术包括:接收来自用户的包括多个词语的查询;基于查询,针对包括词语的文档执行搜索;馈送文档的词语作为多层序列到序列转换器的编码器的输入;在多层序列到序列转换器的解码器处生成多个向量,每个向量包括与查询中的相应词语相关联的概率;在相应向量中查找每个词语与文档相关联的概率;将每个词语的概率乘在一起以确定查询与文档相关联的总概率;并且如果查询与文档相关联的总概率大于阈值,则将文档返回给用户。

Dynamic Tensor Attention for Information Retrieval Scoring

【技术实现步骤摘要】
【国外来华专利技术】用于信息检索评分的动态张量注意力
技术介绍
理解和处理被包含在表达用户意图的自然语言查询中的信息是文档选择中的主要挑战。以自然语言形式的用户查询通常是模糊并且隐含的,其使通过现有信息检索系统处理困难,这常常要求多个用户交互以用于进一步澄清。此外,为了响应于查询而返回文档,查询和建议文档需要被评分,其中最好评分的建议文档被提供给录入查询的用户。先前的基于深度学习的评分方法(诸如卷积深度结构化语义模型“CDSSM”)允许相对有效地对查询-文档对进行评分,但是得分是基于距离/相似性的。相似性基于两个实体之间的距离。相似性与距离正反比。然而,基于距离/相似性的评分提供关于针对给定查询返回的特定文档的适当性的有限信息。因此,使用基于距离的评分,评分系统可以返回具有最好得分的文档,而不是向查询提供有意义的响应的必要文档。
技术实现思路
本公开的非限制性示例描绘了一种用于对针对文档对查询进行评分的方法。方法包括:从用户接收包括多个词语的查询;基于查询,针对包括词语的文档执行搜索;将文档的词语馈送为多层序列到序列转换器的编码器的输入;在多层序列到序列转换器的解码器处生成多个向量,每个向量包括与查询中的相应词语相关联的概率;在相应向量中查找每个词语与文档相关联的概率;将每个词语的概率乘在一起以确定查询与文档相关联的总概率;并且如果查询与文档相关联的总概率大于阈值,则将文档返回给用户。本公开的进一步的非限制性示例描述了一种针对文档对查询进行评分的系统。系统包括:至少一个处理器;以及与至少一个处理器操作地连接的存储器,其存储当由至少一个处理器执行时使得至少一个处理器执行方法的计算机可执行指令,所述方法包括:从用户接收包括多个词语的查询;基于查询,针对包括词语的文档执行搜索;将文档的词语馈送为多层序列到序列转换器的编码器的输入;使用注意力机制在多层序列到序列转换器的解码器处生成多个向量,每个向量包括与查询中的相应词语相关联的概率;在相应向量中查找每个词语与文档相关联的概率;将每个词语的概率乘在一起来确定查询与文档相关联的总概率;并且如果查询与文档相关联的总概率大于阈值,则将文档返回给用户。附加的非限制性示例包括计算机存储介质,其存储用于使得机器执行以下操作的计算机可执行指令:从用户接收查询;对查询执行搜索;接收由于搜索得到的文档;使用序列到序列转换器和注意力网络对文档进行评分以确定查询与文档有关的概率;并且如果概率大于阈值,则返回文档。提供本
技术实现思路
以引入以在具体实施方式中下面进一步描述的简化形式的概念的选择。本
技术实现思路
不旨标识要求保护的主题的关键特征或基本特征,其也不旨在被用于限制要求保护的主题的范围。示例的附加方面、特征和/或优点将从下面的描述中部分地阐述并且部分地从描述变得明显,或者可以通过本公开的实践学习。附图说明参考以下附图描述非限制性和非详尽示例。图1图示了在其中可以实践本公开的方面的查询评分系统的系统图。图2图示了在其中可以实践本公开的方面的用于针对文档对查询进行评分的序列到序列过程。图3图示了在其中可以实践本公开的方面的用于通过使用多层序列到序列过程对查询进行评分的过程。图4图示了示出在其中可以实践本公开的方面的示例的用于通过使用多层序列到序列过程对查询进行评分的过程。图5图示了在其中可以实践本公开的方面的查询评分系统的流程图。图6图示了在其中可以实践本公开的方面的标识查询中的重要词语以促进评分的注意力层。图7是图示利用其可以实践本公开的示例的计算设备的示例物理部件的块图。图8A和图8B是利用其可以实践本公开的示例的移动计算设备的简化块图。具体实施方式图1图示了在其中可以实践本公开的方面的查询评分系统的系统图。用户110使用计算机或者终端120执行搜索命令。计算机120可以是各种机器,包括运行WINDOWS操作系统、MacOS操作系统、UNIX操作系统的机器,或者表示云中的计算设备。搜索由云中的搜索服务器140执行。来自搜索服务器140的结果由运行查询评分系统155的评分服务器150评分,其中最高评分的结果被返回给计算机或者终端120处的用户110。评分服务器使用包括利用注意力网络增强的深度长短期记忆(“LSTM”)的通用序列到序列(“序列到序列(seq2seq”)模型来生成概率得分并且确定返回的适当的文档。序列到序列模型包括两个递归神经网络,其包括处理输入的编码器和生成输出的解码器。下面关于图2描述了序列到序列模型的基本架构。LSTM是能够学习长期依存性的一种特殊的神经网络。其在长时间记住信息方面是超常的,并且包括多个层。下面关于图3给出LSTM序列到序列模型的示例。注意力网络聚焦序列到序列模型以标识查询中的重要/类似实体的词语以促进评分。关于图6更详细地描述注意力网络。使用包括利用注意力网络增强的深度长短期存储器的序列到序列模型生成概率得分通过提供对结果的概率解释而显著地增强计算机技术,其是解释并且改进排名的信息检索系统中的期望的性质。此外,概率结果允许信息检索系统确定任何结果文档是否具有满足用户的搜索请求的好的概率。例如,仅具有超过阈值概率水平的文档可以被返回给用户。如果没有文档超过阈值概率水平,则用户可以被提示录入更特定的搜索准则。这与基于距离返回结果的现有技术系统相反,使得薄弱的不大可能的结果将仍然被返回给用户。返回图1的我们的描述,具有大于阈值量的概率得分的那些文档被返回给用户。文档可以包括提供信息的任何电子记录,包括但不限于网页、文本、字处理文件、电子表格文件、图形、图像和目标内容。评分服务器150图示了可操作以对搜索结果执行评分操作的一个或多个计算设备。关于图7和图8更详细地讨论了这些计算设备的硬件。图2图示了在其中可以实践本公开的方面的用于针对文档对查询进行评分的序列到序列过程。LSTM网络将文档与搜索查询相比较。搜索查询被发送到标准信息检索系统以生成查询的结果。序列到序列模型具有两个部分:编码器210,其接收输入;以及解码器220,其生成输出。编码器210通过利用LSTM转换每个词语以将文档的源字符串(例如,A、B、C、D)嵌入到隐向量中,将词语嵌入到隐状态中。这示例仅示出单层LSTM。此处,每个词语被编码并且被馈送到下一词语的编码中。例如,A被编码并且馈送到B的编码器中,其接收编码的A和B二者。编码的A和B被馈送到C的编码器中,其连同C一起接收编码的A和B二者。编码的A、B、C被馈送到D的编码器中,其连同D一起接收编码的A、B和C。所得到的隐向量被馈送到解码器220中。然后,在输出W、X、Y和Z下示出的解码器220将来自编码器210的隐向量和字符串结束“<EOS>”词语当作输入并且投影词典大小|V|的概率得分。W、X、Y和Z是由用户录入的查询的词语。不具有上限但是也许具有与1000000个词语一样大的大小的词典大小|V|中的每个词语的概率得分被投影在解码器220的每个阶段处,并且在相关联的向量中查找每个词语W、X、Y和Z并且建立该词语与编码器中的隐向量相关联的概率。此后,其将给定词语当作生成下一向量的输入并且进行重复。然后,其当发现<EOS>时完成。在完成之后,乘在一起的所有概率的积是查询与文档有关的概率。例如,A、B、C、D可以分别地是“hdmi”、“vga本文档来自技高网
...

【技术保护点】
1.一种方法,包括:接收来自用户的查询,所述查询包括多个词语;基于所述查询,针对包括词语的文档执行搜索;将所述文档的所述词语馈送为多层序列到序列转换器的编码器的输入;在所述多层序列到序列转换器的解码器处生成多个向量,每个向量包括与所述查询中的相应词语相关联的概率;在相应向量中查找每个词语与所述文档相关联的概率;将两个或更多个词语的概率乘在一起以确定所述查询与所述文档相关联的总概率;以及如果所述查询与所述文档相关联的所述总概率大于阈值,则将所述文档返回给所述用户。

【技术特征摘要】
【国外来华专利技术】2016.12.14 US 15/379,2621.一种方法,包括:接收来自用户的查询,所述查询包括多个词语;基于所述查询,针对包括词语的文档执行搜索;将所述文档的所述词语馈送为多层序列到序列转换器的编码器的输入;在所述多层序列到序列转换器的解码器处生成多个向量,每个向量包括与所述查询中的相应词语相关联的概率;在相应向量中查找每个词语与所述文档相关联的概率;将两个或更多个词语的概率乘在一起以确定所述查询与所述文档相关联的总概率;以及如果所述查询与所述文档相关联的所述总概率大于阈值,则将所述文档返回给所述用户。2.根据权利要求1所述的方法,还包括:如果所述查询与所述文档相关联的所述总概率小于所述阈值,则请求来自所述用户的进一步搜索信息。3.根据权利要求2所述的方法,还包括:在将所述文档的所述词语馈送为多层序列到序列转换器的编码器的所述输入之后,将所述文档的所述词语编码成三个隐向量h1、h2和h3。4.根据权利要求3所述的方法,其中在解码器处生成多个向量还包括:使用所述三个隐向量h1、h2和h3连同所述查询中的先前词语来生成所述多个向量。5.根据权利要求4所述的方法,还包括:使用注意力机制生成所述多个向量内的所述概率。6.一种系统,包括:至少一个处理器;以及与所述至少一个处理器操作地连接的存储器,其存储计算机可执行指令,所述计算机可执行指令当由所述至少一个处理器执行时使得所述至少一个处理器执行方法,所述方法包括:接收来自用户的查询,所述查询包括多个词语;基于所述查询,针对包括词语的文档执行搜索;将所述文档的所述词语馈送为多层序列到序列转换器的编码器的输入;使用注意力机制来在所述多层序列到序列转换器的解码器处生成多个向量,每个向量包括与所述查询...

【专利技术属性】
技术研发人员:张耿豪张若非殷子
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1