简短查询回答的多源提取与评分制造技术

技术编号:39426082 阅读:8 留言:0更新日期:2023-11-19 16:12
通过搜索引擎生成针对查询的简短回答的技术包含:对训练数据语料库执行训练操作以训练分数预测引擎,训练数据语料库包含提供用于以图例显示的简短回答的候选段落以及从中生成评分最前的简短回答的其余相应段落。在此类实施方案中,训练数据语料库还包含其余相应段落以及候选段落和其余相应段落的相应标题。落以及候选段落和其余相应段落的相应标题。落以及候选段落和其余相应段落的相应标题。

【技术实现步骤摘要】
【国外来华专利技术】简短查询回答的多源提取与评分


[0001]本说明书涉及生成简短回答以用于在运行搜索引擎的浏览器中显示。

技术介绍

[0002]一些搜索引擎支持以图例显示的简短回答,图例在显示搜索引擎结果的搜索浏览器窗口内的突出位置处显示。简短回答的这种突出显示为用户提供针对事实查询的非常快的回答,而无须用户必须选择搜索结果并点击它之后才获得针对查询的答案。此外,搜索引擎能够直接提供针对多样化范围问题的回答而无需精心策划的知识库。

技术实现思路

[0003]本文描述的实施方案涉及基于由提供给搜索引擎的查询产生的多个段落来生成简短回答以用于显示。简短回答是针对运行搜索引擎的浏览器窗口中突出显示的事实查询的回答;此类回答可能源于——或者是——排名最前的搜索结果中的段落。只有从中得出简单回答的段落好,简短回答才好;因此,当从段落中得出简短回答时,使用其它段落作为上下文应改进简短回答的质量。确定是否显示特定简短回答取决于由准确度分数预测引擎提供的准确度分数;分别基于准确度分数是大于还是小于准确度分数阈值而显示或不显示简短回答。准确度分数可以由准确度分数预测引擎确定,准确度分数预测引擎基于来自排名最前的搜索结果的段落与来自其它搜索结果的其它段落的一致性来预测来自排名最前的搜索结果的段落的准确度分数。准确度分数预测引擎使用来自搜索引擎结果的段落来训练,评级者基于来自搜索引擎结果的段落与来自其它搜索结果的上下文段落的一致性而对来自搜索引擎结果的段落手动进行评分。
[0004]在一个一般方面,一种基于计算机的方法可以包含接收表示由用户输入到搜索引擎中的搜索查询的查询数据。方法还可以包含基于搜索查询生成多个搜索结果,多个搜索结果中的每一个具有与搜索查询相关的相应段落。方法还可以包含选择相应段落的集合,集合中的相应段落中的一个是属于多个搜索结果中排名最前的搜索结果的候选段落,并且集合中的其余相应段落是上下文段落。方法还可以包含使用上下文段落对候选段落进行评分,以产生候选段落的准确度分数。方法还可以包含基于准确度分数,提供候选段落以用于作为简短回答在由显示器上的浏览器窗口呈现的搜索结果页面中显示。
[0005]在另一一般方法,一种包括非暂时性存储介质的计算机程序产品,计算机程序产品包含代码,代码在由计算装置的处理电路执行时使处理电路执行方法。方法可以包含接收表示由用户输入到搜索引擎中的搜索查询的查询数据。方法还可以包含基于搜索查询生成多个搜索结果,多个搜索结果中的每一个具有与搜索查询相关的相应段落。方法还可以包含选择相应段落的集合,集合中的相应段落中的一个是属于多个搜索结果中排名最前的搜索结果的候选段落,并且集合中的其余相应段落是上下文段落。方法还可以包含使用上下文段落对候选段落进行评分,以产生候选段落的准确度分数。方法还可以包含基于准确度分数,提供候选段落以用于作为简短回答在由显示器上的浏览器窗口呈现的搜索结果页
面中显示。
[0006]在另一一般方面,一种电子设备包括存储器和耦合到存储器的控制电路。控制电路可以被配置成接收表示由用户输入到搜索引擎中的搜索查询的查询数据。控制电路还可以被配置成基于搜索查询生成多个搜索结果,多个搜索结果中的每一个具有与搜索查询相关的相应段落。控制电路还可以被配置成选择相应段落的集合,集合中的相应段落中的一个是属于多个搜索结果中排名最前的搜索结果的候选段落,并且集合中的其余相应段落是上下文段落。控制电路还可以被配置成使用上下文段落对候选段落进行评分,以产生候选段落的准确度分数。控制电路还可以被配置成基于准确度分数,提供候选段落以用于作为简短回答在由显示器上的浏览器窗口呈现的搜索结果页面中显示。
[0007]在附图和以下描述中阐述一个或多个实施方案的细节。其它特征将从说明书和附图以及权利要求中显而易见。
附图说明
[0008]图1A是示出其中可以实施本文描述的改进技术的示例搜索引擎的图。
[0009]图1B是示出在显示器上的浏览器窗口中显示的由搜索查询产生的示例简短回答的图。
[0010]图2是示出其中可以实施本文描述的改进技术的示例电子环境的图。
[0011]图3是示出从来自搜索结果的多个评分最前的段落到图例中的示例数据流的图。
[0012]图4是示出来自准确度分数预测引擎的示例输入和输出的图。
[0013]图5是示出根据所公开的实施方案的执行基于一致性的简短回答呈现的示例方法的流程图。
[0014]图6是示出可用于实施所描述的技术的计算机装置和移动计算机装置的示例的图。
[0015]图7是示出可用于实施所描述的技术的分布式计算机装置的示例的图。
具体实施方式
[0016]一些搜索引擎支持在显示搜索引擎结果的搜索浏览器窗口内的突出位置中显示的简短回答。简短回答包含表示针对事实查询的回答的段落或段落的提取。简短回答的这种突出显示为用户提供针对查询的非常快的回答,而无须用户必须选择搜索结果并点击它之后才获得针对查询的回答。此外,搜索引擎能够直接提供针对多样化范围问题的回答而无需精心策划的知识库。但选择用于简短回答的段落可能复杂且容易出错。
[0017]例如,响应于来自用户的查询“What does NFC stand for in sports(NFC在体育运动中代表什么)”,搜索引擎可以在用户显示器的突出位置显示简短回答。在这种情况下,用户希望看到在用户显示器上的搜索引擎浏览器窗口中突出显示的“National Football Conference(全国足球联合会)”。但是,可能替代地显示回答“Near Field Communication(近场通信)”。
[0018]支持有时以图例显示的简短回答的常规搜索引擎从相应搜索结果中分别获得每个简短回答。为给定查询的简短回答选择的搜索结果可以表示网站,并且包含到在搜索结果中显示的网站的链接,从链接获取简短回答。搜索引擎对简短回答的选择涉及从网站中
获取排名最前的搜索结果的段落,并选择被确定为最可能包含针对查询的回答的段落(文本跨度)。
[0019]上文描述的生成简短回答的常规方法的技术问题在于,取决于所选搜索结果,上文描述的常规搜索引擎中的简短回答可能具有不同的质量。在此类方法中,用于选择获取简单回答的段落的逻辑不考虑简短回答的质量。因此,在一些情况下,简短回答可能误导或甚至错误。
[0020]根据本文描述的实施方案,上文描述的技术问题的技术解决方案包含用于确定是否显示简短回答的改进的评分引擎(准确度分数预测引擎)。改进的评分引擎使用来自多个不同相应搜索结果的多个段落。确定是否显示特定简短回答取决于由准确度分数预测引擎提供的准确度分数;分别基于准确度分数是大于还是小于准确度分数阈值而显示或不显示简短回答。准确度分数可以由准确度分数预测引擎确定,准确度分数预测引擎基于与来自其它搜索结果的其它段落的一致性来预测来自排名最前的搜索结果的段落的准确度分数。准确度分数预测引擎使用来自搜索引擎结果的段落来训练,评级者基于与来自其它搜索结果的上本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,包括:接收搜索查询;基于所述搜索查询生成多个搜索结果,所述多个搜索结果中的每一个具有与所述搜索查询相关的相应段落;选择所述相应段落的集合,所述集合中的所述相应段落中的一个是属于所述多个搜索结果中排名最前的搜索结果的候选段落,并且所述集合中的其余相应段落是上下文段落;使用所述上下文段落对所述候选段落进行评分,以产生所述候选段落的准确度分数;以及基于所述准确度分数,提供所述候选段落以用于作为简短回答在由显示器上的浏览器窗口呈现的搜索结果页面中显示。2.根据权利要求1所述的计算机实施的方法,其中,基于所述准确度分数提供所述候选段落以用于显示包括:将所述准确度分数与准确度分数阈值进行比较;响应于所述准确度分数大于所述准确度分数阈值,在所述显示器上显示所述候选段落;以及响应于所述准确度分数小于所述准确度分数阈值,不在所述显示器上显示所述候选段落。3.根据权利要求1所述的计算机实施的方法,其中,使用所述上下文段落对所述候选段落进行评分包括:确定所述候选段落与所述上下文段落之间的一致性水平,所述准确度分数是基于所述一致性水平。4.根据权利要求1所述的计算机实施的方法,其中,使用所述上下文段落对所述候选段落进行评分包括:将所述候选段落、所述搜索查询和所述上下文段落输入到分数预测引擎中,所述分数预测引擎被配置成基于所述候选段落、所述搜索查询和所述上下文段落来预测所述准确度分数。5.根据权利要求4所述的计算机实施的方法,其中,使用所述上下文段落对所述候选段落进行评分还包括:除了将所述候选段落、所述搜索查询和所述上下文段落输入到所述分数预测引擎中之外,还将所述候选段落和所述上下文段落的相应标题输入到所述分数预测引擎中。6.根据权利要求4所述的计算机实施的方法,其中,所述分数预测引擎是针对训练记录语料库训练的,所述训练记录语料库包括训练查询、针对所述训练查询选择的主要段落、至少一个上下文段落以及所述主要段落的相应准确度分数。7.根据权利要求6所述的计算机实施的方法,其中,所述训练记录语料库还包括用于所述至少一个上下文段落的所述主要段落的相应标题。8.根据权利要求6所述的计算机实施的方法,其中,通过应用基于应用于主要段落的准确度分数阈值集合的损失函数来进一步训练所述分数预测引擎,针对所述主要段落的所述准确度分数阈值集合中的每个准确度分数阈值,所述损失函数包括所述阈值分数的S形交叉熵损失。
9.根据权利要求8所述的计算机实施的方法,其中,所述损失函数产生所述准确度分数阈值集合上的所述S形交叉熵损失的平均值作为输出。10.根据权利要求8所述的计算机实施的方法,其中,所述分数预测引擎是使用多个训练阶段来训练的,以及其中,所述准确度分数阈值集合在所述多个训练阶段之间变化。11.根据权利要求6所述的计算机实施的方法,其中,所述训练记录语料库还包括先前评分的段落集合,所述先前评分的段落的相应准确度分数不基于与所述主要段落和至少一个上下文段落的一致性。12.根据权利要求1所述的计算机实施的方法,其中,所述相应段落的集合包括预定数量的排名最前的段落。13.根据权利要求12所述的计算机实施...

【专利技术属性】
技术研发人员:普里亚斯
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1