当前位置: 首页 > 专利查询>奥多比公司专利>正文

对话查询应答系统技术方案

技术编号:23025056 阅读:31 留言:0更新日期:2020-01-03 16:54
本申请的各实施例涉及对话查询应答系统。基于由用户输入的查询的语义解释来将用户引导到内容的技术涉及响应于用户字符串查询来生成到文档集合中的特定内容的链接,该链接基于答案建议前瞻索引而被生成。答案建议前瞻索引引用多组语义等同术语与到文档集合的特定内容的相应链接之间的映射。这些技术对于自然语言问题应答的一般化任务是有用的。

Dialogue query response system

【技术实现步骤摘要】
对话查询应答系统
本说明书涉及使用自然语言处理(NLP)的查询应答系统。
技术介绍
当用户向搜索助理的文本框中键入单词时,一些搜索助理可以生成可能的搜索字符串。例如,当用户键入问题“HowdoIremovedevileyes(我如何去除恶魔之眼)”时,搜索助理可以呈现预期该问题的新搜索字符串集合。具体地,响应于用户键入“HowdoIremove(我如何去除)”,搜索助理可以呈现字符串“HowdoIremoveapp(我如何去除应用)”。传统的搜索助理基于对由大量用户提交的搜索字符串的聚合执行的查找操作来生成可能的搜索字符串。例如,为了响应于用户键入“HowdoIremove”而生成可能的搜索字符串,搜索助理查找包含单词“HowdoIremove”的所有可能的搜索字符串。如果用户在文本框中键入附加单词,则搜索助理动态执行包括新单词的查找操作以产生新的搜索字符串集合。响应于用户选择搜索字符串,搜索助理基于标准搜索算法来显示搜索结果集合。当由用户键入的问题不包含搜索字符串的聚合中存在的单词时,如上所述的传统搜索助理无法返回准确的搜索字符串。已经尝试过获得在这种情况中可以能够生成准确的搜索结果的更智能的搜索助理。不幸的是,这种尝试充其量只取得了微不足道的成功。
技术实现思路
在一个总体方面中,一种方法可以包括接收表示文档集合的文档数据,该文档集合中的每个文档包括相应主题和与该主题有关的内容。该方法还可以包括基于文档集合来生成答案建议前瞻索引数据,答案建议前瞻索引数据表示多个术语/链接对,多个术语/链接对中的每个术语/链接对包括语义等同术语和到文档集合的内容的对应链接。该方法还可以包括接收用户查询字符串。该方法还可以包括:响应于接收到用户查询字符串,定位多个术语/链接对中的术语/链接对的语义等同术语,语义等同术语基于与用户查询字符串的语义等同性而被定位。该方法还可以包括向输出设备输出定位的术语/链接对的链接的表示。在附图和以下描述中阐述了一个或多个实现的细节。其他特征根据说明书和附图以及根据权利要求将是很清楚的。附图说明图1是示出其中可以实现本文中描述的改进技术的示例电子环境的示图;图2是示出根据改进技术来构建用于搜索辅助的语义前瞻引擎的示例方法的流程图;图3是示出帮助系统的文档集合中的文档的示例部分的示图;图4是示出生成语义注释文件的示例过程的流程图;图5是示出从语义注释文件生成文档对象模型(DOM)的示例过程的流程图;图6是示出针对文档集合中的文档的示例DOM的示图;图7是示出基于针对文档的DOM来生成针对该文档的知识图的示例过程的流程图;图8是示出生成针对自然语言处理(NLP)流水线而被格式化的知识图的示例过程的流程图;图9是示出格式化知识图的示例部分的示图;图10是示出针对关键字搜索和建议索引生成<S,P,O>三元组的示例过程的流程图;图11是示出示例NLP流水线的流程图;图12是示出生成具有注释的序列化知识图的示例过程的流程图;图13是示出生成主建议前瞻索引的示例过程的流程图;图14是示出针对场加权搜索结果生成权重的示例过程的流程图;图15是示出在输出设备上向用户呈现答案卡的示例过程的流程图;图16A是示出按照JSON格式的示例“howto(如何)”答案卡的示图;图16B是示出按照JSON格式的示例“whatis(是什么)”答案卡的示图;以及图17是示出执行改进技术的示例方法的示图。具体实施方式上述传统搜索助理不适合作为针对特定产品和服务的帮助助理。例如,典型的搜索助理可能需要数千或数万个专用服务器,这些服务器从大量用户收集和聚合搜索字符串。这样的大量的服务器操作起来可能非常昂贵,从而使得成本超出了大多数服务提供商的范围。此外,在很多情况中,包含被键入到文本框中的单词的可能的搜索字符串的数目可能很大,其中搜索字符串相关性很少或没有相关性。并且即使在搜索字符串相关时,基于该搜索字符串的搜索结果也很可能将无法解决用户所考虑的问题。例如,考虑其中用户想要从数字照片去除红眼,但是用户不知道术语“红眼(redeyes)”的情况。相反,用户将以下内容键入搜索助理中:“HowdoIremovedevileyes?”如果以前从未表达过这种表达查询的不寻常方式,则搜索助理可能会寻找与键入字符的紧密匹配,如“HowdoIremoveevileyes(如何去除邪恶之眼?)”在这种情况中,搜索助理可以提供到提及“theevileyes(邪恶之眼)”的占星术和宗教网站的链接,其中没有一个将会帮助用户。根据本文中描述的实现并且与需要大量服务器基础设施(这针对大多数企业来说太多并且经常无法按照用户的意图回答问题)的上述传统搜索助理形成对比,改进技术涉及当由用户键入的问题不包含搜索字符串聚合中存在的单词时返回准确的搜索字符串。具体地,改进技术包括响应于用户字符串查询来生成到文档集合中的特定内容的链接,该链接基于答案建议前瞻索引而被生成。答案建议前瞻索引引用一组语义等同术语与到文档集合的特定内容的相应链接之间的映射。在示例场景中,计算机接收与产品或产品系列有关的帮助文档集合。每个帮助文档包括主题和与主题有关的内容。计算机基于帮助文档集合来生成答案建议前瞻索引。然后,响应于接收到用户查询,计算机生成到帮助文档集合中的特定内容的链接。在一些实现中,计算机还可以输出与链接对应的答案卡,答案卡是在输出设备上被显示的窗口,在该窗口中示出了回答用户的查询的内容。有利地,用户不需要利用答案建议前瞻索引来将们的查询精确地公式化他。尽管上面描述的传统搜索助理(其基于由用户键入的单词来执行查找)将很可能返回到与用户的意图无关的内容的链接,但是改进技术使用自然语言处理器来处理输入的搜索字符串。因此,基于上述映射的帮助系统很可能产生单个结果,例如,到集合中的文档的链接或者到文档内的位置的链接,其精确地回答用户的查询。这样的帮助系统学习流行的同义词术语而不必看到数十亿个查询,并且可以基于问题意图而不是文字关键词来自动提示答案,后者由传统搜索助理处理。帮助系统还可以按照紧凑的答案卡格式提供准确的答案,从而消除了用户必须翻阅结果文档的需要,从而消除了对庞大且昂贵的搜索基础设施的依赖,并且从而使用户对搜索结果更有信心。帮助系统(被称为“语义前瞻”)也可以在用户键入他们的查询时动态地生成链接,这使得用户可以比仅在已经录入完全输入之后输出搜索结果的系统更快地获取相关搜索结果。为了实现上述特征,系统首先针对每个内容页面生成语义文档对象模型(DOM)以捕获主题关系和描述。系统然后根据汇编的DOM构造知识图,并且利用DOM结构内的发现的父/子主题关系、how-to过程和相关主题。在构建最终的问题/答案事实知识图之前,系统通过文档理解过程利用非常有用的主题结构和域信息。此外,针对具有专有性质的高竞争性产品的文档(例如,针对敏感的政府、制药、科学内容或本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n接收表示文档集合的文档数据,所述文档集合中的每个文档包括相应主题和与所述主题有关的内容;/n基于所述文档集合来生成答案建议前瞻索引数据,所述答案建议前瞻索引数据表示多个术语/链接对,所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接;/n接收用户查询字符串;/n响应于接收到所述用户查询字符串,定位所述多个术语/链接对中的术语/链接对的语义等同术语,所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位;以及/n向输出设备输出定位的所述术语/链接对的链接的表示。/n

【技术特征摘要】
20180627 US 16/020,3281.一种计算机实现的方法,包括:
接收表示文档集合的文档数据,所述文档集合中的每个文档包括相应主题和与所述主题有关的内容;
基于所述文档集合来生成答案建议前瞻索引数据,所述答案建议前瞻索引数据表示多个术语/链接对,所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接;
接收用户查询字符串;
响应于接收到所述用户查询字符串,定位所述多个术语/链接对中的术语/链接对的语义等同术语,所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位;以及
向输出设备输出定位的所述术语/链接对的链接的表示。


2.根据权利要求1所述的方法,其中生成所述答案建议前瞻索引数据包括:
基于所述文档集合来生成主题知识图数据,所述主题知识图数据表示主题知识图,所述主题知识图包括:(i)所述文档集合中的每个文档的相应主题和子主题集合,以及(ii)到所述文档集合的所述内容的链接,所述链接中的每个链接对应于所述文档集合中的每个文档的相应主题或所述子主题集合中的子主题中的一个。


3.根据权利要求2所述的方法,其中生成所述答案建议前瞻索引数据还包括:
生成表示对所述文档集合中的每个文档的所述主题和所述子主题集合的各个语义注释的语义注释数据,所述语义注释中的每个语义注释包括谓语集合中的相应谓语和宾语集合中的相应宾语;
针对所述谓语集合中的每个谓语,标识当被与所述谓语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述宾语集合中的至少一个宾语;以及
针对所述宾语集合中的每个宾语,标识当被与所述宾语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述谓语集合中的至少一个谓语。


4.根据权利要求2所述的方法,其中生成所述主题知识图数据包括:
针对所述文档集合中的每个文档,生成文档对象模型(DOM)集合中的相应DOM,所述相应DOM对应于每个文档,对应于每个文档的所述DOM包括所述主题、所述子主题集合和到每个文档的所述内容的所述链接;以及
聚合所述DOM集合以生成针对所述主题知识图的主链接列表,所述主链接列表包括到所述文档集合的所述内容的多个唯一链接。


5.根据权利要求2所述的方法,其中生成所述主题知识图数据包括:
针对所述文档集合中的每个文档,生成文档对象模型(DOM)集合中的相应DOM,所述相应DOM对应于所述文档,对应于所述文档的所述DOM包括所述主题、所述子主题集合和到所述文档的所述内容的所述链接;以及
格式化所述DOM集合以产生针对自然语言处理(NLP)流水线而被格式化的聚合平坦化知识图。


6.根据权利要求5所述的方法,其中所述聚合平坦化知识图包括所述DOM集合中的每个DOM的所述主题和子主题集合中的至少一个,所述NLP流水线被配置为产生<S,P,O>三元组,所述<S,P,O>三元组包括针对所述DOM集合中的每个DOM的所述主题和子主题集合中的每个的主语、谓语和宾语。


7.根据权利要求5所述的方法,其中生成所述主题知识图数据还包括:
分割所述聚合平坦化知识图以产生多个聚合平坦化知识图部分;以及
通过所述NP流水线对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分执行自然语言处理以产生所述知识图,所述自然语言处理对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分并行地被执行。


8.根据权利要求5所述的方法,其中生成所述DOM集合中的所述DOM包括:
标识所述文档集中的每个文档的非信息内容;以及
去除所述文档的所述非信息内容以产生所述主题、所述子主题集合和到所述文档的所述内容的所述链接,所述去除包括将术语频率逆文档频率(TF-IDF)算法应用于所述文档。


9.根据权利要求5所述的方法,其中生成所述DOM集合中的所述DOM包括:
重新格式化所述文档集合中的每个文档以产生以Markdown标记语言(MDML)格式化的文档。


10.一种计算机程序产品,包括非暂态存储介质,所述计算机程序产品包括代码,所述代码在由被配置为基于由用户输入的查询的语义解释来将所述用户引导到内容的计算机的处理电路执行时,使得所述处理电路执行方法,所述方法包括:
接收表示文档集合的文档数据,所述文档集合中的每个文档包括相应主题和与所述主题有关的内容;
基于所述文档集合来生成答案建议前瞻索引数据,所述答案建议前瞻索引数据表示多个术语/链接对,所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接;
接收用户查询字符串;
响应于接收到所述用户查询字符串,定位所述多个术语/链接对中的术语/链接对的语义等同术语,所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位;以及
向输出设备输出定位的所述术语/链接对的链接的表示。


11.根据权利要求10所述的计算机程序产品,其中生成所述答案建议前瞻索引数据包括:
基于所述文档集合来生成主题知识图数据,所述主题知识图数据表示主题知识图,所述主题知识图包括:(i)所述文档...

【专利技术属性】
技术研发人员:W·W·常J·勃兰特金斗淳
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1