对话查询应答系统技术方案

技术编号：23025056 阅读：31 留言：0更新日期：2020-01-03 16:54

本申请的各实施例涉及对话查询应答系统。基于由用户输入的查询的语义解释来将用户引导到内容的技术涉及响应于用户字符串查询来生成到文档集合中的特定内容的链接，该链接基于答案建议前瞻索引而被生成。答案建议前瞻索引引用多组语义等同术语与到文档集合的特定内容的相应链接之间的映射。这些技术对于自然语言问题应答的一般化任务是有用的。

Dialogue query response system

全部详细技术资料下载

【技术实现步骤摘要】
对话查询应答系统
本说明书涉及使用自然语言处理(NLP)的查询应答系统。
技术介绍
当用户向搜索助理的文本框中键入单词时，一些搜索助理可以生成可能的搜索字符串。例如，当用户键入问题“HowdoIremovedevileyes(我如何去除恶魔之眼)”时，搜索助理可以呈现预期该问题的新搜索字符串集合。具体地，响应于用户键入“HowdoIremove(我如何去除)”，搜索助理可以呈现字符串“HowdoIremoveapp(我如何去除应用)”。传统的搜索助理基于对由大量用户提交的搜索字符串的聚合执行的查找操作来生成可能的搜索字符串。例如，为了响应于用户键入“HowdoIremove”而生成可能的搜索字符串，搜索助理查找包含单词“HowdoIremove”的所有可能的搜索字符串。如果用户在文本框中键入附加单词，则搜索助理动态执行包括新单词的查找操作以产生新的搜索字符串集合。响应于用户选择搜索字符串，搜索助理基于标准搜索算法来显示搜索结果集合。当由用户键入的问题不包含搜索字符串的聚合中存在的单词时，如上所述的传统搜索助理无法返回准确的搜索字符串。已经尝试过获得在这种情况中可以能够生成准确的搜索结果的更智能的搜索助理。不幸的是，这种尝试充其量只取得了微不足道的成功。
技术实现思路
在一个总体方面中，一种方法可以包括接收表示文档集合的文档数据，该文档集合中的每个文档包括相应主题和与该主题有关的内容。该方法还可以包括基于文档集合来生成答案建议前瞻索引数据，答案建议前瞻索引数据表示多个术语/链接对，多...

【技术保护点】
1.一种计算机实现的方法，包括：/n接收表示文档集合的文档数据，所述文档集合中的每个文档包括相应主题和与所述主题有关的内容；/n基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接；/n接收用户查询字符串；/n响应于接收到所述用户查询字符串，定位所述多个术语/链接对中的术语/链接对的语义等同术语，所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位；以及/n向输出设备输出定位的所述术语/链接对的链接的表示。/n

【技术特征摘要】
20180627 US 16/020,3281.一种计算机实现的方法，包括：
接收表示文档集合的文档数据，所述文档集合中的每个文档包括相应主题和与所述主题有关的内容；
基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接；
接收用户查询字符串；
响应于接收到所述用户查询字符串，定位所述多个术语/链接对中的术语/链接对的语义等同术语，所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位；以及
向输出设备输出定位的所述术语/链接对的链接的表示。

2.根据权利要求1所述的方法，其中生成所述答案建议前瞻索引数据包括：
基于所述文档集合来生成主题知识图数据，所述主题知识图数据表示主题知识图，所述主题知识图包括：(i)所述文档集合中的每个文档的相应主题和子主题集合，以及(ii)到所述文档集合的所述内容的链接，所述链接中的每个链接对应于所述文档集合中的每个文档的相应主题或所述子主题集合中的子主题中的一个。

3.根据权利要求2所述的方法，其中生成所述答案建议前瞻索引数据还包括：
生成表示对所述文档集合中的每个文档的所述主题和所述子主题集合的各个语义注释的语义注释数据，所述语义注释中的每个语义注释包括谓语集合中的相应谓语和宾语集合中的相应宾语；
针对所述谓语集合中的每个谓语，标识当被与所述谓语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述宾语集合中的至少一个宾语；以及
针对所述宾语集合中的每个宾语，标识当被与所述宾语组合时与所述文档集合中的每个文档的主题或所述子主题集合中的子主题中的一个对应的所述谓语集合中的至少一个谓语。

4.根据权利要求2所述的方法，其中生成所述主题知识图数据包括：
针对所述文档集合中的每个文档，生成文档对象模型(DOM)集合中的相应DOM，所述相应DOM对应于每个文档，对应于每个文档的所述DOM包括所述主题、所述子主题集合和到每个文档的所述内容的所述链接；以及
聚合所述DOM集合以生成针对所述主题知识图的主链接列表，所述主链接列表包括到所述文档集合的所述内容的多个唯一链接。

5.根据权利要求2所述的方法，其中生成所述主题知识图数据包括：
针对所述文档集合中的每个文档，生成文档对象模型(DOM)集合中的相应DOM，所述相应DOM对应于所述文档，对应于所述文档的所述DOM包括所述主题、所述子主题集合和到所述文档的所述内容的所述链接；以及
格式化所述DOM集合以产生针对自然语言处理(NLP)流水线而被格式化的聚合平坦化知识图。

6.根据权利要求5所述的方法，其中所述聚合平坦化知识图包括所述DOM集合中的每个DOM的所述主题和子主题集合中的至少一个，所述NLP流水线被配置为产生<S，P，O>三元组，所述<S，P，O>三元组包括针对所述DOM集合中的每个DOM的所述主题和子主题集合中的每个的主语、谓语和宾语。

7.根据权利要求5所述的方法，其中生成所述主题知识图数据还包括：
分割所述聚合平坦化知识图以产生多个聚合平坦化知识图部分；以及
通过所述NP流水线对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分执行自然语言处理以产生所述知识图，所述自然语言处理对所述多个聚合平坦化知识图部分中的每个聚合平坦化知识图部分并行地被执行。

8.根据权利要求5所述的方法，其中生成所述DOM集合中的所述DOM包括：
标识所述文档集中的每个文档的非信息内容；以及
去除所述文档的所述非信息内容以产生所述主题、所述子主题集合和到所述文档的所述内容的所述链接，所述去除包括将术语频率逆文档频率(TF-IDF)算法应用于所述文档。

9.根据权利要求5所述的方法，其中生成所述DOM集合中的所述DOM包括：
重新格式化所述文档集合中的每个文档以产生以Markdown标记语言(MDML)格式化的文档。

10.一种计算机程序产品，包括非暂态存储介质，所述计算机程序产品包括代码，所述代码在由被配置为基于由用户输入的查询的语义解释来将所述用户引导到内容的计算机的处理电路执行时，使得所述处理电路执行方法，所述方法包括：
接收表示文档集合的文档数据，所述文档集合中的每个文档包括相应主题和与所述主题有关的内容；
基于所述文档集合来生成答案建议前瞻索引数据，所述答案建议前瞻索引数据表示多个术语/链接对，所述多个术语/链接对中的每个术语/链接对包括语义等同术语和到所述文档集合的内容的对应链接；
接收用户查询字符串；
响应于接收到所述用户查询字符串，定位所述多个术语/链接对中的术语/链接对的语义等同术语，所述语义等同术语基于与所述用户查询字符串的语义等同性而被定位；以及
向输出设备输出定位的所述术语/链接对的链接的表示。

11.根据权利要求10所述的计算机程序产品，其中生成所述答案建议前瞻索引数据包括：
基于所述文档集合来生成主题知识图数据，所述主题知识图数据表示主题知识图，所述主题知识图包括：(i)所述文档...

【专利技术属性】
技术研发人员：W·W·常，J·勃兰特，金斗淳，
申请(专利权)人：奥多比公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人