从被回答问题关联语料库/语料值制造技术

技术编号:12947270 阅读:43 留言:0更新日期:2016-03-02 09:14
提供用于动态地选择候选答案源子集以便由问答(QA)系统使用的机制。所述QA系统接收针对其寻求答案的输入问题,并基于所述输入问题生成一个或多个查询。所述QA系统基于分级候选答案源列表,从一组候选答案源中选择候选答案源子集。所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的。所述QA系统将所述一个或多个查询应用于所述候选答案源子集,并基于将所述一个或多个查询应用于所述候选答案源子集的结果,针对所述输入问题生成至少一个候选答案。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】
技术介绍
本申请一般地涉及改进的数据处理装置和方法,更具体地说,涉及用于从被回答问题关联语料库/语料值的机制。随着计算网络(例如因特网)使用的增加,人类当前被来自各种结构化和非结构化源的可用于他们的信息量淹没并且不知所措。但是,在搜索有关各种主题的信息期间,随着用户尝试汇聚他们认为相关的能够发现的内容,信息差距大量存在。为了帮助进行此类搜索,最近的研究已涉及生成问答(QA)系统,QA系统可以获得输入问题,分析问题,并且返回指示输入问题的最可能答案的结果。QA系统提供用于在大型内容源集合(例如,电子文档)中搜索的自动机制,并且针对输入问题分析这些内容源以便确定问题答案以及关于答案如何准确用于回答输入问题的置信度量。一个此类QA系统是可从位于纽约阿蒙克的国际商业机器(IBM)公司获得的Watson?系统。Watson?系统是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术在开域问答领域中的应用。Watson?系统基于IBM的De印QA ?技术构建,该技术用于假设生成、海量证据收集、分析和评分。DeepQA?获得输入问题,分析问题,将问题分解为组成部分,基于分解后的问题和答案源的主要搜索的结果而生成一个或多个假设,基于从证据源的证据检索而执行假设和证据评分,执行一个或多个假设的合成,并且基于训练后的模型,执行最终合并和分级以便连同置信度量一起输出输入问题的答案。各种美国专利申请公开描述了各种类型的问答系统。第2011/0125734号美国专利申请公开披露一种用于基于数据语料库生成问答对的机制。系统从一组问题开始,并且然后分析该组内容以便提取这些问题的答案。第2011/0066587号美国专利申请公开披露一种用于以下操作的机制:将分析的信息的报告转换为问题集合,并且从信息集合判定是回答还是反驳问题集合的答案。将结果数据纳入更新后的信息模型中。第2013/0018652号美国专利申请公开披露一种用于以下操作的机制:在问答期间在候选答案之间传播证据以便标识第一候选答案与第二候选答案之间的关系,其中候选答案由问答计算机过程生成,候选答案具有关联的支持证据,并且候选答案具有关联的置信度得分。可以基于所标识的关系,将全部或部分证据从第一候选答案转移到第二候选答案。可以基于转移后的证据,针对第二候选答案计算新的置信度得分。
技术实现思路
在一个示例性实施例中,提供一种在包括处理器和存储器的数据处理系统中的方法,所述方法用于动态地选择候选答案源子集以便由所述数据处理系统实现的问答(QA)系统使用。所述方法包括由所述数据处理系统实现的所述QA系统接收针对其寻求答案的输入问题,以及由所述QA系统基于所述输入问题生成一个或多个查询。所述方法进一步包括基于分级候选答案源列表,从一组候选答案源中选择候选答案源子集。所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的。此外,所述方法包括将所述一个或多个查询应用于所述候选答案源子集,以及基于将所述一个或多个查询应用于所述候选答案源子集的结果,针对所述输入问题生成至少一个候选答案。在其它示例性实施例中,提供一种包括计算机可用或可读介质的计算机程序产品,所述计算机可用或可读介质具有计算机可读程序。所述计算机可读程序当在计算设备上执行时,导致所述计算设备执行上面针对所述方法示例性实施例概述的各种操作和操作组合。在另一个示例性实施例中,提供一种系统/装置。所述系统/装置可以包括一个或多个处理器和一个存储器,所述存储器耦合到所述一个或多个处理器。所述存储器可以包括指令,当所述指令由所述一个或多个处理器执行时,导致所述一个或多个处理器执行上面针对所述方法示例性实施例概述的各种操作和操作组合。本专利技术的这些和其它特性和优点将在以下对本专利技术的实例实施例的详细说明中进行描述,或者鉴于以下对本专利技术的实例实施例的详细说明,本专利技术的这些和其它特性和优点将对所属
的普通技术人员变得显而易见。【附图说明】当结合附图阅读时,通过参考以下对示例性实施例的详细说明,将最佳地理解本专利技术及其优选使用方式、进一步的目的和优点,这些附图是:图1示出计算机网络中的问/答(QA)系统的一个示例性实施例的示意图;图2示出图1的QA系统的一个实施例的示意图;图3示出用于文档的问/答创建的方法的一个实施例的流程图;图4示出用于文档的问/答创建的方法的一个实施例的流程图;图5是根据一个示例性实施例的包括候选答案源评级逻辑的问答系统分析流水线的实例框图;以及图6是示出根据一个示例性实施例的改进的QA系统针对候选答案源评级的实例操作的流程图。【具体实施方式】在诸如Watson? QA系统之类的问答(QA)系统中,搜索大量内容以便发现输入问题的正确答案。因此,由QA系统提供的答案的质量和准确性直接与系统用于搜索答案的内容的质量(即,由QA系统获取的内容的质量)相关。QA系统搜索的内容的质量和价值可以变化,并且因此,如果同样处理所有内容,则会浪费时间和/或答案的准确性会受搜索的影响并且依赖于相对价值低于其它内容的内容。因此,帮助由QA系统执行的内容搜索和分析将是有利的,使得就从内容生成的结果答案的质量和准确性而言,此类搜索和分析能够专注于内容的这样的部分,该部分的价值相对高于内容的其它部分。示例性实施例提供对用于生成输入问题的候选答案的内容的价值进行评级的机制。这些评级然后可以用于确定由QA系统执行的搜索和分析的优先级,以便在信息语料库中的相对较低价值的内容部分之前或者代替相对较低价值的内容部分,搜索/分析相对较高价值的内容部分。可以建立各种阈值以便定义具有特定价值度量的内容部分是否以及何时由QA系统搜索/分析。因此,通过这种方式,示例性实施例的机制动态地标识向结果答案的质量和准确性提供相对较高价值的内容部分、内容源等,并且可以动态地调整由QA系统搜索/分析的内容部分、内容源等的优先次序。以下将参考附图更详细地描述本专利技术的示例性实施例的上述方面和优点。应该理解,附图仅旨在例示本专利技术的示例性实施例。本专利技术可以包含示出的示例性实施例的方面、实施例和修改,这些方面、实施例和修改未在附图中明确示出,但鉴于对示例性实施例的本说明,它们对所属
的普通技术人员很容易地显而易见。所属
的技术人员知道,本专利技术的各个方面可以实现为系统、方法或计算机程序产品。因此,本专利技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本专利技术的各个方面还可以实现为在任何一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可用程序代码。可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质可以是具有电、磁、光、电磁、或半导体性质的系统、装置或器件,或者上述的任意合适的组合,或者其等效物。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有存储能力的电器件、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(R0M)、可擦式可编程只读存储器(EPR0本文档来自技高网
...

【技术保护点】
一种在包括处理器和存储器的数据处理系统中的方法,所述方法用于动态地选择候选答案源子集以便由所述数据处理系统实现的问答(QA)系统使用,所述方法包括:由所述数据处理系统实现的所述QA系统接收针对其寻求答案的输入问题;由所述QA系统基于所述输入问题生成一个或多个查询;由所述QA系统基于分级候选答案源列表,从一组候选答案源中选择候选答案源子集,其中所述分级候选答案源列表是基于由所述QA系统针对先前输入的问题生成的先前候选答案的特征来生成的;由所述QA系统将所述一个或多个查询应用于所述候选答案源子集;以及由所述QA系统基于将所述一个或多个查询应用于所述候选答案源子集的结果,针对所述输入问题生成至少一个候选答案。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:P·F·哈格D·A·约翰逊S·J·罗尔达R·L·史蒂威
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1