使用假设剪枝提供问题答案制造技术

技术编号:8983293 阅读:158 留言:0更新日期:2013-08-01 02:02
一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括接收查询,在一个或多个数据源中执行搜索以识别所述查询的候选答案,以及为每个所述候选答案提供初步得分。所述方法还包括筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案。初步得分符合此条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以生成进一步得分。将排序功能应用于这些进一步得分以确定所述子集中的所述每个候选答案的排序;以及在应用该排序功能之后,选择一个或多个所述候选答案作为所述查询的一个或多个最终答案。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及信息检索,具体地说,涉及问答。再具体地说,本专利技术的各实施例涉及通过生成和评估多个候选答案来实现并行分析以提供问题答案的问/答系统以及方法。
技术介绍
一般而言,QA是一种类型的信息检索。如果给出文档集合(例如万维网或本地集合),则系统应能够检索以自然语言提出的问题的答案。QA被视为比其它类型信息检索(例如文档检索)需要更复杂的自然语言处理(NLP)技术,并且有时被视为超越搜索引擎的后续步骤。QA研究尝试处理各种问题类型,包括:事实、列表、定义、方式、原因、假设、语义约束和跨语言问题。·搜索集合有所不同,从小型本地文档集合到内部组织文档,到编译后的新闻专线报道,再到万维网。闭域问答在特定领域(例如,医学或汽车维修)下处理问题,并且可被视为较轻松的任务,因为NLP系统可利用经常以本体形式化的领域特定的知识。备选地,闭域可能指这样一种情况:其中仅接受受限类型的问题,例如询问描述性信息而不是过程信息的问题。开域问答处理有关几乎任何事情的问题,并且可以仅依赖于通用本体和世界知识。但是开域Q/A系统通常具有更多可从中提取答案的可用数据。对信息的访问目前由两种范式控制:数据库查询,其回答有关结构化记录集合中的内容的问题;以及搜索,其响应于针对非结构化数据(例如,文本或html)集合的查询而提供文档链接集合。此类信息查询范式的主要挑战在于提供能够根据大型文档集合(所有种类的文档,包括结构化文档和非结构化文档)中包括的信息回答实际问题的计算机程序。这种实际问题可以是宽泛的(例如“what are the risks of vitamin K deficiency (维生素K缺乏的危害是什么?)”),或者是狭窄的(例如“when and where was Hillary Clinton’sfather born (希拉里.克林顿的父亲出生在何时何地?)”)。用户与此类计算机程序的交互可以是单次用户-计算机交换,也可以是用户与计算机系统之间的多轮对话。此类对话可以涉及一种或多种形式(文本、语音、触觉、手势等)。此类交互的实例包括这样一种情形:其中电话用户使用语音提问,接收语音、文本和图像(例如,带有文本注释的图)及语音(计算机生成的)解释组合而成的答案。另一实例是用户与视频游戏进行交互,并使用机器可识别的手势拒绝或接受答案,或者是计算机生成指引用户的触觉输出。构建此类计算机系统的挑战在于理解查询,查找可能包含答案的适合文档,以及提取要提供给用户的正确答案。目前,理解查询是一个公开的难题,因为计算机不具备人类理解自然语言的能力,也没有从当前(非常初级的)自然语言理解系统可生成的许多可能解释中做出选择的常识。通过一轮或多轮对话回答实际查询的能力具有巨大的潜在价值,因为它允许实时存取准确的信息。例如,提高现有问答技术水平具有巨大商业价值,因为这样可以实时了解业务状况、竞争对手、经济条件等。即使QA采取最初级的形式,也可以将信息工作者的生产力提高好几个量级。公开内容在此全部纳入作为参考的第12/152,441号美国专利描述了一种QA系统,其针对查询生成一组候选答案,然后处理(即,检索支持证据、评分和排序)所有候选答案。并非始终必须对所有候选答案执行该处理。在至少某些情况下,有些候选答案不可能为正确答案,对于这些低质量候选答案,不值得付出计算成本来搜索支持证据。
技术实现思路
本专利技术的各实施例提供一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括接收输入查询,在一个或多个数据源中执行搜索以识别所述输入查询的多个候选答案,以及根据一个或多个定义的条件为每个所述候选答案提供初步得分。所述方法还包括筛选出所述候选答案中任何初步得分不符合定义的条件的候选答案。作为此筛选的结果,初步得分符合所述定义的条件的候选答案形成所述候选答案的子集。处理该子集中的每个候选答案以针对这些候选答案中的每个候选答案生成多个进一步得分。将候选排序功能应用于这些进一步得分以确定所述候选答案的子集中的每个候选答案的排序;以及在应用该候选排序功能之后,选择一个或多个所述候选答案作为所述输入查询的一个或多个最终答案。在一个实施例中,使用支持段落检索过程处理所述候选答案的子集中的每个候选答案以识别其中出现所述每个候选答案的段落。将所述候选答案的子集从所述支持段落检索过程发送到候选排序功能模块,并 且该模块用于将所述候选排序功能应用于所述候选答案的子集中的候选答案。在一个实施例中,任何筛选出的候选答案可被发送到所述候选排序功能,并且该模块还可用于将所述候选排序功能应用于任何筛选出的候选答案。在该实施例中,可从所述候选答案的子集中的候选答案以及任何筛选出的候选答案中选择被选为一个或多个最终答案的候选答案。在一个实施例中,筛选模块用于筛选出任何初步得分不符合所述定义的标准的候选答案,其中包括使所述候选答案经过筛选模型以执行所述筛选。以绕过所述支持段落检索过程的方式,将任何此类筛选出的候选答案发送到所述候选排序功能模块。在一个实施例中,使用上下文无关的候选答案过程处理所述候选答案的子集中的每个候选答案,以获得所述每个候选答案的一个或多个筛选后得分。在一个实施例中,根据所述每个候选答案的筛选后得分对所述候选答案的子集中的每个候选答案进行排序。在一个实施例中,使用逻辑回归模型为每个候选答案提供所述初步得分以对所述每个候选答案进行评分。在一个实施例中,筛选出任何初步得分低于定义的阈值的候选答案。在一个实施例中,确定该定义的阈值以获得计算成本与所述最终答案的质量度量之间的期望权衡。在一个实施例中,通过针对给定数据集运行测试来确定所述定义的阈值以便获得此期望权衡。在本专利技术的一个实施例中,仅将所述候选答案的子集用于查找支持证据。该子集可能不包括所有所述候选答案。用于支持段落检索的候选答案的子集通过以下过程来识别:I)针对所述候选答案运行上下文无关的评分器(因为这些评分器不需要支持段落)。2)使用评分功能(例如,逻辑回归模型)对每个候选答案进行评分。3)得分极低的候选答案被从支持段落检索中忽略;即,它们被视为不值得付出计算成本来搜索支持证据。可获得用于识别低评分答案的阈值,方式为:优化所提供的(held-out)数据集,例如执行参数扫描以选择计算成本与最终答案质量度量之间的最佳权衡。 4)将剩余的候选答案视为值得进一步调查。附图说明在下面给出的具体实施方式的上下文中理解本专利技术的目标、特性和优点。在附图的上下文中理解具体实施方式,所述附图形成本公开的重要部分,其中:图1是示出本专利技术的一个实施例的高级逻辑架构和问答方法的系统示意图;图2示出图1中的架构的变型,其中证据收集模块包括两个子模块:支持段落检索模块和候选答案评分模块;图3示出图1中的查询分析模块和候选答案生成模块的更详细的示意图;图4示出图1和2中的候选答案评分模块和答案排序模块的更详细的示意图;图5是示出根据本专利技术的一个实施例的处理问题并提供答案的方法步骤的实例流程图;图6示出了用于提供处理CAS数据结构的一种类型的分析引擎的ΠΜΑ框架实现的一个方面。具体实施例方式如在此使用的那样,单词“问题”和“查询”及其扩展词可以互换地使用并指示同一概念,即,信息请求。此类请求通常以疑问句表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:J·舒卡罗尔D·A·弗鲁茨D·C·贡德克A·P·拉利J·W·默多克四世
申请(专利权)人:国际商业机器公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1