模式的自动识别和聚类制造技术

技术编号:24289802 阅读:40 留言:0更新日期:2020-05-26 20:06
一种计算机实施的方法包括接收多个问题、回答、段落(QAP)三元组。多个QAP三元组中的每一个包括问题、对问题的回答和包含对问题的回答的段落。对所接收的多个QAP三元组进行解析,以生成两个或更多个模式。所生成的模式被合并在一起,以识别语义相关模式的聚类。

Automatic pattern recognition and clustering

【技术实现步骤摘要】
模式的自动识别和聚类
本专利技术涉及机器学习,并且更具体地,涉及句法/语义模式的自动识别和聚类。
技术介绍
越来越多的认知系统正在企业和其他环境中开发和使用。通常,认知系统可以包括问题回答组件,该问题回答组件可以是在数据处理硬件上执行的人工智能应用,该人工智能应用回答与以自然语言呈现的给定主题领域相关的问题。对于这种问题回答组件,识别问题和段落(passage)中的浅层或深层句法/语义关系通常是有利的。例如,一个说英语的人凭直觉知道问题“Whoblorkedawug?”以及段落“AwugwasblorkedbyJohnSmith”是密切相关的。阅读这种段落的人可能会意识到,事实上,即使这个人没有完全理解单词“wug”和“blork”的意思,该段落也回答了这个问题。这是通过识别对应于相同语义的不同句法模式来实现的。需要一种自动识别和聚类这种对应于相同语义的句法模式的方法。
技术实现思路
本专利技术的实施例针对用于自动识别相关模式的计算机实施的方法。该计算机实施的方法的非限制性示例包括接收多个问题、回答、段落(question,answer,passage,QAP)三元组。多个QAP三元组中的每一个包括问题、对问题的回答和包含对问题的回答的段落。对所接收的多个QAP三元组进行解析,以生成两个或更多个模式。所生成的模式被合并在一起,以识别语义相关模式的聚类。本专利技术的实施例针对一种用于自动识别相关模式的系统。该系统的非限制性示例包括具有计算机可读指令的存储器和用于执行该计算机可读指令的一个或多个处理器。计算机可读指令包括接收多个问题、回答、段落(QAP)三元组。多个QAP三元组中的每一个包括问题、对问题的回答和包含对问题的回答的段落。对所接收的多个QAP三元组进行解析,以生成两个或更多个模式。所生成的模式被合并在一起,以识别语义相关模式的聚类。本专利技术的实施例针对用于自动识别相关模式的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有包含在其中的程序指令。程序指令可由处理器执行,以使处理器执行一种方法。该方法的非限制性示例包括接收多个问题、回答、段落(QAP)三元组。多个QAP三元组中的每一个都包括问题、对问题的回答和包含对问题的回答的段落。对所接收的多个QAP三元组进行解析,以生成两个或更多个模式。所生成的模式被合并在一起,以识别语义相关模式的聚类。通过本专利技术的技术实现了附加的技术特征和益处。本文详细描述了本专利技术的实施例和各方面,并将其视为要求保护的主题的一部分。为了更好地理解,请参考详细描述和附图。附图说明在说明书结束时,在权利要求书中特别指出并明确要求保护本文描述的专有权的细节。从以下结合附图的详细描述中,本专利技术实施例的前述和其他特征和优点是显而易见的,其中:图1描绘了在计算机网络中实施问题回答(questionanswering,QA)补充系统的认知系统的一个说明性实施例的示意图;图2是根据本专利技术一些实施例的用于自动识别相关模式的方法的流程图;和图3是根据本专利技术一些实施例的用于实施源系统(sourcingsystem)的一些或所有方面的计算机系统的框图。本文描述的图表是说明性的。在不脱离本专利技术精神的情况下,可以对图或其中描述的操作进行许多变化。例如,可以以不同的顺序执行动作,或者可以添加、删除或修改动作。此外,术语“耦合”及其变体描述了在两个元件之间具有通信路径,并且不暗指元件之间没有中间元件/连接的的直接连接。所有这些变化都被认为是本说明书的一部分。在附图中以及随后对所公开实施例的详细描述中,附图中示出的各种元件具有两位或三位参考数字。除了小的例外,每个参考数字的最左边的(多个)数字对应于其元素首次被示出的图。具体实施方式本文参考相关附图描述了本专利技术的各种实施例。在不脱离本专利技术范围的情况下,可以设计本专利技术的替代实施例。各种连接和位置关系(例如,上方、下方、相邻等)在以下描述和附图中的元件之间阐述。除非另有说明,这些连接和/或位置关系可以是直接的或间接的,并且本专利技术不旨在这方面进行限制。因此,实体的耦合可以指直接或间接耦合,并且实体之间的位置关系可以是直接或间接的位置关系。此外,本文所述的各种任务和过程步骤可以并入具有本文未详细描述的附加步骤或功能的更全面的过程或过程中。以下定义和缩写用于解释权利要求和说明书。如本文所用,术语“包含”、“包括”、“具有”、“含有”或其任何其他变体旨在覆盖非排他性的包含。例如,包括一列元素的组合物、混合物、工艺、方法、物品或装置不一定仅限于那些元素,而是可以包括未明确列出的或这种组合物、混合物、工艺、方法、物品或装置固有的其他元素。附加地,术语“示例性”在本文用来表示“用作示例、实例或说明”。本文描述为“示例性”的任何实施例或设计不一定被解释为比其他实施例或设计更优选或更有利。术语“至少一个”和“一个或多个”可以理解为包括大于或等于一的任何整数,即一、二、三、四等。术语“多个”可以理解为包括大于或等于二的任何整数,即二、三、四、五等。术语“连接”可以包括间接“连接”和直接“连接”两者。术语“大约”、“基本上”、“近似”及其变体旨在包括与基于提交申请时可用设备的特定量的测量相关联的误差程度。例如,“大约”可以包括给定值的±8%或5%或2%的范围。为了简洁起见,本文可以详细描述或不详细描述与制造和使用本专利技术的各方面相关的传统技术。特别地,计算系统的各个方面和实施本文描述的各个技术特征的特定计算机程序是众所周知的。因此,为了简洁起见,许多传统的实施细节在本文仅被简要提及或者被完全省略,而没有提供众所周知的系统和/或过程细节。现在转到与本专利技术的各方面更具体相关的技术的概述,下面描述的方法和系统可以有利地被各种人工智能系统采用,这些人工智能系统被赋予回答问题的任务。在这种系统中,在问题和段落中识别各种类型的句法/语义关系通常是有利的。这在识别通常对应于相同语义的不同句法模式方面引起了巨大的努力。然而,由于在模式比较过程中可能会遇到大量噪声,因此识别可能与问题回答领域相关的领域特定的句法/语义模式不是一项简单的任务。现在转向本专利技术各方面的概述,本专利技术的一个或多个实施例通过提供一种利用一组可用的QAP(问题、回答、段落)三元组来识别问题和段落中的句法/语义关系的机制来解决现有技术的上述缺点。给定一组QAP,根据本专利技术一些实施例的QA补充系统识别问题中焦点的独特属性(例如,短语“whatpresident”与问题“WhatpresidentsignedtheAffordableCareAct?”中句子的其余部分的关系)来搜索出现在所提供的问题和所提供的段落两者中的句法模式。基于模式之间识别的映射,QA补充系统将识别的模式对合并在一起,并过滤掉语义上无意义的模式。有利地,本专利技术的实施例提供两种不同的合并功能,即精确合并功能和部分合并功能。因此,QA补充系统的实施例采用多步骤模式合并和过滤过程。本专利技术的上述各方面通过提供识别对应于相本文档来自技高网...

【技术保护点】
1.一种用于自动识别相关模式的计算机实施的方法,所述计算机实施的方法包括:/n接收多个问题、回答、段落(QAP)三元组,多个QAP三元组中的每一个包括问题、对所述问题的回答和包含对所述问题的回答的段落;/n解析所接收的多个QAP三元组以生成两个或更多个模式,所述两个或更多个模式中的每一个表示与所述问题和所述回答相关联的两个或更多个句法节点之间的关系;和/n合并所生成的两个或更多个模式以识别语义相关模式的聚类。/n

【技术特征摘要】
20181119 US 16/195,5011.一种用于自动识别相关模式的计算机实施的方法,所述计算机实施的方法包括:
接收多个问题、回答、段落(QAP)三元组,多个QAP三元组中的每一个包括问题、对所述问题的回答和包含对所述问题的回答的段落;
解析所接收的多个QAP三元组以生成两个或更多个模式,所述两个或更多个模式中的每一个表示与所述问题和所述回答相关联的两个或更多个句法节点之间的关系;和
合并所生成的两个或更多个模式以识别语义相关模式的聚类。


2.根据权利要求1所述的计算机实施的方法,还包括:
基于所述合并过滤掉语义上为空的模式。


3.根据权利要求1所述的计算机实施的方法,其中合并所生成的两个或更多个模式还包括执行精确匹配合并。


4.根据权利要求3所述的计算机实施的方法,其中合并所生成的两个或更多个模式还包括执行部分匹配合并。


5.根据权利要求1所述的计算机实施的方法,其中解析所接收的多个QAP三元组包括识别QAP的...

【专利技术属性】
技术研发人员:SA博克斯韦尔KG弗罗斯特SJ弗尼尔KM布雷克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1