提供同义词的上下文验证的方法和系统技术方案

技术编号:11513066 阅读:119 留言:0更新日期:2015-05-27 20:04
本发明专利技术涉及提供同义词的上下文验证的方法和系统。在此描述的实施例提供用于在本体驱动的自然语言处理中验证同义词的方法。具体地,提供方法用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合中的类的集合、将令牌指定为相关置换集合中的一个置换中的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。

【技术实现步骤摘要】
提供同义词的上下文验证的方法和系统
此专利技术一般涉及本体驱动的自然语言处理(NLP),以及更具体地涉及在本体驱动的NLP中提供同义词的上下文验证。
技术介绍
自然语言文本中的常见问题是欠规范(under-specification)。例如,当人们同另一个人说话时,存在一个允许理解特定语境单词和短语的共享语境。当用户与专家系统交互时,也期望有共享语境。但是,因为欠规范和缺乏共享语境,对计算机来说理解语言有时候很困难。目前,NLP可以被用于实现先进的在线问题应答服务。NLP提供尝试理解和识别语言的句法结构的技术。例如,NLP已经被用于识别提交的句子中一个或多个术语的词类(thepartsofspeech),以支持将句子用作对数据的自然语言查询。但是,即使数据是高度组织的,使用NLP对数据进行解析和处理查询可能由于关键词中的歧义而遭受性能问题。本体驱动的NLP解析自然语言文本并且将其变换为它的意思表示,所述表示是围绕事件和它的参与者来组织的。查询可以接着被匹配到在文本中生成(surface)的预期的任何置换的意思表示。但是,这些变换也可能遭受欠规范,其中必须假定恰当语境以理解声明或者查询。关于假定语境的这种歧义有时导致不准确和不期望的结果。
技术实现思路
通常,在此描述的实施例提供用于在本体驱动的NLP中验证同义词的方案。具体地,提供方案用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。本专利技术的一个方面包括一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的方法,所述方法包括计算机实现的以下步骤:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。本专利技术的另一个方面包括一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的系统,所述系统包括:包含指令的存储器介质;耦接到存储器介质的总线;以及通过总线耦接到NLP引擎的处理器,当处理器执行指令时使得系统:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。本专利技术的再一个方面提供一种存储有计算机指令的计算机可读存储设备,当指令被执行时使得计算机系统能够在本体驱动的自然语言处理中提供同义词的上下文验证,所述计算机指令包括:接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。附图说明图1示出了根据说明性实施例的示例性计算环境的原理图;图2示出了根据说明性实施例的示例性NLP引擎以及其实现的原理图;图3示出了根据说明性实施例的包含一个或多个令牌的示例性用户输入的集合;图4示出了根据说明性实施例的语义模型;图5示出了根据说明性实施例的重新组织的语义模型;以及图6示出了根据说明性实施例的用于在本体驱动的自然语言处理中提供同义词的上下文验证的处理流程。所述附图不必是按比例的。所述附图仅仅是代表,并不旨在描绘本专利技术的具体参数。所述附图旨在仅描述本专利技术的典型实施例,并且因此不应当被认为限制于范围。在所述附图中,相似的附图标记代表相似的元件。具体实施方式参考其中示出示例性实施例的附图,本专利技术在此会被更详细地描述。本公开可以以多种不同形式实现并且不应该被解释为限制到在这里提出的示例性实施例。相反,提供这些示例性实施例以便本公开会变得彻底和完整并且会完全将本公开内容传达给本领域技术人员。在说明书,可以省略公知的特征和技术的细节,以避免不必要地模糊所提出的实施例。贯穿本说明书提及的“一个实施例”“某一实施例”或者类似语言意指结合所述实施例描述的特定特征、结构或者特性被包括在本专利技术的至少一个实施例中。因此,贯穿此说明书出现的短语“在一个实施例中”“在某一实施例中”以及类似语言可以但不是必须全部参考同样的实施例。此外,在此使用的术语仅用作描述特定实施例的目的并且不旨在被限制于此公开。如在此使用的,单数形式“一”“一个”以及“这个”旨在也包括复数形式,除非上下文另外清晰指出。此外,术语“一”“一个”等的使用不表示数量的限制,而是指示存在至少一个所述的参考项目。将要进一步理解,当在本说明书中使用时,术语“包含”或者“包括”详细说明了所述特征、区域、完整部分(interger)、步骤、操作、元件、和/或组件的存在,但是不排除存在或者添加一个或多个其他特征、区域、完整部分、步骤、操作、元件、组件、和/或其的聚合。除非另外明确声明,可以认识到诸如“处理”、“计算”、“确定”、“评价”、或类似的术语涉及计算机或计算系统、或类似电子数据中心设备的动作和/或过程,此动作把表示为计算系统的寄存器和/或存储器内的物理量(例如电子)的数据操纵和/或转换为其他类似的表示为计算系统的存储器、寄存器或其他此类信息存储、传递或预览设备内的物理量。所述实施例不限于此上下文。如在本申请中使用的,在此使用的单词“示例性”意指充当例子、实例、或说明。在此描述为“示例性”的任何方面或设计不必被解释为优选于或者优于其他方面或设计。相反,使用单词“示例性”旨在以简要方式表达概念。如以上提及的,在此描述的实施例提供一种用于在本体驱动的NLP中验证同义词的方案。具体地,提供方案用于接收包含令牌的用户输入、把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合中的类的集合、将令牌指定为相关置换集合中的一个置换的同义词、用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌、以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。在一种实施例中,通过量化所述令牌和同样在用户输入内的上下文令牌之间的线性距离,以及将所述线性距离与预定的线性距离限制比较来确定准确性。作为结果,恰当的语义本体术语可以被识别用于丰富搜索查询,其使用语义注释形式来辅助解决本体术语歧义并且增加本体关键术语中的置信程度。现在参考图1,本专利技术的计算机化的实现100会以更多细节被描述。如所本文档来自技高网...
提供同义词的上下文验证的方法和系统

【技术保护点】
一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的方法,所述方法包括计算机实现的以下步骤:接收包含识别自然语言文本单元的令牌的自然语言文本的用户输入;把用户输入组织成语义模型,所述语义模型包含其中每个都含有所述令牌的相关置换集合的类的集合;将令牌指定为相关置换集合中的一个置换的同义词;用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌;以及通过确定将令牌指定为相关置换集合中的所述一个置换的同义词的准确性来验证所述令牌的注释。

【技术特征摘要】
2013.11.20 US 14/084,8271.一种用于在本体驱动的自然语言处理中提供同义词的上下文验证的方法,所述方法包括计算机实现的以下步骤:接收包含识别自然语言文本单元的令牌的自然语言文本的用户输入;把用户输入组织成语义模型,所述语义模型包含类的集合,其中每个类都含有所述令牌的相关置换集合;将令牌指定为相关置换集合中的一个置换的同义词;用对应于相关置换集合中的所述一个置换的类的集合中的一个类来注释所述令牌;将用户输入内的线性距离量化为所述令牌和上下文令牌之间的单词数量;将量化的线性距离与预定单词数量的线性距离限制比较;如果基于所述比较,所述量化的线性距离位于所述预定单词数量的线性距离内,为所述令牌的注释分配高置信度并基于所述高置信度验证所述令牌的注释;如果基于所述比较,所述量化的线性距离不位于所述预定单词数量的线性距离内,为所述令牌的注释分配低置信度。2.根据权利要求1所述的方法,其中预定的线性距离限制是用户定义的。3.根据权利要求1所述的方法,验证所述令牌的注释还包括重组织语义模型以包括知识结构,所述知识结构包含上下文令牌、线性距离、预定的线性距离限制、以及将令牌指定为相关置换集合中的一个置换的同义词。4.根据权利要求1所述的方法,其中所述线性距离对应于令牌量。5.根据权利要求1所述的方法,还包括解析用户输入的计算机实现的步骤。6.一种...

【专利技术属性】
技术研发人员:S·J·爱德华茨A·M·纳萨尔C·M·特里穆A·T·翁
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1