计算机自然语言处理中通用本体的词元映射制造技术

技术编号:16048965 阅读:19 留言:0更新日期:2017-08-20 08:40
在语言之间映射本体的方法可以包括接收第一语言的第一本体,其中第一本体包括第一多个词元以及所述多个词元之间的多个关系。所述方法还可以包括接收第二语言的第二多个词元,并且将第二语言的所述第二多个词元中的每一个词元映射到第一语言的所述第一多个词元中的相应词元。所述方法可以附加地包括通过使用第一本体中的所述多个关系创建第二语言的所述第二多个词元之间的关系来生成第二语言的第二本体。

【技术实现步骤摘要】
【国外来华专利技术】计算机自然语言处理中通用本体的词元映射交叉引用本申请要求于2014年11月10日提交的标题为“AutomaticBatchGenerationofConceptRelationsfromN-GramsfromLinguisticInputData”的美国临时申请No.62/077,868的权益。本申请还要求美国临时2014年11月10日提交的标题为“LemmaMappingtoUniverasalOntologies”的美国临时申请号62/077,887的权益。为了所有目的,这些申请中的每一个都通过引用并入本文。以下三个申请彼此相关,并于2015年7月7日在同一天提交:FabriceNauze等人于2015年7月7日提交的标题为“AutomaticGenerationofN-GramsandConceptRelationsFromLinguisticInputData”的美国序列号14/793,677,(代理人案号88325-934160);MargaretSalome等人于2015年7月7日提交的标题为“AutomaticOntologyGenerationforNatural-LanguageProcessingApplications”的美国序列号14/793,701(代理人案号88325-913826);以及FabriceNauze等人于2015年7月7日提交的标题为“LemmaMappingtoUniversalOntologiesinComputerNatural-LanguageProcessing”的美国序列号14/793,658(代理人案号88325-934161)。这些申请中的每一个通过引用并入本文。
技术介绍
在一般意义上,本体(ontology)是对基本概念及其彼此关系的哲学研究。本体处理涉及哪些实体可以说成是存在、这些实体如何在层次结构中被逻辑地分组在一起以及什么相似性和/或差异可以被用来彼此隔离本体概念组的问题。在计算机和信息科学中,一般本体转化为特定计算领域中根本存在的类型、属性和关系的命名和定义。例如,本体可以划分计算的集合所需的变量并建立这些变量之间的关系。
技术实现思路
在一个实施例中,在语言之间映射本体的方法可以包括接收第一语言的第一本体,其中第一本体包括第一多个词元(lemma)以及这多个词元之间的多个关系。该方法还可以包括接收第二语言的第二多个词元,并且将第二语言的第二多个词元中的每一个映射到第一语言的第一多个词元中的相应词元。该方法可以附加地包括通过使用第一本体中的多个关系创建第二语言的第二多个词元之间的关系来生成第二语言的第二本体。在另一个实施例中,可以给出非暂态计算机可读介质。计算机可读存储器可以包括指令序列,当指令序列由一个或多个处理器执行时,使得这一个或多个处理器执行操作,包括接收第一语言的第一本体,其中第一本体由第一多个词元以及这多个词元之间的多个关系组成。操作还可以包括接收第二语言的第二多个词元,并且将第二语言的第二多个词元中的每一个映射到第一语言的第一多个词元中的相应词元。操作可以附加地包括通过使用第一本体中的多个关系创建第二语言的第二多个词元之间的关系来生成第二语言的第二本体。在另一个实施例中,可以给出系统。系统可以包括一个或多个处理器和与这一个或多个处理器通信耦合并且可被其读取的存储器。存储器可以包括指令序列,当指令序列被一个或多个处理器执行时,使得这一个或多个处理器执行操作,包括接收第一语言的第一本体,其中第一本体由第一多个词元以及这多个词元之间的多个关系组成。操作还可以包括接收第二语言的第二多个词元,并且将第二语言的第二多个词元中的每一个映射到第一语言的第一多个词元中的相应词元。操作可以附加地包括通过使用第一本体中的多个关系创建第二语言的第二多个词元之间的关系来生成第二语言的第二本体。附图说明可以通过参考说明书的其余部分和附图来实现对本专利技术的本质和优点的进一步理解,其中贯穿几个附图使用相同的标号来表示相似的组件。在一些情况下,子标签与标号相关联,以表示多个相似组件中的一个。当在没有指定现有子标签的情况下引用标号时,意在指所有此类多个相似组件。图1示出了根据一些实施例的用在自然语言处理中的本体的图。图2A示出了根据一些实施例的用于生成两个不同本体的并行语言分析流水线。图2B示出了根据一些实施例的使用通用本体的语言分析流水线。图2C示出了根据一些实施例的使用词元翻译的语言分析流水线。图3A示出了根据一些实施例的在词元映射期间的本体的图。图3B示出了根据一些实施例的在关系映射期间的本体的图。图4A示出了根据一些实施例的用于使用同义词数据库生成本体的系统。图4B示出了根据一些实施例的用于使用语言翻译服务数据库生成本体的系统。图5示出了根据一些实施例的用于生成用在自然语言处理中的本体的方法的流程图。图6示出了用于实现一些实施例的分布式系统的简化框图。图7示出了由实施例系统的组件提供的服务可以通过其作为云服务提供的系统环境的组件的简化框图。图8示出了其中可以实现各种实施例的示例性计算机系统。具体实施方式一般而言,本体、层次结构和分类法常常用在搜索系统和信息检索系统中,以改善查全(recall)。例如知道“BMW”是“汽车品牌”可以提高搜索任务的查全率、提高分类任务的精度,等等。本体通常被构建为特定于语言的模块,首先将词形链接到词元,然后利用本体/层次结构关系将该词元与其它词元链接。但是,如本文所述,在本体中将词元链接在一起的关系可以被抽象为很大程度上与语言无关的模块。在本文所述的实施例中,给出实现这种抽象的方法,使得可以基于第一语言中的现有本体在第二语言中形成本体。在一些实施例中,处理可以通过选择或定义第一本体开始。被称为“基础事实”或“通用”本体的第一本体可以用通用语言(诸如英语)形成。第一本体可以描述被编码为词元的概念之间的关系。然后,该处理可以利用在输入语料库的分段/记号化之后触发的语言分析流水线、词性分析以及其记号的词元化。然后,这个处理可以定义第一本体中的词元(以及可选地其词性)到第二本体中的词元的映射。通过使用通用本体来映射用于每种语言的词元和关系,实现新语言本体所需的时间被最小化,并且跨语言的整体质量可以被提高,因为本体的质量不绑定到特定语言中对关系进行编码的人的工作。在一些实施例中,该处理可以构建与语言无关的本体作为第一本体。第一本体包括被编码为词元的概念之间的关系。例如,“tandem”是“bicycle”,并且“bicycle”是“vehicle”。接下来,该处理可以接收与第一本体的第一语言不同的第二语言的选择。第二语言可以是用于第二本体的期望语言。接下来,该处理可以生成第一语言和第二语言中的词之间的映射。该处理还可以利用跨语言映射常见含义的数据库。这个映射可以是通用的,使得第一语言中的词被映射到第二语言中的对应词,或者可以更具体,使得词性(PoS)之间的映射被促进。例如,通用映射可以导致“词元(第二语言)->词元(第一语言)”,而特定于词性的映射可以导致“PoS+词元(第二语言)->词元(第一语言)”。在第一语言和第二语言之间映射词元之后,所映射的词元可以被传递到语言分析流水线中的下一步。具体而言,然后第一本体本文档来自技高网
...
计算机自然语言处理中通用本体的词元映射

【技术保护点】
一种在语言之间映射计算机域本体的方法,所述方法包括:使用计算机系统接收第一语言的第一本体,其中第一本体由第一多个词元和所述多个词元之间的多个关系组成;使用所述计算机系统接收第二语言的第二多个词元;使用所述计算机系统将第二语言的所述第二多个词元中的每一个词元映射到第一语言的所述第一多个词元中的相应词元;及使用所述计算机系统,通过使用第一本体中的所述多个关系创建第二语言的所述第二多个词元之间的关系来生成第二语言的第二本体。

【技术特征摘要】
【国外来华专利技术】2014.11.10 US 62/077,868;2014.11.10 US 62/077,887;1.一种在语言之间映射计算机域本体的方法,所述方法包括:使用计算机系统接收第一语言的第一本体,其中第一本体由第一多个词元和所述多个词元之间的多个关系组成;使用所述计算机系统接收第二语言的第二多个词元;使用所述计算机系统将第二语言的所述第二多个词元中的每一个词元映射到第一语言的所述第一多个词元中的相应词元;及使用所述计算机系统,通过使用第一本体中的所述多个关系创建第二语言的所述第二多个词元之间的关系来生成第二语言的第二本体。2.如权利要求1所述的方法,其中第一本体包括与语言无关的本体,所述与语言无关的本体编码由所述第一多个词元表示的概念之间的关系。3.如权利要求1所述的方法,其中所述第二多个词元是从第二语言的web域的版本生成的。4.如权利要求3所述的方法,其中所述第一多个词元是从第一语言的所述web域的版本生成的。5.如权利要求1所述的方法,其中所述第二多个词元包括在语料库中出现至少预定次数的小于预定长度的n元语法。6.如权利要求1所述的方法,其中第一本体的所述多个关系被直接插入第二本体。7.如权利要求1所述的方法,其中将第二语言的所述第二多个词元中的每一个词元映射到第一语言的所述第一多个词元中的相应词元包括将第二语言的所述第二多个词元翻译成第一语言。8.一种包括指令的非暂态计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下操作:接收第一语言的第一本体,其中第一本体由第一多个词元和所述多个词元之间的多个关系组成;接收第二语言的第二多个词元;将第二语言的所述第二多个词元中的每一个词元映射到第一语言的所述第一多个词元中的相应词元;及通过使用第一本体中的所述多个关系创建第二语言的所述第二多个词元之间的关系来生成第二语言的第二本体。9.如权...

【专利技术属性】
技术研发人员:F·诺兹G·J·克鲁斯特曼A·D·E·委德拉尔
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1