用于识别自然语言文件中的整体-部分关系的语义处理器制造技术

技术编号:4577381 阅读:211 留言:0更新日期:2012-04-11 18:40
一种用于自动识别至少一个自然语言的电子或数字文件中的整体-部分关系的语义处理器和方法执行以下操作:识别文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。

【技术实现步骤摘要】
【国外来华专利技术】
本申请涉及用于从电子或数字形式的文件中进行自动知识识别和提取的系统和方法,所识别和提取的知识反映出宾语/概念之间和外部世界事实/主语域之间的整体-部分(Whole-Part)语义关系。
技术介绍
下列美国专利文件对本申请所涉及的领域进行了描述1995年5月向Ito颁发的美国专利No. 5,418,889(下文中用Ito表示);1997年12月向Hitachi颁发的美国专利No. 5, 696, 916(下文中用Hitachi表示);2000年2月向Liddy等颁发的美国专利No. 6, 026, 388 (下文中用Liddy表示);2001年2月向Boguraev等颁发的美国专利No. 6, 185, 592 (下文中用Boguraev 1表示);2001年4月向Boguraev颁发的美国专利No. 6, 212, 494(下文中用Boguraev 2表示);2001年7月向Paik等颁发的美国专利No.6,263,335(下文中用Paik表示);2004年6月向Kim等颁发的美国专利No. 6, 754, 654(下文中用Kim表示);2004年11月向Davies等颁发的美国专利No. 6, 823, 325(下文中用Davies表示);以及2005年3月向Binnig等颁发的美国专利No. 6, 871, 199 (下文中用Binnig表示)。 知识库和知识工程是现代信息系统和相应技术的关键组成部分。知识工程通常基于从不同知识领域中的专家获得的信息的归纳。然而,分析表明,该方法无法用来创建足够的实际生活(工业)应用。存在两个问题第一,这种知识的最可靠且最有效的来源是什么;以及第二,如何对这些知识进行识别、提取并随后进行形式化(formalize)。分析表明,在如今这个全球计算机化的时代,最可靠的知识来源是广义文字的文本,也就是作为一组自然语言文件(书籍、文章、专利、报告等)的文本。因此,考虑到第二个问题,知识工程的基本前提如下 1.文本是知识表示的理想的自然和智能模型; 2.可以在文本中找到一切 第二个前提可能看起来过于绝对,但随着对文本范围进行扩大的趋势,这越来越符合实际。 从文本中能够获得什么类型的知识?通过什么自动方法来实现? 一些现有的方法将目标放在具有严格的结构且是人工编译的数据库和具有严格定义的字段的文本上。通常会对文本进行浅显的语言分析。Kim对处理具有严格结构的文本(主要是电子邮件)进行了描述。Kim的处理从源文件的预先已知的字段中提取相应的信息并将这些信息置于反映组织结构的数据库(DB)(例如,具有组织内的个人的名字和头衔的字段的DB)的预先定义的字段中。Kim中描述的语言处理只用于根据所谓的过滤器从文件中提取关键项。 Davies描述了对文本进行词法和语法分析,以便区分名词与动词,并以这种方式根据how、why、what和what is的关系在预先定义和构造的数据库中进行非常明确的搜索。 Bi皿ig还描述了分形层次网络形式的预先构造的数据库(即,知识数据库)的使 用,其反映了外部世界(知识领域)的知识,以便自动扩展来自输入串的信息。首先,使用 语义处理器对输入串(例如,语句的部分或整个语句等等)进行处理,该语义处理器执行句 法和语法的解析和变换,以构建输入网络。该网络随后被浸入到知识数据库中,以通过 关于宾语及其关系和定语的外部世界的模型,对作为某种记录的输入信息和输入信息随后 的扩展进行扩展。 Boguraev 1描述了深入的文本分析的执行,其中,对于文本段,基于它们的使用频 率以加权语义角色对最重要的名词组进行标记。 所有上述情况都关注于概念相关的特定知识。这是可以从文本中提取的入门级知 识。 Boguraev 2描述了以计算机为媒介的语言分析的使用,其用于创建
中的关键术语的分类,并且还确定技术功能(动词_宾语)的实行者(处理者)。 Hitachi描述了使用预先定义的概念字典的系统,该概念字典具有高_低关系,也就是概念之间的泛化(is-a)关系和部分-整体关系。 Liddy将类似的技术用于信息搜索系统中的用户询问扩展。 Ito描述了包括因果模型库和设备模型(device model)库的知识库的使用。设备 模型库具有多组设备知识,这些设备知识描述目标机器的设备的分层。因果模型库是在设 备模型库的基础上形成的,且具有多组目标机器中的故障事件的因果关系。因此,设备的每 个部件中发生故障的可能原因是根据关于该部件与设备中的其它部件的结构连接的信息 来猜测的。通常,最紧密连接的部件被确定为所述原因。 Paik描述了不依赖于域(domain-ind印endent)且自动建立其自己的主语知识库 的系统。该系统识别概念(任何命名的实体或想法,比如人、地点、事物或组织)以及它们 之间的关系。这些关系允许创建概念_关系_概念三元组。因此,Paik中识别的知识 接近于下一重要的知识等级——事实(主语_动作_宾语),尽管它们还不是适于识别像整 体_部分关系这样的重要语义关系的事实。 事实上,以上方法都没有教导或提出对电子文件或数字信息中的文本进行处理, 以确定宾语/概念之间和外部世界事实/主语域之间的整体_部分语义关系。
技术实现思路
根据本专利技术的方案,提供了一种用于自动识别自然语言文件中的整体-部分关系 的方法。所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个 或更多扩展主语-动作-宾语(eSA0)集,其中,每个eSAO集具有一个或更多eSA0成分;将 所述一个或更多eSAO集与整体_部分关系模式进行匹配;以及基于所述匹配来生成一个或 更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。 所述一个或更多eSAO成分可以是来自于包括下列元素的组的一个或更多元素 主语、宾语、动作、形容词、介词、间接宾语和副词。 所述整体eSAO可以包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO 集的单个eSAO成分的一部分;并且所述部分eSAO可以包括所述eSAO成分中的一个或更 多,或所述一个或更多eSAO集的单个eSAO成分的一部分。 所述eSA0整体-部分关系可以包括顺序运算符,所述顺序运算符将所述整体eSAO 的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指 示符中的一个或更多。 所述方法还可以包括对所述文本的至少部分应用词性标签,以生成所述文本的 标签部分;以及对所述文本的标签部分进行解析,以生成所述文本的解析标签部分,其中, 识别所述文本中的eSAO集是对所述文本的解析标签部分执行。 应用词性标签可以是对所述文本的预格式化部分执行,由此,所述文本的预格式 化部分包括移除了非自然语言符号的文本。 将所述一个或更多eSAO集与整体_部分关系模式进行匹配可以包括对单个eSAO 集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括生成单个 eSAO整体-部分关系。 将所述一个或更多eSAO集与整体_部分关系模式进行匹配可以包括对一对eSAO 集进行匹配,并且基于所述匹配来生成一个或更多eSAO整体-部分关系可以包括基于对所 述一对eSAO集进行匹配来本文档来自技高网
...

【技术保护点】
一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括:提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。

【技术特征摘要】
【国外来华专利技术】US 2007-3-15 11/686,660一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。2. 根据权利要求1所述的方法,其中,所述一个或更多eSAO成分是来自于包括下列元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。3. 根据权利要求1所述的方法,其中所述整体eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且所述部分eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。4. 根据权利要求2所述的方法,其中,所述eSAO整体-部分关系包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。5. 根据权利要求1所述的方法,还包括对所述文本的至少部分应用词性标签,以生成所述文本的应用标签的部分;以及对所述文本的所应用标签的部分进行解析,以生成所述文本的解析且应用标签的部分,其中,识别所述文本中的eSAO集是对所述文本的所解析且应用标签的部分执行的。6. 根据权利要求5所述的方法,其中,应用词性标签是对所述文本的预格式化部分执行的,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。7. 根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对单个eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括生成单个eSAO整体-部分关系。8. 根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对一对eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。9. 根据权利要求1所述的方法,其中,将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括访问整体_部分模式数据库,所述整体_部分模式数据库是通过包括以下步骤的方法生成的识别文本文件的语料库中的eSAO集;生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;识别所述语句中的整体_部分关系的特定情况;将整体_部分关系的所述特定情况归纳成eSA0整体-部分模式;以及将所述eSAO整体-部分模式存储在所述整体_部分模式数据库中。10. 根据权利要求i所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作_宾语(eSAO)集包括访问语言知识库,所述语言知识库具有对eSAO成分进行定义的数据库。11. 根据权利要求l所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。12. —种用于通过自动识别自然语言文件中的整体_部分关系来生成整体_部分知识库的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO ;以及将所述一个或更多eSAO整体-部分关系存储在所述整体_部分知识库中。13....

【专利技术属性】
技术研发人员:J托德亨德I索夫佩尔D帕斯塔诺豪A沃龙佐夫A韦特尔
申请(专利权)人:发明机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1