【技术实现步骤摘要】
【国外来华专利技术】
本申请涉及用于从电子或数字形式的文件中进行自动知识识别和提取的系统和方法,所识别和提取的知识反映出宾语/概念之间和外部世界事实/主语域之间的整体-部分(Whole-Part)语义关系。
技术介绍
下列美国专利文件对本申请所涉及的领域进行了描述1995年5月向Ito颁发的美国专利No. 5,418,889(下文中用Ito表示);1997年12月向Hitachi颁发的美国专利No. 5, 696, 916(下文中用Hitachi表示);2000年2月向Liddy等颁发的美国专利No. 6, 026, 388 (下文中用Liddy表示);2001年2月向Boguraev等颁发的美国专利No. 6, 185, 592 (下文中用Boguraev 1表示);2001年4月向Boguraev颁发的美国专利No. 6, 212, 494(下文中用Boguraev 2表示);2001年7月向Paik等颁发的美国专利No.6,263,335(下文中用Paik表示);2004年6月向Kim等颁发的美国专利No. 6, 754, 654(下文中用Kim表示);2004年11月向Davies等颁发的美国专利No. 6, 823, 325(下文中用Davies表示);以及2005年3月向Binnig等颁发的美国专利No. 6, 871, 199 (下文中用Binnig表示)。 知识库和知识工程是现代信息系统和相应技术的关键组成部分。知识工程通常基于从不同知识领域中的专家获得的信息的归纳。然而,分析表明,该方法无法用来创建足够的实际生活(工业)应用。存在两个问题第一,这种知识的最可 ...
【技术保护点】
一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括:提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。
【技术特征摘要】
【国外来华专利技术】US 2007-3-15 11/686,660一种用于自动识别自然语言文件中的整体-部分关系的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体-部分关系模式进行匹配;以及基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO。2. 根据权利要求1所述的方法,其中,所述一个或更多eSAO成分是来自于包括下列元素的组的一个或更多元素主语、宾语、动作、形容词、介词、间接宾语和副词。3. 根据权利要求1所述的方法,其中所述整体eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分;并且所述部分eSAO包括所述eSAO成分中的一个或更多,或所述一个或更多eSAO集的单个eSAO成分的一部分。4. 根据权利要求2所述的方法,其中,所述eSAO整体-部分关系包括顺序运算符,所述顺序运算符将所述整体eSAO的eSAO成分关联到所述部分eSAO的eSAO成分,所述运算符包括词法、语法和语义语言指示符中的一个或更多。5. 根据权利要求1所述的方法,还包括对所述文本的至少部分应用词性标签,以生成所述文本的应用标签的部分;以及对所述文本的所应用标签的部分进行解析,以生成所述文本的解析且应用标签的部分,其中,识别所述文本中的eSAO集是对所述文本的所解析且应用标签的部分执行的。6. 根据权利要求5所述的方法,其中,应用词性标签是对所述文本的预格式化部分执行的,由此,所述文本的预格式化部分包括移除了非自然语言符号的文本。7. 根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对单个eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括生成单个eSAO整体-部分关系。8. 根据权利要求1所述的方法,其中将所述一个或更多eSAO集与整体_部分关系模式进行匹配包括对一对eSAO集进行匹配;并且基于所述匹配来生成一个或更多eSAO整体-部分关系包括基于对所述一对eSAO集进行匹配来生成单个eSAO整体-部分关系。9. 根据权利要求1所述的方法,其中,将所述一个或更多eSAO集与整体-部分关系模式进行匹配包括访问整体_部分模式数据库,所述整体_部分模式数据库是通过包括以下步骤的方法生成的识别文本文件的语料库中的eSAO集;生成语句的语料库,其中,每个语句包含所识别的eSAO集中的至少一个;识别所述语句中的整体_部分关系的特定情况;将整体_部分关系的所述特定情况归纳成eSA0整体-部分模式;以及将所述eSAO整体-部分模式存储在所述整体_部分模式数据库中。10. 根据权利要求i所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作_宾语(eSAO)集包括访问语言知识库,所述语言知识库具有对eSAO成分进行定义的数据库。11. 根据权利要求l所述的方法,其中,识别所述文本中的一个或更多扩展主语-动作-宾语(eSAO)集包括识别所述文本的一个或更多语句中的主语、宾语、动作、形容词、介词、间接宾语和副词中的一个或更多。12. —种用于通过自动识别自然语言文件中的整体_部分关系来生成整体_部分知识库的方法,所述方法包括提供来自至少一个自然语言文件的文本;识别所述文本中的一个或更多扩展主语_动作_宾语(eSAO)集,其中,每个eSAO集具有一个或更多eSAO成分;将所述一个或更多eSAO集与整体_部分关系模式进行匹配;基于所述匹配来生成一个或更多eSAO整体-部分关系,其中,所述eSAO整体-部分关系包括整体eSAO和部分eSAO ;以及将所述一个或更多eSAO整体-部分关系存储在所述整体_部分知识库中。13....
【专利技术属性】
技术研发人员:J托德亨德,I索夫佩尔,D帕斯塔诺豪,A沃龙佐夫,A韦特尔,
申请(专利权)人:发明机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。