开放式实体及其类型识别方法技术

技术编号:8563049 阅读:166 留言:0更新日期:2013-04-11 04:43
开放式实体及其类型识别方法,涉及一种实体及其类型识别方法,为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括:一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。

【技术实现步骤摘要】

本专利技术涉及一种实体及其类型识别方法,特别涉及一种。
技术介绍
自然语言文本中的实体是承载信息的重要语言单位,实体的识别和分析在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。1995年MUC-6会议第一次引入了命名实体的概念,主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类,包括人名、地名、机构名、时间、日期、货币和数量等。从应用需求看,传统命名实体的类别是远远不够的。例如产品名(如诺基亚N97)、会议名(如20国集团伦敦峰会)、疾病名(如甲型HlNl流感)、赛事名(如2010南非世界杯)等在商务、新闻、医药和体育领域都非常重要。虽然命名实体细分类方面已经有一些工作。自动内容抽取评测 ACE-2007 (Automatic Content Extraction)把实体分为七大类(Person, Location,Organization,Geo-Political Entity,Facility,Vehicle和Weapon)、45小类;Sekine andNobata设计了 4级共200个类别。但是不同应用需要不同命名实体分类体系,这些实体的类型更多、更细,而且有些实体类别是未知、或者是随时间演化的,不可能固定一种统一的分类体系。开放式实体的抽取和类型识别可以扩展和细化传统的实体类型,具有更加广泛的应用价值。由于传统的命名实体类别已经不能满足实际应用的需要,于是人们开始研究传统命名实体之外的实体识别。一般采用弱指导的方法抽取获得实体知识库资源,然后利用这些资源识别对应的实体。Ni等人基于Linked Open Data (LOD)对开放域的实体划分类别,利用了 LOD资源库中已存在的实体类别信息对未知的实体进行开放分类。但对于中文缺少这样的L0D,因此本课题将基于大规模的互联网语料,采用弱指导的模式匹配的方法抽取实体的类别,并可以构建出类似于本文LOD的实体类别层次知识库。Jain和Pennacchiotti介绍了一种基于模式匹配和聚类的方法从搜索引擎查询日志中抽取开放式实体。张慧城介绍了几种抽取互联网半结构化列表中实体的方法。但并非所有的实体都存在规范化的列表式网页,因此该方法并不能覆盖所有类型的实体。Mikr OS等人提出了一种从互联网数据中抽取开放式实体描述定义的方法,但未对实体的类型进行识别。齐振宇等人从句子结构出发,通过分类器得到含有命名实体的碎片序列,抽取文本中的中文开放式命名实体。但该文献也没有对获得的命名实体的类型进行识别,仅划分了边界。卡塞拉等人提供了与提供小组件有关的方法、计算机程序产品以及系统,所述小组件基于根据提取器所定义的模式提取的实体来生成内容。但需要用户参与抽取模式的设定,而本项目所使用的方法无需用户参与。Evans提出了一种开放域英文命名实体识别的方法框架。首先选取首字母大写的词串作为命名实体候选;然后构建启发式的Query到搜索引擎中检索上位词;在对上位词聚类,并打上类别标签作为实体类别;再对实体候选进行分类,完成开放域命名实体的识另IJ,但是中文无字母大写等信息。所以目前采用弱指导方法的实体识别方法还存在上述一些缺陷。
技术实现思路
本专利技术的目的是为了解决目前采用弱指导方法的实体识别方法存在上述缺陷的问题,本专利技术提供一种。本专利技术的一种,步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。本专利技术的优点在于,在边界识别时,利用训练语料资源的获取和统计模型形成方法以及特征的选取,命名实体知识库资源的获取及有效利用等;由于很难构建数量充足且类型完备的训练语料,本专利技术将结合开放域实体的特点,将重点研究弱指导的实体类型获取方法。此外,实体抽取和类型识别获得的结果可以按层次组织起来,形成实体语义知识库,即模式库。本专利技术实现对各种类型的实体的识别和分类,突破传统实体识别的局限性,并在此基础上构建一个大规模的实体类型层次的实例集,更好地为信息抽取、信息检索、机器翻译等上层应用提供支持。而本专利技术的方法面向整个互联网文本,覆盖范围更广。本专利技术将既进行边界划分,也进行类型识别。由于中文无字母大写等信息,所以本专利技术用机器学习的方法进行实体边界的识别,然后再采用步骤四模式匹配的方法识别其类别,并充分利用互联网信息的高冗余性保证准确率,并将构建实体层次知识库。附图说明图1为本专利技术所述的的流程示意图。图2为本专利技术所述的中的基于模式匹配的方法进行实体的语义类抽取流程示意图。图3为本专利技术所述的中的一种知识库的结构示意图。具体实施例方式具体实施方式一结合图1说明本实施方式,本实施方式所述的,步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。开放域实体和传统命名实体相比有以下两个特点类型更多,且不限定。例如包括药品名、产品名、电影名、书名、音乐名等等,很难由人工制定完备。类型更细,且有层次。例如传统命名实体包括机构名,但在开放域实体中机构名还可能继续细分,比如分为政府机关、学校、企业、球队、军队等更细的子类别。实体边界识别的训练语料可以使用人工标注,但耗时耗力。因此,本实施方式采用自动构建的方法,例如“Root可口可乐公司成立于1892年,总部设在美国乔亚洲亚特兰大。”中的“可口可乐”和“公司”这个依存对,它们之间的依存关系为修饰关系,方向由“公司”指向“可口可乐”,因此它表示“可口可乐”依存于“公司”。通过这样的依存关系等确定实体的边界,生成实体边界识别的训练语料。由于依存树库中的依存关系完全采用人工标注,准确度比自动得到的依存关系要高很多。而依存关系对于实体边界确定具有很大的帮助,这也是本实施方式使用该依存树库自动构建训练语料最重要的动机。在生成训练语料后,选取合适的统计机器学习方法,即条件随机域(ConditionalRandomField)模型,和有效的特征,训练模型。语义类抽取通常有基于模式匹配和基于分布相似性两种方法。有研究结果表明模式匹配方法更适合专有名词类语义类的抽取;分布相似性方法更适合动词、形容词等常用词语义类的抽取。本实施方式主要研究开放式命名实体的类别的抽取,即抽取命名实体的上位词,更适合使用模式匹配的方法。本实施方式的步骤一中所述汉语依存关系树库选择哈尔滨工业大学社会计算与信息检索实验中心人工标注的6万句汉语依存关系树库(HIT-1R Dependency Treebank)。具体实施方式二 结合图2说明本实施方式,本实施方式是对具体实施方式一所述的的进一步限定,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用种子集中的实例〈实体,类型〉在大规本文档来自技高网
...

【技术保护点】
开放式实体及其类型识别方法,其特征在于,它包括如下步骤:步骤一:通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二:利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三:查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四:基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。

【技术特征摘要】
1.开放式实体及其类型识别方法,其特征在于,它包括如下步骤步骤一通过依存句法关系信息和汉语依存关系树库,自动构建训练语料;步骤二 利用训练语料的有效特征训练条件随机域模型形成统计模型,所述统计模型自动识别出实体的边界;步骤三查询实例集中是否存在步骤二中所述实体,若存在,输出所述实体及对应的类型,结束;若不存在,则转入步骤四;步骤四基于模式匹配的方法进行实体的语义类抽取,扩充实例集,转入步骤三。2.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用种子集中的实例〈实体,类型〉在大规模生语料中抽取出模式,对所述模式进行过滤,选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中;利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例 <实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例〈实体,类型 > 进行过滤,选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体,类型 > 扩充到种子集中,M、N、1、J均为正整数。3.根据权利要求1所述的开放式实体及其类型识别方法,其特征在于,步骤四中的基于模式匹配的方法进行实体的语义类抽取,扩充实例集的方法为利用模式库中的模式在大规模生语料中抽取出新的实例〈实体,类型 >,所述新的实例 <实体,类型 > 中的实体为步骤二中所述实体,将所述新的实例〈实体,类型 > 扩充到实例集中,然后对所述实例集中的实例进行过滤,选择出现频率较高的I个、被多个模式匹配到的置...

【专利技术属性】
技术研发人员:秦兵付瑞吉刘挺
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1