开放式实体及其类型识别方法技术

技术编号：8563049 阅读：166 留言：0更新日期：2013-04-11 04:43

开放式实体及其类型识别方法，涉及一种实体及其类型识别方法，为了解决目前采用弱指导方法的实体识别方法存在一些缺陷的问题。它包括：一：通过依存句法关系信息和汉语依存关系树库，自动构建训练语料；二：利用训练语料的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界；三：查询实例集中是否存在步骤二中所述实体，若存在，输出所述实体及对应的类型，结束；若不存在，则转入步骤四；四：基于模式匹配的方法进行实体的语义类抽取，扩充实例集，转入步骤三。它用于教学实验中。它用于识别开放式实体及其类型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种实体及其类型识别方法，特别涉及一种。
技术介绍
自然语言文本中的实体是承载信息的重要语言单位，实体的识别和分析在信息抽取、开放域问答、信息检索以及机器翻译等领域都占有非常重要的地位。1995年MUC-6会议第一次引入了命名实体的概念，主要是要识别出文本中出现的专有名称和有意义的数量短语并加以归类，包括人名、地名、机构名、时间、日期、货币和数量等。从应用需求看，传统命名实体的类别是远远不够的。例如产品名(如诺基亚N97)、会议名(如20国集团伦敦峰会)、疾病名(如甲型HlNl流感)、赛事名(如2010南非世界杯)等在商务、新闻、医药和体育领域都非常重要。虽然命名实体细分类方面已经有一些工作。自动内容抽取评测 ACE-2007 (Automatic Content Extraction)把实体分为七大类(Person, Location,Organization,Geo-Political Entity,Facility,Vehicle和Weapon)、45小类；Sekine andNobata设计了 4级共200个类别。但是不同应用需要不同命名实体分类体系，这些实体的类型更多、更细，而且有些实体类别是未知、或者是随时间演化的，不可能固定一种统一的分类体系。开放式实体的抽取和类型识别可以扩展和细化传统的实体类型，具有更加广泛的应用价值。由于传统的命名实体类别已经不能满足实际应用的需要，于是人们开始研究传统命名实体之外的实体识别。一般采用弱指导的方法抽取获得实体知识库资源，然后利用这些资源识别对应的实体。Ni等人基于Linked Open D...

【技术保护点】
开放式实体及其类型识别方法，其特征在于，它包括如下步骤：步骤一：通过依存句法关系信息和汉语依存关系树库，自动构建训练语料；步骤二：利用训练语料的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界；步骤三：查询实例集中是否存在步骤二中所述实体，若存在，输出所述实体及对应的类型，结束；若不存在，则转入步骤四；步骤四：基于模式匹配的方法进行实体的语义类抽取，扩充实例集，转入步骤三。

【技术特征摘要】
1.开放式实体及其类型识别方法，其特征在于，它包括如下步骤步骤一通过依存句法关系信息和汉语依存关系树库，自动构建训练语料；步骤二利用训练语料的有效特征训练条件随机域模型形成统计模型，所述统计模型自动识别出实体的边界；步骤三查询实例集中是否存在步骤二中所述实体，若存在，输出所述实体及对应的类型，结束；若不存在，则转入步骤四；步骤四基于模式匹配的方法进行实体的语义类抽取，扩充实例集，转入步骤三。2.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，步骤四中的基于模式匹配的方法进行实体的语义类抽取，扩充实例集的方法为利用种子集中的实例〈实体，类型〉在大规模生语料中抽取出模式，对所述模式进行过滤，选择出现频率较高的N个、抽取实例较多的M个模式扩充到模式库中；利用模式库中的模式在大规模生语料中抽取出新的实例〈实体，类型 >，所述新的实例 <实体，类型 > 中的实体为步骤二中所述实体，将所述新的实例〈实体，类型 > 扩充到实例集中，然后对所述实例集中的实例〈实体，类型 > 进行过滤，选择出现频率较高的I个、被多个模式匹配到的置信度较高的J个的实例〈实体，类型 > 扩充到种子集中，M、N、1、J均为正整数。3.根据权利要求1所述的开放式实体及其类型识别方法，其特征在于，步骤四中的基于模式匹配的方法进行实体的语义类抽取，扩充实例集的方法为利用模式库中的模式在大规模生语料中抽取出新的实例〈实体，类型 >，所述新的实例 <实体，类型 > 中的实体为步骤二中所述实体，将所述新的实例〈实体，类型 > 扩充到实例集中，然后对所述实例集中的实例进行过滤，选择出现频率较高的I个、被多个模式匹配到的置...

【专利技术属性】
技术研发人员：秦兵，付瑞吉，刘挺，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人