一种从文本数据中提取中文命名实体的方法技术

技术编号:4234481 阅读:412 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种从文本数据中提取中文命名实体的方法,该方法包括以下步骤:中文词语切分;中文停用词去除;分析中文分词结果中命名实体错误类型及原因;针对错误类型及原因分别制定修正规则;根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集;该发明专利技术方法提高命名实体提取准确率,并且能保证提取效率;适用于网络信息处理、网络数据挖掘及信息安全等领域,可以为后期的各种处理提供良好的预处理基础。

【技术实现步骤摘要】

本专利技术涉及网络信息抽取与信息处理领域,尤其是涉及一种从文本数据中提取中文命名实体的方法
技术介绍
随着网络的普及,网页文本作为一种重要的信息载体,承载了大部分的网络信息。 此处所述的命名实体指的是网页文本中的人名、地名、组织机构名、时间等短语,这些短语 都是文本中基本的信息元素,往往指示了文章的主要内容,是正确理解文本的基础。因此, 命名实体的有效提取对于高效获取网页信息具有非常重要的意义。例如,在信息抽取中如 果没有先提取实体,根本就不可能识别实体关系,也不可能抽取事件模版;在文摘生成中, 很多时候是对固定模式的填充,填充内容大都是"谁"、"什么时候"、"在哪里"等等,这正是 命名实体的内容,因此从文章中获取这些内容就离不开命名实体的提取。因此,命名实体的 准确提取是文本理解的前提,是文本信息处理领域所有后续工作的基础。然而,命名实体提 取工作的困难在于在真实文本中文句子不是以词为单位的,而是以字为单位。为了降低中 文命名实体提取的复杂度,常常把分词信息用于中文命名实体提取中,但是分词的错误在 命名实体提取过程中如果无法得到纠正,会导致错误蔓延。命名实体提取的错误主要分为 两类第一类错误是命名实体边界判断错误。这种错误的一种情况是丢失了原本属于命名 实体的部分,一般发生在提取长度比较长或者结构比较复杂的地名和机构名的时候。例如 把"塔那那利佛机场"提取为"塔那那利佛",丢失了 "机场"这个后缀。另一种情况就是把 本不属于这个命名实体的字或词包含了进来;例如把"万县港组织30多只船投入抢救工 作"这句话中的地名"万县港"认为是机构名"万县港组织"。第二类错误是命名实体类型判 断错误,例如把地名"刘庄"误识为人名。这种错误的发生一般都是因为两种命名实体可 能在特征上有相似的地方。如上例中地名"刘庄"中的也是人名的姓氏之一,所以造成了这 种错误。
技术实现思路
有鉴于此,本专利技术的目的在于提供, 提高命名实体提取准确率,并且能保证提取效率。 为达到上述目的,本专利技术采用以下技术方案 本专利技术的从文本数据中提取中文命名实体的方法包括以下步骤 a.中文词语切分; b.中文停用词去除; c.分析中文分词结果中命名实体错误类型及原因; d.针对错误类型及原因分别制定修正规则; e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体 进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;3 f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。 进一步,d步骤中所述的修正规则包括合并规则、同指人名提取规则、边界修正规 则和类型修正规则。 进一步,所述的合并规则,即将中文分词结果中本应同属一个实体而被错误切分 为两个或多个词语进行合并为一个实体;所述同指人名提取规则,即找到文本中指代同一 个人名的词并进行统一标记;所述边界修正规则,即修正命名实体提取时丢失了自身一部 分的错误,如果是地名丢失后缀,则建立相应的地名后缀词库来提供修正信息;所述类型修 正规则,即修正命名实体提取时的类型判断错误。 本专利技术的有益效果是 本专利技术的方法是在中文分词的基础上,针对命名实体提取时出现的错误类型和及 原因,提出的一种实用化的中文命名实体提取方法;该方法根据分析中文命名实体出现的 规律,提出建立若干条规则,这些规则可以有针对性的对命名实体提取中出现的错误进行 有效修正;然后通过验证对各条规则进行优化筛选,形成最优规则库,对中文命名实体提取 中出现的错误进行修正,最终实现中文命名实体的有效提取;本专利技术在命名实体提取中抛 开一些繁琐的算法,在基于规则命名实体提取方法中加入对规则的分析及由此而制定的修 正规则,来修正中文分词结果中的错误,同时根据标注标准实时对修正规则进行不断调整, 使得修正规则达到最优,所提取的命名实体结果准确而高效;与传统命名实体提取方法相 比较,本专利技术方法的特点是1、在中文分词的基础上进行,保证了所分析对象是词而不是单 个字,这在基本上保证了实体提取的高效性;2、对实体提取错误类型进行了详细分析,有针 对性的制定修正规则来调整提取错误,这样保证了实体提取的准确性。 本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并 且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可 以从本专利技术的实践中得到教导;本专利技术的目标和其他优点可以通过下面的说明书以及附图 中所特别指出的方式来实现和获得。附图说明 附图为本专利技术方法的操作流程图。 具体实施例方式下面结合附图和实施例对本专利技术作进一步描述。 本专利技术的的新方法首先对命名实体构词规则进行详细分析,然后在对中文分词和停用词去除的基础上,根据实体实例组成结构和上下文环境,制定匹配规则来修正中文分词错误导致的命名实体提取错误,最后将调整结果与标注标准进行比对,对错误实体进一步调整规则来修正,这样不断对规则进行筛选和更新,最后形成最优规则库对命名实体进行提取。结合附图所示,本专利技术的从文本数据中提取中文命名实体的方法包括以下步骤 a.中文词语切分; b.中文停用词去除; c.分析中文分词结果中命名实体错误类型及原因; d.针对错误类型及原因分别制定四种修正规则,即合并规则、同指人名提取规则、边界修正规则和类型修正规则;所述的合并规则,即将中文分词结果中本应同属一个实体 而被错误切分为两个或多个词语进行合并为一个实体;所述同指人名提取规则,即找到文 本中指代同一个人名的词并进行统一标记;所述边界修正规则,即修正命名实体提取时丢 失了自身一部分的错误,如果是地名丢失后缀,则建立相应的地名后缀词库来提供修正信 息;所述类型修正规则,即修正命名实体提取时的类型判断错误。 e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体 进一步对规则修正,并将修正后的规则输入到规则集,更新规则集; f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。 以下进一步详细介绍规则修正的具体内容 由于日期和时间的格式比较固定,可以通过建立有限自动机比较精确地提取,因 此该方法建立的规则主要是用于修正中文人名、地名和机构名提取时发生的一些错误。其 中用于提取命名实体的规则大致可分为四类,下面分别加以描述和说明。 规则类别1 :合并规则 该规则致力于修正命名实体提取中的两种错误 第一种错误命名实体提取过程中存在的把属于一个整体的长命名实体分为几个 连续的短命名实体进行提取。例如把"中国国际广播电台"(机构名)识别为"中国"(地 名)和"国际广播电台"(机构名)两个命名实体。第二种错误属于支配关系的两个连续的命名实体没有进行合并。根据国家基础 资源评测中心的命名实体识别规范中的关于支配结构规则,当两个呈支配关系的命名实体 如果是接续结构则标记为一个。例如"中国台湾"应当标记为一个命名实体,而不应该标 记为"中国""台湾"两个命名实体。 规则类别2 :同指人名提取规则 这个规则旨在找到指代同一人名的词,并统一标记。 中文外国人名的同指判断相对比较容易。 一般外国人名的全称都有" "作为名 和姓的间隔,例如"比尔 克林顿"。所以在识别同指人名的时候,一般都是寻找人名本文档来自技高网
...

【技术保护点】
一种从文本数据中提取中文命名实体的方法,其特征在于,该方法包括以下步骤:a.中文词语切分;b.中文停用词去除;c.分析中文分词结果中命名实体错误类型及原因;d.针对错误类型及原因分别制定修正规则;e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。

【技术特征摘要】

【专利技术属性】
技术研发人员:李弼程张先飞刘路陈刚郭志刚
申请(专利权)人:中国人民解放军信息工程大学
类型:发明
国别省市:41[中国|河南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1