一种从文本数据中提取中文命名实体的方法技术

技术编号：4234481 阅读：412 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种从文本数据中提取中文命名实体的方法，该方法包括以下步骤：中文词语切分；中文停用词去除；分析中文分词结果中命名实体错误类型及原因；针对错误类型及原因分别制定修正规则；根据标注标准语料匹配结果，将正确的命名实体输出，对出现错误的命名实体进一步对规则修正，并将修正后的规则输入到规则集，更新规则集；根据标注标准不断进行规则修正，直到输出结果最优，并确定最优规则集；该发明专利技术方法提高命名实体提取准确率，并且能保证提取效率；适用于网络信息处理、网络数据挖掘及信息安全等领域，可以为后期的各种处理提供良好的预处理基础。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络信息抽取与信息处理领域，尤其是涉及一种从文本数据中提取中文命名实体的方法。
技术介绍
随着网络的普及，网页文本作为一种重要的信息载体，承载了大部分的网络信息。此处所述的命名实体指的是网页文本中的人名、地名、组织机构名、时间等短语，这些短语都是文本中基本的信息元素，往往指示了文章的主要内容，是正确理解文本的基础。因此，命名实体的有效提取对于高效获取网页信息具有非常重要的意义。例如，在信息抽取中如果没有先提取实体，根本就不可能识别实体关系，也不可能抽取事件模版；在文摘生成中，很多时候是对固定模式的填充，填充内容大都是"谁"、"什么时候"、"在哪里"等等，这正是命名实体的内容，因此从文章中获取这些内容就离不开命名实体的提取。因此，命名实体的准确提取是文本理解的前提，是文本信息处理领域所有后续工作的基础。然而，命名实体提取工作的困难在于在真实文本中文句子不是以词为单位的，而是以字为单位。为了降低中文命名实体提取的复杂度，常常把分词信息用于中文命名实体提取中，但是分词的错误在命名实体提取过程中如果无法得到纠正，会导致错误蔓延。命名实体提取的错误主要分为两类第一类错误是命名实体边界判断错误。这种错误的一种情况是丢失了原本属于命名实体的部分，一般发生在提取长度比较长或者结构比较复杂的地名和机构名的时候。例如把"塔那那利佛机场"提取为"塔那那利佛"，丢失了 "机场"这个后缀。另一种情况就是把本不属于这个命名实体的字或词包含了进来；例如把"万县港组织30多只船投入抢救工作"这句话中的地名"万县港"认为是机构名"万县港组织"...

【技术保护点】
一种从文本数据中提取中文命名实体的方法，其特征在于，该方法包括以下步骤：ａ．中文词语切分；ｂ．中文停用词去除；ｃ．分析中文分词结果中命名实体错误类型及原因；ｄ．针对错误类型及原因分别制定修正规则；ｅ．根据标注标准语料匹配结果，将正确的命名实体输出，对出现错误的命名实体进一步对规则修正，并将修正后的规则输入到规则集，更新规则集；ｆ．根据标注标准不断进行规则修正，直到输出结果最优，并确定最优规则集。

【技术特征摘要】

【专利技术属性】
技术研发人员：李弼程，张先飞，刘路，陈刚，郭志刚，
申请(专利权)人：中国人民解放军信息工程大学，
类型：发明
国别省市：41[中国|河南]

全部详细技术资料下载我是这个专利的主人