一种采用上下文特征匹配的中文机构名简称识别系统技术方案

技术编号:10420897 阅读:169 留言:0更新日期:2014-09-12 11:47
本发明专利技术公开了一种采用上下文特征匹配的中文机构名简称识别系统,该系统首先训练得到干扰词上下文特征与机构名上下文特征的相交特征集以及机构名独有特征集;然后利用这些特征对机构名简称进行识别;最后通过建立干扰词表与扩展操作,对机构名简称进行筛选。本发明专利技术的有益效果在于识别简称时不依赖机构名全称,也不依赖机构名简称的组成形式,只利用机构名的上下文特征就可以对机构名简称进行识别。

【技术实现步骤摘要】
一种采用上下文特征匹配的中文机构名简称识别系统
本专利技术涉及自然语言处理
,具体地说是一种基于上下文特征的机构名简称识别系统。
技术介绍
命名实体识别已经成为自然语言处理中的一项基本任务,在信息抽取、句法分析、机器翻译工作中,担任着重要的角色。命名实体中的人名、地名、机构名是最重要的三类,目前,前两种的识别研究已经非常广泛细致,对机构名进行准确、高效的识别具有重要意义。在文本中,简称是一种普遍存在的语法现象,但是由于机构名简称的组成形式多样、规律性不强、同一全称可能有多个简称等特点,导致对其识别困难重重。目前来看,机构名简称识别方法可以分为两类一基于规则的方法和基于统计的方法。但是无论是哪一种识别方法,机构名简称的获得都依赖于全称,如果语料中不包含机构名简称对应的全称,那么该机构名简称将无法被识别。另外,默认组成简称的汉字也都来自于全称并且与在全称中的顺序保持一致,这就造成不符合上述条件的简称难以被识别。如“成电”是“电子科技大学”的简称,因为“成”并不是全称中的汉字,所以简称“成电”将不会被识别。又如“北医三院”是“北京大学第三医院”的简称,“医”和“三”的顺序与在全称中不一致,因此“北医三院”也很难被识别。
技术实现思路
本专利技术的目的是针对现有技术中的缺陷而提供的一种采用上下文特征匹配的中文机构名简称识别系统,该系统既不依赖机构名全称知识库,也不依赖机构名简称的组成形式,而是利用机构名的上下文特征对机构名简称进行识别。实现本专利技术目的的具体技术方案是: 一种采用上下文特征匹配的中文机构名简称识别系统,该系统包括训练模块及识别模块,其中: 所述训练模块:以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表; 所述识别模块:以与训练集不同的新闻语料作为测试集,在测试集中采用机构名上下文特征匹配算法对机构名简称识别;首先,在错误率W的取值范围下,使用相交特征集与机构名独有特征集中的特征与句子进行匹配,识别候选机构名简称;然后,使用final-words去除掉候选机构名简称中的干扰词,得到较准确的机构名简称;最后,利用扩展操作,召回文中部分未被识别出的简称。所述训练模块中训练得到机构名的上下文特征,具体包括: I)训练得到机构名的三种上下文特征:前特征、后特征、弱可信特征对,机构名的上下文特征由词语以及词性组成;以某一新闻语料库词性标注为准则认定标记为名词η、名语素Ng、成语i词性的词语具有实际含义,被定义为强特征,标记为助词U、介词p词性的词语不具备实际的含义,被定义为弱特征;把出现在机构名上文的强特征定义为前特征,出现在机构名下文的强特征定义为后特征;把上下文都是弱特征的词语当作一个特征,定义为弱特征对;机构名上下文特征是由前特征、后特征和弱特征对3类特征构成;只选择紧跟在机构名前后的一个词语作为上下文特征;2)将成语、动名词词语作为干扰词,以所述I)同样形式获得干扰词的3类上下文特征;3)将机构名的3类上下文特征分别与干扰词的3类上下文特征相交,相交的部分为相交特征集,在机构名的特征集中除去相交部分就是机构名独有特征集;每一个相交特征的错误率W根据公式(I)得出,每一个机构名独有特征的错误率w为O ;本文档来自技高网...

【技术保护点】
一种采用上下文特征匹配的中文机构名简称识别系统,其特征在于该系统包括训练模块及识别模块,其中:所述训练模块:以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表;所述识别模块:以与训练集不同的新闻语料作为测试集,在测试集中采用机构名上下文特征匹配算法对机构名简称识别;首先,在错误率的取值范围下,使用相交特征集与机构名独有特征集中的特征与句子进行匹配,识别候选机构名简称;然后,使用final‑words去除掉候选机构名简称中的干扰词,得到较准确的机构名简称;最后,利用扩展操作,召回文中部分未被识别出的简称。

【技术特征摘要】
1.一种采用上下文特征匹配的中文机构名简称识别系统,其特征在于该系统包括训练模块及识别模块,其中: 所述训练模块:以某一新闻语料作为训练集,从训练集训练得到机构名的上下文特征即相交特征集与机构名独有特征集以及干扰词表; 所述识别模块:以与训练集不同的新闻语料作为测试集,在测试集中采用机构名上下文特征匹配算法对机构名简称识别;首先,在错误率w的取值范围下,使用相交特征集与机构名独有特征集中的特征与句子进行匹配,识别候选机构名简称;然后,使用final-words去除掉候选机构名简称中的干扰词,得到较准确的机构名简称;最后,利用扩展操作,召回文中部分未被识别出的简称。2.根据权利要求1所述的识别系统,其特征在于所述训练模块中训练得到机构名的上下文特征,具体包括: 1)训练得到机构名的三种上下文特征:前特征、后特征、弱可信特征对,机构名的上下文特征由词语以及词性组成;以某一新闻语料库词性标注为准则认定标记为名词η、名语素Ng、成语i词性的词语具有实际含义,被定义为强特征,标记为助词U、介词P词性的词语不具备实际的含义,被定义为弱特征;把出现在机构名上文的强特征定义为前特征,出现在机构名下文的强特征定义为后特征;把上下文都是弱特征的词语当作一个特征,定义为弱特征对;机构名上下文特征是由前特征、后特征和弱特征对3类特征构成;只选择紧跟在机构名前后的一个词语作为上下文特征; 2)将成语、动名词词 语作为干扰词,以所述I)同样形式获得干扰词的3类上下文特征; 3)将机构名的3类上下文特征分别与干扰词的3类上下文特征相交,相交的部分为相交特征集,在机构名的特征集中除去相交部分就是机构名独有特征集;每一个相交特征的错误率W根据公式(I)得出,每一个机构名独有特征的错误率W为O ; 3.根据权利要求1所述的识别系统,其特征在于所...

【专利技术属性】
技术研发人员:杨静郝娟潘云裴逸钧杜泽宇
申请(专利权)人:华东师范大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1