一种中文句子中并列信息提取方法及装置制造方法及图纸

技术编号:9434579 阅读:110 留言:0更新日期:2013-12-12 00:37
本发明专利技术涉及一种中文句子中并列信息提取方法及装置,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行计算,以概念类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可降低语义分析的复杂度,可对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,可改善和提高译文的翻译效果。

【技术实现步骤摘要】
一种中文句子中并列信息提取方法及装置
本专利技术涉及一种中文信息处理技术,具体是一种中文句子中并列信息提取方法及装置,属于自然语言处理

技术介绍
中文信息处理技术经历了面向词语、面向语法结构、面向短语等几个阶段。现在,中文信息处理技术的热点转向面向语义分析。并列信息是一种语义信息,目前对并列信息的研究还只是对句间并列复合句进行研究。另一种较多的并列信息研究还处于词语级并列研究,如并列式词语、并列式合成词的研究,对并列结构内部构造的粘合性、并列结构中并列项的句法结构和序列也有所研究。苗艳军等提出,并列结构的自动识别对提高句法分析器的性能和工作效率具有重要意义,同时,该识别结果可以直接应用于机器翻译、信息抽取等领域。他们分析了并列结构的相似性,以及边界特征词分布的规则性,探索了基于规则方法的并列结构自动识别,具体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实现自动识别。该方法实现了基于最大熵模型的并列结构自动识别,将并列结构的自动识别转化为一个分类问题,根据连接词的位置分别向左、向右搜索出并列结构的左右边界,并利用校正规则集对识别结果进行校正。这种依赖连接词的左右边界识别的并列信息是一种句内并列信息。且该并列词识别方法基于统计学方法,由于抽取的连接词前后的词语、词性和词形受限,导致后续识别精确度低,识别的边界可能过前或者过后,导致识别出的并列结构残缺、不完整,进而导致后续译文的翻译效果不佳。
技术实现思路
本专利技术所要解决的技术问题是现有基于最大熵模型的并列结构自动识别方法基于统计学基础导致的识别出的并列结构残缺影响后续翻译效果的技术问题,从而提供不依赖于统计学的一种中文句子中并列信息提取方法及装置。为解决上述技术问题,本专利技术是通过以下技术方案实现的:一种中文句子中并列信息提取方法,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;S3:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。所述步骤S1中进一步包括:使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;概念的并列信息候选的生成步骤如下:S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。本专利技术中,还有许多并列信息标注规则,可以通过不断分析语言现象逐步增加,本专利技术没有对所有的并列信息标注规则进行一一说明,也不可能列举所有的并列信息标注规则。同时,提供一种中文句子中并列信息提取装置,包括:分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;并列信息候选获取单元,用于在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;并列信息标注规则集加载单元,用于加载并列信息标注规则集;带并列信息标记的标注文本生成单元,用于从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;并列信息提取输出单元,用于对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。分词单位序列集合获取单元进一步包括:前向最大长度词语构成的分词单位获取单元,用于使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;合并单元,进一步包括:数词短语合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;英文专名合并子单元,用于合并所述分词单位中的单个且连续的阿拉伯数字和英语字母或者合并所述分词单位中的单个且连续的英语字母生成英文专名。所述并列信息候选获取单元进一步包括除概念外的并列信息候选获取子单元和概念的并列信息候选子单元,其中,除概念外的并列信息候选获取子单元,用于使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作本文档来自技高网...
一种中文句子中并列信息提取方法及装置

【技术保护点】
一种中文句子中并列信息提取方法,其特征在于,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;?S3:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出。

【技术特征摘要】
1.一种中文句子中并列信息提取方法,其特征在于,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;S3:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出,所述步骤S1中进一步包括:使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。2.根据权利要求1所述的中文句子中并列信息提取方法,其特征在于,所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤,其中,除概念外的并列信息候选的生成步骤如下:S21:使用停止词表过滤所述分词单位中的高频停止词,并过滤掉所述分词单位的标点符号;S22:使用成词语素表计算所述分词单位的四类并列词形的出现频率,所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字;S23:对出现频率大于一的所述四类并列词形,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,作为所述并列信息侯选;概念的并列信息候选的生成步骤如下:S25:从概念层次网络词语知识库中加载所述分词单位序列集合对应的概念类别序列集合;S26:根据所述分词单位序列集合对应的所述概念类别序列集合中出现频率大于一的概念,记录其在中文句子中开始的位置及所占的长度并存储到数据结构中,生成概念的并列信息侯选。3.根据权利要求2所述的中文句子中并列信息提取方法,其特征在于,所述步骤S23中的所述数据结构为映射表,其键是所述四类并列词形,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述并列词形在中文句子中的开始位置及其所占的长度;所述步骤S26中的所述数据结构为映射表,其键是概念类别,键对应的值是一个动态数组,所述动态数组的每一项用于记录每一类所述概念在中文句子中的开始位置及其所占的长度。4.根据权利要求1-3任一所述的中文句子中并列信息提取方法,其特征在于,所述步骤S3和S4中的并列信息标注规则为产生式规则,进一步包括如下步骤:S41:检测当前所述中文句子是否匹配所述并列信息标注规则集中规则左边的约束;S42:如果匹配成功,根据匹配成功时所指定的分词单位的位置,对所述分词单位序列集合进行标记。5.一种中文句子中并列信息提取装置,其特征在于,包括:分词单位序列集合获取单元,用于对所述中文句子进行处理,得到所述中文句子中的...

【专利技术属性】
技术研发人员:熊文晋耀红朱筠
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1