当前位置: 首页 > 专利查询>长安大学专利>正文

基于成分分析的英语语料自动提取方法和提取器技术

技术编号:13621001 阅读:74 留言:0更新日期:2016-08-31 14:00
本发明专利技术公开了一种基于成分分析的英语语料自动提取方法和提取器,目的在于:通过对成分分析,能够快速提取英语中的所有语料,且提高提取语料准确率,所采用的技术方案为:一种基于成分分析的英语语料自动提取器,包括断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。

【技术实现步骤摘要】

本专利技术属于计算语言学和翻译
,涉及一种基于成分分析的英语语料自动提取方法和提取器
技术介绍
在自然语言处理领域,语言检索的工具和技术进展很快,语块识别的技术也从人工识别进入了机器识别。语块检索技术的起点是从语料库中提取连续的、固定的词串,经过几年的发展,已逐步达到了其高级阶段:提取非连续的可变的语块。本文从语料库研究的角度,分别从连续的语块和非连续的语块两个方面,对英语的语块识别与检索技术和工具进行归纳和评述。借助语料库检索手段对学术词汇在信息工程英语语料库中的使用频率和分布特征进行了统计与分析。研究显示学术词汇在信息工程英语语料库中的覆盖率达10.39%,学术词汇对于信息工程学科的适用性得到了验证。在此基础上,对目前普遍采用的语料库高频学术词汇提取方法进行了比较,针对现有方法的不足提出了专业英语高频学术词汇提取的优化策略,从570个学术词族中提取出248个信息工程英语高频学术词族,为开展专业学术英语词汇教学提供了客观依据,显著提高了专业学术词汇教学的针对性。多词表达(MWE)不仅用来提高当前机器翻译系统质量,而且也用于跨语言检索和数据挖掘等其他自然语言处理领域。为此,提出了基于语义模板与基于统计工具相结合的方法从三元组可比语料库中自动提取本族英语MWE。采用基于词表和分布方法计算词语间的相似度,扩大MWE覆盖范围。利用GIZA++对齐算法提取对译的中文MWE,依据统计方法计算互译概率信息,根据概率大小,选择最佳英汉MWE互译对,实验结果表明上述方法可以有效提高MWE提取和对齐的准确率。成分分析法是一种融合宏观和微观的系统化的分析方法,适用于包涵多种评估要素的翻译质量评估。基于成分分析法,将翻译质量评估分为“目的语表达”、“文本功能”、“原文内容(非专业性)”和“原文内容(专业性)及术语”四个成分,依据文本类型,设定各成分比重、等级及分值,可实现对译本的定性与定量相结合的评估,使得翻译质量评估更客观、更有可操作性。从语义成分分析的角度出发,探讨了英汉词语的对应关系并试图将成分分析理论用于翻译实践,在尽可能准确传达词语意义的同时使译文更符合翻译的“信达切”三原则。但是现有的英语成分分析更多的研究局限在人工翻译和教学方面,很少和计算机技术结合;语料库的研究专注于语料库本身结构和应用前景的研究上,关于具体适用的语料库建设涉及较少;英语成分分析方法没有用于语料库建设。
技术实现思路
为了解决现有技术中的问题,本专利技术提出一种通过对成分分析,能够快速提取英语中的所有语料,且提取语料准确率高的基于成分分析的英语语料自动提取方法和提取器。为了实现以上目的,本专利技术所采用的技术方案为:一种基于成分分析的英语语料自动提取器,包括:断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。一种基于成分分析的英语语料自动提取方法,包括以下步骤:1)打开英语文本,利用断句模块根据分句规则,对英语文本进行分句,得到若干个句子;2)利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性;然后每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并;最后短语
合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;3)利用语料导出模块将所有标记识别出的名词短语导出形成语料列表。所述的步骤1)中断句模块根据标点符号规则,定义句子终止符,遇到终止符判断为句尾,将英语文本切分为若干个句子。所述的断句模块需要对英文句号判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符。所述的步骤1)中采用通用读文件模块获取英语文本,Word文档调用Word的Com接口获取文本,excel文档调用excel的Com接口获取文本。所述的步骤2)中成分分析模块从词库取到每个单词的词性,若单词的词性唯一则该单词词性确定;若单词存在多词性,则结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性。所述的步骤3)中语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行。与现有技术相比,本专利技术断句模块根据分句规则,对英语文本进行分句得到若干个的句子,再利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性,每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并,短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别,利用语料导出模块将所有标记识别出的名词短语导出形成语料列表,本专利技术基于英语成分分析,通过英语成分分析,得到所以的一级成分,进一步判断该一级成分是否是一个名词短语,如果是,就是一条语料;通过对每个一级成分进行内部成分分析,得到所有的内部成分,进一步判断该内部成分是否是一个名词短语,如果是,就是一条语料,输出所有分析
出的名词短语,即得到所需语料,本专利技术的英语成分分析是一种基于词库和规则库的英语成分分析方法,规则的成熟和完备能够保证更高的成分分析准确率,从而能够缩减翻译时间,提高翻译效率。本专利技术能够快速提取英语中的所有语料,成分分析正确率高,从而使语料准确率越大,能够广泛应用于自然语言研究和翻译辅助工具的开发。进一步,断句模块根据标点符号规则,定义句子终止符,将需要翻译的材料切分为句子,遇到终止符判断为句尾,对于英文句号需要判断是否为缩略词标点,词库中包含缩略词,在词库中搜索句号及句号之前单词,如能搜索到则为缩略词标点,则忽略不作为句子终止符,进一步提高了分句处理的准确性,提高了翻译效率。进一步,成分分析模块从词库取到单词的词性,如果词性唯一则该单词词性已经确定,如果存在多词性单词,结合句子其它单词,进行词性识别,最终确定该单词在句中的唯一词性。如冠词+形容词+待确定词性单词,待确定词性单词具有名词词性和动词词性,则确定该单词为名词词性,词性的识别规则由专业语言学人员编制,并对规则设定优先级,程序调用规则库匹配最优的规则,对没匹配的单词则选择默认词性。进一步,语料导出模块对语料列表进行排序,并从后往前遍历,若相邻两行语料字符相同,则为重复,删除后一行,通过排序和去重,方便了后续翻译工作,避免了重复工作,提高了翻译效率。具体实施方式下面结合具体的实施例对本专利技术作进一步的解释说明。一种基于成分分析的英语语料自动提取器,包括:断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。一种基于成分分析的英语语料自动提取方法,包括以下步骤:1)采用通用读文件模块获取英语文本,Word文档调用Word的Com接口获取文本,excel文档调用excel的Com接口获取文本,利用断句模块根据分句规则,对英语文本进行分句本文档来自技高网
...

【技术保护点】
一种基于成分分析的英语语料自动提取器,其特征在于,包括:断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。

【技术特征摘要】
1.一种基于成分分析的英语语料自动提取器,其特征在于,包括:断句模块,用于将英语文本切分为若干个句子;成分分析模块,用于对每个句子进行成分分析,得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;以及语料导出模块,用于将所有标记识别出的名词短语导出形成语料列表。2.一种基于成分分析的英语语料自动提取方法,其特征在于,包括以下步骤:1)打开英语文本,利用断句模块根据分句规则,对英语文本进行分句,得到若干个句子;2)利用成分分析模块首先将每个句子拆解成若干个的单词,检索词库确定句中每个单词的词性;然后每个单词的词性确定后进行短语识别;其次短语识别后进行短语合并;最后短语合并完成后根据语法规则最终得到所有句子的一级成分和一级成分的内部成分,并将所有成分中的名词短语进行标记识别;3)利用语料导出模块将所有标记识别出的名词短语导出形成语料列表。3.根据权利要求2所述的一种基于成分分析的英语语料自动提取方法,其特征在于,所述的步骤1)中断句模块根据标点符号规则,定义句子终止符,遇到终止符...

【专利技术属性】
技术研发人员:白晓文陈春纬刘庆
申请(专利权)人:长安大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1