一种基于多维度数据分析和语义的中英语料库校对方法技术

技术编号:15690856 阅读:143 留言:0更新日期:2017-06-24 03:35
本发明专利技术公开了一种基于多维度数据分析和语义的中英语料库校对方法,利用规则机器翻译引擎将语料库中的英语句子翻译成中文;然后此中文和语料库中的中文句子进行匹配;根据匹配率,辅以距离、长度、编号等多维度数据分析特征,找出不匹配的句对,留下准确的句对,从而校对出正确的语料库。本发明专利技术系统性阐述了中英语料库校对所涉及到的内容及其方法;采用多维度数据分析外加语义分析相结合的方法,可保证校对后的语料库既整齐,又正确;采用对语料库进行语义校对的方法,并利用了规则机器翻译引擎的翻译结果。

A method for proofreading Chinese and English Corpus Based on multidimensional data analysis and semantics

The present invention discloses a kind of English in the library checking method of multi dimension data analysis and data based on semantic rules, using the Machine Translation engine in the corpus of English sentences into Chinese; and then match the sentences in the corpus and the Chinese Chinese; according to the matching rate with distance, length, number of multi dimension data analysis features. To find out, not to leave, accurate sentence, and proofreading right corpus. The present invention systematically expounds the contents and methods of English Corpus proofreading involved; the multi dimension data analysis and semantic analysis methods combined, can guarantee the proofreading after corpus both neat and correct,; method of semantic collation of corpus, and use the rule engine Machine Translation translation results.

【技术实现步骤摘要】
一种基于多维度数据分析和语义的中英语料库校对方法
本专利技术属于统计机器翻译
,尤其涉及一种基于多维度数据分析和语义的中英语料库校对方法。
技术介绍
统计机器翻译主要包括翻译模型和语言模型两大部分,其中翻译模型由双语平行语料库训练而来,语言模型由目标语言单语语料训练而来,统计机器翻译引擎的质量在很大程度上取决于用来训练的双语平行语料库的质量。国外有研究表明,经过校对的高质量的1000万句对的双语语料和未经校对的8000万句对的语料所训练出来的引擎翻译质量相当。由于双语平行语料一般数量庞大,动辄数千万甚至上亿句对,而且来源复杂。综上所述,现有技术的存在的问题是:双语平行语料数量来源复杂造成校对不正确和不整齐。
技术实现思路
本专利技术的目的在于提供一种基于多维度数据分析和语义的中英语料库校对方法,旨在解决双语平行语料数量来源复杂造成校对不正确和不整齐的问题。本专利技术是这样实现的,一种基于多维度数据分析和语义的中英语料库校对方法,所述基于多维度数据分析和语义的中英语料库校对方法为:利用规则机器翻译引擎,将语料库中的英语句子翻译成中文;然后此中文和语料库中的中文句子进行匹配;根据匹配率本文档来自技高网...
一种基于多维度数据分析和语义的中英语料库校对方法

【技术保护点】
一种基于多维度数据分析和语义的中英语料库校对方法,其特征在于,所述基于多维度数据分析和语义的中英语料库校对方法为:利用规则机器翻译引擎,将语料库中的英语句子翻译成中文;然后此中文和语料库中的中文句子进行匹配;根据匹配率,辅以距离、长度、编号多维度数据分析特征,找出不匹配的句对,留下准确的句对,从而校对出正确的语料库。

【技术特征摘要】
1.一种基于多维度数据分析和语义的中英语料库校对方法,其特征在于,所述基于多维度数据分析和语义的中英语料库校对方法为:利用规则机器翻译引擎,将语料库中的英语句子翻译成中文;然后此中文和语料库中的中文句子进行匹配;根据匹配率,辅以距离、长度、编号多维度数据分析特征,找出不匹配的句对,留下准确的句对,从而校对出正确的语料库。2.如权利要求1所述的基于多维度数据分析和语义的中英语料库校对方法,其特征在于,所述基于多维度数据分析和语义的中英语料库校对方法具体包括以下步骤:检查英文句子中是否存在汉字,通过汉字内码表,自动取出英文句子中存在汉字的句子;检查英中句子长度是否匹配,计算英文句子的长度和汉语句子的长度的比值,其中英文句子长度就是句子中英文字符的数量,汉语句子长度就是句子中汉字的数量,就是然后设定一个阈值,超出该阈值范围的不匹配,阈值比值范围为:0.4≤阈值比值≤6;检查句子是否超长,计算句子中英文句子的长度和汉语句子的长度,用于统计机器翻译训练的句子中,汉语句子长度大于500或英语句子长度大于800为超长句子,去掉;检查汉语句子中的英文是否太多,计算汉语句子中英文字符的数量,用于统计机器翻译训练的句子,训练出的翻译模型为中英短语对,一个汉语句子中含有非汉字和标点的字符数超过40,将非汉字和标点去掉;检查汉语句子中汉字是否太少,计算汉语句子中汉字的数量,用于统计机器翻译训练的句子,训练出的翻译模型是中英短语对,汉语句子中汉字数量少于2,该句子不合格;检查圆括号是否匹配,首先检查英文句子的圆括号是否配对,然后检查汉语句子的圆括号是否配对,再检查英文句子和汉语句子双方的圆括号是否配对;计算英文句子中左圆括号的数量,再计算英文句子中右圆括号的数量,看两者数量是否相等;计算汉语句子中左圆括号的数量,再计算汉语句子中右圆括号的数量,看两者数量是否相等;计算英语句子中左圆括号的数量,再计算汉语句子中左圆括号的数量,看两者数量是否相等;计算英语句子中右圆括号的数量,再计算汉语句子中右圆括号的数量,看两者数量是否相等;检查方括号是否匹配,首先检查英文句子的方括号是否配对,然后检查汉语句子的方括号是否配对,再检查英文句子和汉语句子双方的方括号是否配对;检查句首项目符号与编号是否匹配,对原文和译文部分句首项目符号与编号不匹配的进行校正;如果原文句首有项目符号与编号,而译文句首没有项目符号与编号,则将原文的句首项目符号与编号删除掉;如果译文句首有项目符号与编号,而原文句首没有项目符号与编号,则将译文的句首项目符号与编号删除掉;检查数字是否正确,检查语料库中数字是否错误,以及检查原译文数字不相匹配的错误;采用查找关键词“C:D:D||C:D:D||C:^D...

【专利技术属性】
技术研发人员:程国艮宋金平
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1