一种机器翻译错误检测模型训练方法、装置、设备及介质制造方法及图纸

技术编号:33133628 阅读:32 留言:0更新日期:2022-04-17 00:55
本发明专利技术公开了一种机器翻译错误检测模型训练方法、装置、设备及介质,涉及机器翻译技术领域。该方法通过判断机翻译文是否正确,自动对机翻译文进行翻译错误和翻译正确的打标,并对翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签形成模型训练语句对,通过模型训练语句对对RNN模型进行训练和测试,得到机器翻译错误检测模型,通过机器翻译错误检测模型对机翻译文进行错误检测,提高译后编辑效率,降低负责译后编辑的翻译人员的任务量。低负责译后编辑的翻译人员的任务量。低负责译后编辑的翻译人员的任务量。

【技术实现步骤摘要】
一种机器翻译错误检测模型训练方法、装置、设备及介质


[0001]本专利技术涉及机器翻译
,具体涉及一种机器翻译错误检测模型训练方法、装置、设备及介质。

技术介绍

[0002]机器翻译相对于人工翻译,大大提高了翻译效率,但是其翻译后的译文是否准确还需要通过翻译人员进一步确认,此过程称为译后编辑(Machine Translation Post Editing,MTPE)。当翻译量巨大或者翻译任务紧急时,若仅通过翻译人员完成译后编辑任务,则需要花费较多时间,且译后编辑效率不高。

技术实现思路

[0003]本专利技术所要解决的技术问题为目前仅通过翻译人员完成译后编辑在一些特殊场景如翻译量巨大或翻译任务紧急时效率不高,因此,本专利技术提供一种机器翻译错误检测模型训练方法、装置、设备及介质,对机器翻译的译文进行数据筛选、过滤,减少翻译人员译后编辑的任务量,提高译后编辑效率。
[0004]本专利技术通过下述技术方案实现:
[0005]一种机器翻译错误检测模型训练方法,包括:
[0006]获取机翻译文,通过机翻标签标注模型对机翻译文进行自动打标,得到机翻译文的机翻标签;
[0007]对机翻标签为翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签,形成模型训练语句对;
[0008]按照预设比例将模型训练语句对划分为训练集和测试集;
[0009]将训练集输入到RNN模型中进行训练,得到初始模型;
[0010]将测试集输入到初始模型中进行测试,当输出的结果与输入机翻标签一致,则将初始模型作为机器翻译错误检测模型。
[0011]进一步地,所述通过机翻标签标注模型对机翻译文进行自动打标,包括:
[0012]通过机翻标签标注模型对机翻译文进行数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别,获取翻译准确标签和翻译错误标签,完成对机翻译文的自动打标。
[0013]进一步地,所述数字翻译识别,包括:
[0014]筛选出待翻文本和对应机翻译文中的数字,并将得到的数字统一转换为阿拉伯数字,形成待翻数字组和机翻数字组;
[0015]通过词对齐工具对待翻数字组与机翻数字组进行一致性比较,当待翻数字组与机翻数字组一致,则对机翻译文中数字打上翻译正确的机翻标签;
[0016]当待翻数字组与机翻数字组不一致,则对机翻译文中数字打上翻译错误的机翻标
签;
[0017]所述标点翻译识别,包括:
[0018]识别机翻译文的语种,根据机翻译文的语种选择对应的标点符号库;
[0019]基于选择的标点符号库对机翻译文中的所有标点符号进行识别,根据机翻译文的语种确定目标标点符号库;
[0020]当机翻译文中的标点符号在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译正确的标签;
[0021]当机翻译文中的标点符号不在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译错误的标签。
[0022]进一步地,所述术语翻译识别和拼写翻译识别,包括:
[0023]通过分词工具对待翻文本和机翻译文进行分词,去除停用词,得到待翻词和机翻词;
[0024]通过双语术语词库对待翻词和机翻词进行关联关系查询,当在双语术语词库中查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译正确的机翻标签;当在双语术语词库中没有查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译存疑的机翻标签作为存疑词;
[0025]查询普通词库,对存疑词进行拼写翻译识别,当普通词库中存在与存疑词一致的词,则将存疑词的机翻标签修改为翻译正确的机翻标签;当普通词库中不存在与存疑词一致的词,则将存疑词的机翻标签修改为翻译错误的机翻标签。
[0026]进一步地,所述非译元素指由至少两种类型的字符组成的字符串;
[0027]所述非译元素翻译识别,包括:
[0028]在得到待翻词和机翻词后,对待翻文本和对应的机翻译文进行非译元素识别,获取待翻非译元素和机翻非译元素;
[0029]通过词对齐工具将待翻非译元素和机翻非译元素对齐,当对齐的待翻非译元素和机翻非译元素一致,则对对应的机翻非译元素打上翻译正确的机翻标签;
[0030]当对齐的待翻非译元素和机翻非译元素不一致,则对对应的非译元素打上翻译错误的机翻标签。
[0031]进一步地,所述语法翻译识别,包括:
[0032]通过断句标识对机翻译文进行分句,得到机翻句子;
[0033]对各机翻句子中的每个词进行词性标注,并结合语法分析工具对每个句子进行语法分析,对不符合语法规则的机翻句子打上翻译错误的机翻标签,对符合语法规则的机翻句子打上翻译正确的机翻标签。
[0034]进一步地,所述将训练集输入到RNN模型中进行训练,得到初始模型,包括:
[0035]将训练集中的N个模型训练语句对{(x
(n)
,y
(n)
)}
N
输入到RNN模型中进行训练,将模型中目标函数计算出的概率最大的结果作为模型输出结果,当模型输出结果与语句对中的语言标签一致则停止训练,得到初始模型;
[0036]所述目标函数为:
[0037]L(θ)=∑N log P(y
(n)
|x
(n
);θ)
[0038]式中,x
(n)
表示语句对中第n个待翻文本,y
(n)
表示第n个待翻文本对应的错误的机
翻译文,θ表示模型参数和错误的机翻译文携带的错翻权重。
[0039]一种机器翻译错误检测模型训练装置,包括:
[0040]自动打标模块,用于获取机翻译文,通过机翻标签标注模型对机翻译文进行自动打标,得到机翻译文的机翻标签;
[0041]模型训练语句对获取模块,用于对机翻标签为翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签,形成模型训练语句对;
[0042]模型训练语句对划分模块,用于按照预设比例将模型训练语句对划分为训练集和测试集;
[0043]模型训练模块,用于将训练集输入到RNN模型中进行训练,得到初始模型;
[0044]模型测试模块,用于将测试集输入到初始模型中进行测试,当输出的结果与输入机翻标签一致,则将初始模型作为机器翻译错误检测模型。
[0045]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述机器翻译错误检测模型训练方法。
[0046]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述机器翻译错误检测模型训练方法。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译错误检测模型训练方法,其特征在于,包括:获取机翻译文,通过机翻标签标注模型对机翻译文进行自动打标,得到机翻译文的机翻标签;对机翻标签为翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签,形成模型训练语句对;按照预设比例将模型训练语句对划分为训练集和测试集;将训练集输入到RNN模型中进行训练,得到初始模型;将测试集输入到初始模型中进行测试,当输出的结果与输入机翻标签一致,则将初始模型作为机器翻译错误检测模型。2.根据权利要求1所述的机器翻译错误检测模型训练方法,其特征在于,所述通过机翻标签标注模型对机翻译文进行自动打标,包括:通过机翻标签标注模型对机翻译文进行数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别,获取翻译准确标签和翻译错误标签,完成对机翻译文的自动打标。3.根据权利要求2所述的机器翻译错误检测模型训练方法,其特征在于,所述数字翻译识别,包括:筛选出待翻文本和对应机翻译文中的数字,并将得到的数字统一转换为阿拉伯数字,形成待翻数字组和机翻数字组;通过词对齐工具对待翻数字组与机翻数字组进行一致性比较,当待翻数字组与机翻数字组一致,则对机翻译文中数字打上翻译正确的机翻标签;当待翻数字组与机翻数字组不一致,则对机翻译文中数字打上翻译错误的机翻标签;所述标点翻译识别,包括:识别机翻译文的语种,根据机翻译文的语种选择对应的标点符号库;基于选择的标点符号库对机翻译文中的所有标点符号进行识别,根据机翻译文的语种确定目标标点符号库;当机翻译文中的标点符号在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译正确的标签;当机翻译文中的标点符号不在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译错误的标签。4.根据权利要求1所述的机器翻译错误检测模型训练方法,其特征在于,所述术语翻译识别和拼写翻译识别,包括:通过分词工具对待翻文本和机翻译文进行分词,去除停用词,得到待翻词和机翻词;通过双语术语词库对待翻词和机翻词进行关联关系查询,当在双语术语词库中查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译正确的机翻标签;当在双语术语词库中没有查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译存疑的机翻标签作为存疑词;查询普通词库,对存疑词进行拼写翻译识别,当普通词库中存在与存疑词一致的词,则将存疑词的机翻标签修改为翻译正确的机翻标签;当普通词库中不存在与存疑词一致的
词,则将存疑词的机翻标签修改为翻译错误的机翻标签。5.根据权利要求4所述的机器翻译错误检测模型训练方法,其特征在于,所述非译元素指由至少两种类型的字符组成的字符串;所述非译元素翻译识别,包括:在得到待翻词...

【专利技术属性】
技术研发人员:廖富林李明张马成
申请(专利权)人:成都优译信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1