【技术实现步骤摘要】
一种机器翻译错误检测模型训练方法、装置、设备及介质
[0001]本专利技术涉及机器翻译
,具体涉及一种机器翻译错误检测模型训练方法、装置、设备及介质。
技术介绍
[0002]机器翻译相对于人工翻译,大大提高了翻译效率,但是其翻译后的译文是否准确还需要通过翻译人员进一步确认,此过程称为译后编辑(Machine Translation Post Editing,MTPE)。当翻译量巨大或者翻译任务紧急时,若仅通过翻译人员完成译后编辑任务,则需要花费较多时间,且译后编辑效率不高。
技术实现思路
[0003]本专利技术所要解决的技术问题为目前仅通过翻译人员完成译后编辑在一些特殊场景如翻译量巨大或翻译任务紧急时效率不高,因此,本专利技术提供一种机器翻译错误检测模型训练方法、装置、设备及介质,对机器翻译的译文进行数据筛选、过滤,减少翻译人员译后编辑的任务量,提高译后编辑效率。
[0004]本专利技术通过下述技术方案实现:
[0005]一种机器翻译错误检测模型训练方法,包括:
[0006]获取机翻译文,通过机翻标签标注模型对机翻译文进行自动打标,得到机翻译文的机翻标签;
[0007]对机翻标签为翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签,形成模型训练语句对;
[0008]按照预设比例将模型训练语句对划分为训练集和测试集;
[0009]将训练集输入到RNN模型中进行训练,得到 ...
【技术保护点】
【技术特征摘要】
1.一种机器翻译错误检测模型训练方法,其特征在于,包括:获取机翻译文,通过机翻标签标注模型对机翻译文进行自动打标,得到机翻译文的机翻标签;对机翻标签为翻译错误的机翻译文设置错翻权重,将机翻标签为翻译错误的待翻文本作为源语言,机翻标签为翻译错误的机翻译文及其对应的错翻权重作为语言标签,形成模型训练语句对;按照预设比例将模型训练语句对划分为训练集和测试集;将训练集输入到RNN模型中进行训练,得到初始模型;将测试集输入到初始模型中进行测试,当输出的结果与输入机翻标签一致,则将初始模型作为机器翻译错误检测模型。2.根据权利要求1所述的机器翻译错误检测模型训练方法,其特征在于,所述通过机翻标签标注模型对机翻译文进行自动打标,包括:通过机翻标签标注模型对机翻译文进行数字翻译识别、标点翻译识别、术语翻译识别、非译元素翻译识别、语法翻译识别和拼写翻译识别,获取翻译准确标签和翻译错误标签,完成对机翻译文的自动打标。3.根据权利要求2所述的机器翻译错误检测模型训练方法,其特征在于,所述数字翻译识别,包括:筛选出待翻文本和对应机翻译文中的数字,并将得到的数字统一转换为阿拉伯数字,形成待翻数字组和机翻数字组;通过词对齐工具对待翻数字组与机翻数字组进行一致性比较,当待翻数字组与机翻数字组一致,则对机翻译文中数字打上翻译正确的机翻标签;当待翻数字组与机翻数字组不一致,则对机翻译文中数字打上翻译错误的机翻标签;所述标点翻译识别,包括:识别机翻译文的语种,根据机翻译文的语种选择对应的标点符号库;基于选择的标点符号库对机翻译文中的所有标点符号进行识别,根据机翻译文的语种确定目标标点符号库;当机翻译文中的标点符号在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译正确的标签;当机翻译文中的标点符号不在对应的目标标点符号库中,则对机翻译文中的标点符号打上翻译错误的标签。4.根据权利要求1所述的机器翻译错误检测模型训练方法,其特征在于,所述术语翻译识别和拼写翻译识别,包括:通过分词工具对待翻文本和机翻译文进行分词,去除停用词,得到待翻词和机翻词;通过双语术语词库对待翻词和机翻词进行关联关系查询,当在双语术语词库中查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译正确的机翻标签;当在双语术语词库中没有查询到待翻词和机翻词存在匹配关系,则对对应的机翻词打上翻译存疑的机翻标签作为存疑词;查询普通词库,对存疑词进行拼写翻译识别,当普通词库中存在与存疑词一致的词,则将存疑词的机翻标签修改为翻译正确的机翻标签;当普通词库中不存在与存疑词一致的
词,则将存疑词的机翻标签修改为翻译错误的机翻标签。5.根据权利要求4所述的机器翻译错误检测模型训练方法,其特征在于,所述非译元素指由至少两种类型的字符组成的字符串;所述非译元素翻译识别,包括:在得到待翻词...
【专利技术属性】
技术研发人员:廖富林,李明,张马成,
申请(专利权)人:成都优译信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。