【技术实现步骤摘要】
生成翻译模型的方法和装置
本公开的实施例涉及计算机
,具体涉及生成翻译模型的方法和装置。
技术介绍
随着语音识别技术和机器翻译技术的不断成熟,出现了很多面向语音的翻译产品,如翻译机、会议同传等,同时语音翻译不同于文本翻译,存在着严重的口语化问题。机器翻译技术需要从大量的双语语料中学习翻译规律,从而对于给定的源语言句子,翻译模型能够自动给出合适的译文。因为能收集到的双语语料大都是规范表达的句子,从而训练出来的翻译模型更适合翻译规范表达的源语言句子,对于口语化严重的句子,翻译效果并不理想。现有技术通常通过挖掘网络上已有的口语相关的双语语料;或者挖掘口语相关的单语语料,然后人工翻译,构建双语语料。然后,在通用大数据模型的基础上,引入口语化的语料进行精细化训练(finetuning)。但是,通过数据挖掘的方法能获取到的语料数量极少,人工翻译的方法代价极高。同时如果只能够获取少量的口语化双语语料,最终的效果提升比较有限。
技术实现思路
本公开的实施例提出了生成翻译模型的方法和装 ...
【技术保护点】
1.一种生成翻译模型的方法,包括:/n获取原始语料对集,其中,每个原始语料对包括待翻译语句和译文;/n对于所述原始语料对集中的原始语料对,将该原始语料对的待翻译语句切词,并至少一次随机编辑所述待翻译语句中的词语后,生成至少一个新语料,并与该原始语料对的译文组成至少一个新语料对;/n利用预先训练的初始翻译模型计算各新语料对的翻译得分;/n对于所述原始语料对集中的原始语料对,将基于该原始语料对生成的至少一个新语料对中翻译得分最高,且翻译得分高于预定阈值的新语料对确定为口语化语料对;/n使用口语化语料对训练所述初始翻译模型,得到口语化翻译模型。/n
【技术特征摘要】
1.一种生成翻译模型的方法,包括:
获取原始语料对集,其中,每个原始语料对包括待翻译语句和译文;
对于所述原始语料对集中的原始语料对,将该原始语料对的待翻译语句切词,并至少一次随机编辑所述待翻译语句中的词语后,生成至少一个新语料,并与该原始语料对的译文组成至少一个新语料对;
利用预先训练的初始翻译模型计算各新语料对的翻译得分;
对于所述原始语料对集中的原始语料对,将基于该原始语料对生成的至少一个新语料对中翻译得分最高,且翻译得分高于预定阈值的新语料对确定为口语化语料对;
使用口语化语料对训练所述初始翻译模型,得到口语化翻译模型。
2.根据权利要求1所述的方法,其中,所述随机编辑包括:
随机删除所述待翻译语句中的至少一个词语。
3.根据权利要求1所述的方法,其中,所述随机编辑包括:
随机重复所述待翻译语句中的至少一个词语。
4.根据权利要求1-3之一所述的方法,其中,所述方法还包括:
响应于接收到待翻译的目标语句,识别所述目标语句是否为口语化语句;
若是口语化语句,则将所述目标语句输入所述口语化翻译模型,输出相应译文。
5.根据权利要求4所述的方法,其中,所述方法还包括:
若不是口语化语句,则将所述目标语句输入所述初始翻译模型,输出相应译文。
6.一种生成翻译模型的装置,包括:
获取单元,被配置成获取原始语料对集,其中,每个原始语料对包括待翻译语句和译文;
编辑单元,被配置成对于所述原始语料对集中的原始语料对,将该原始语料对的待翻译语句切词,并至少一次随机编辑所述待翻译语句...
【专利技术属性】
技术研发人员:曲宇涛,张睿卿,熊皓,何中军,李芝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。