【技术实现步骤摘要】
一种机器翻译模型的训练方法及装置
本专利技术涉及电子
,尤其涉及一种机器翻译模型的训练方法及装置。
技术介绍
随着双语句对的大量积累,计算机硬件计算能力的提高,以及机器翻译算法的进步,机器翻译的性能有了很大提升。对于某些语言,双语句对一般会存在句末标点。例如:中文中绝大大多数句末标点是“。”,英文中绝大多数句末标点是“.”。由于这种源端句子句末常见标点大量存在,且都在句尾,会形成一种非常明确的模式,利用这样的双语句对训练机器翻译模型时,往往会造成句末标点的过学习,产生过拟合现象,进而降低了机器翻译模型的翻译准确率。
技术实现思路
本专利技术实施例通过提供一种机器翻译模型的训练方法及装置,解决了现有技术中的机器翻译模型存在的翻译准确率低的技术问题,实现了提高机器翻译模型的翻译准确率的技术效果。第一方面,本专利技术通过本专利技术的一实施例提供如下技术方案:一种机器翻译模型的训练方法,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。优选地,所述第一双语句对,包括:待翻译语句,以及与 ...
【技术保护点】
1.一种机器翻译模型的训练方法,其特征在于,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。
【技术特征摘要】
1.一种机器翻译模型的训练方法,其特征在于,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。2.如权利要求1所述的机器翻译模型的训练方法,其特征在于,所述第一双语句对,包括:待翻译语句,以及与所述待翻译语句对应的译文语句。3.如权利要求2所述的机器翻译模型的训练方法,其特征在于,所述按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对,包括:按照第一预设概率,随机或按照预设规律删除所述待翻译语句中的第一标点符号,获得第二双语句对;或按照第一预设概率,随机或按照预设规律删除所述待翻译语句中的第一标点符号,按照第二预设概率,随机或按照预设规律删除所述译文语句中的第二标点符号,获得第二双语句对。4.如权利要求2所述的机器翻译模型的训练方法,其特征在于,所述按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对,包括:按照一预设概率,删除所述待翻译语句中的第一标点符号,获得第二双语句对;或按照一预设概率,删除所述待翻译语句中的第一标点符号,以及删除所述译文语句中的第二标点符号,获得第二双语句对。5.如权利要求3或4所述的机器翻译模型的训练方法,其特征在于,所述第...
【专利技术属性】
技术研发人员:施亮亮,王宇光,姜里羊,阳家俊,李响,卫林钰,陈伟,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。