一种机器翻译模型的训练方法及装置制造方法及图纸

技术编号:21548117 阅读:36 留言:0更新日期:2019-07-06 21:34
本发明专利技术公开了一种机器翻译模型的训练方法,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。本发明专利技术实现了降低机器翻译模型对标点符号的过学习,提高翻译准确率的技术效果。同时,本发明专利技术还公开了一种机器翻译模型的训练装置。

A Training Method and Device for Machine Translation Model

【技术实现步骤摘要】
一种机器翻译模型的训练方法及装置
本专利技术涉及电子
,尤其涉及一种机器翻译模型的训练方法及装置。
技术介绍
随着双语句对的大量积累,计算机硬件计算能力的提高,以及机器翻译算法的进步,机器翻译的性能有了很大提升。对于某些语言,双语句对一般会存在句末标点。例如:中文中绝大大多数句末标点是“。”,英文中绝大多数句末标点是“.”。由于这种源端句子句末常见标点大量存在,且都在句尾,会形成一种非常明确的模式,利用这样的双语句对训练机器翻译模型时,往往会造成句末标点的过学习,产生过拟合现象,进而降低了机器翻译模型的翻译准确率。
技术实现思路
本专利技术实施例通过提供一种机器翻译模型的训练方法及装置,解决了现有技术中的机器翻译模型存在的翻译准确率低的技术问题,实现了提高机器翻译模型的翻译准确率的技术效果。第一方面,本专利技术通过本专利技术的一实施例提供如下技术方案:一种机器翻译模型的训练方法,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。优选地,所述第一双语句对,包括:待翻译语句,以及与所述待翻译语句对应的本文档来自技高网...

【技术保护点】
1.一种机器翻译模型的训练方法,其特征在于,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。

【技术特征摘要】
1.一种机器翻译模型的训练方法,其特征在于,包括:获取第一双语句对;按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对;利用所述第二双语句对进行机器翻译模型的训练。2.如权利要求1所述的机器翻译模型的训练方法,其特征在于,所述第一双语句对,包括:待翻译语句,以及与所述待翻译语句对应的译文语句。3.如权利要求2所述的机器翻译模型的训练方法,其特征在于,所述按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对,包括:按照第一预设概率,随机或按照预设规律删除所述待翻译语句中的第一标点符号,获得第二双语句对;或按照第一预设概率,随机或按照预设规律删除所述待翻译语句中的第一标点符号,按照第二预设概率,随机或按照预设规律删除所述译文语句中的第二标点符号,获得第二双语句对。4.如权利要求2所述的机器翻译模型的训练方法,其特征在于,所述按照一预设概率,删除所述第一双语句对中的标点符号,获得第二双语句对,包括:按照一预设概率,删除所述待翻译语句中的第一标点符号,获得第二双语句对;或按照一预设概率,删除所述待翻译语句中的第一标点符号,以及删除所述译文语句中的第二标点符号,获得第二双语句对。5.如权利要求3或4所述的机器翻译模型的训练方法,其特征在于,所述第...

【专利技术属性】
技术研发人员:施亮亮王宇光姜里羊阳家俊李响卫林钰陈伟
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1