译后编辑方法和装置、电子设备及存储介质制造方法及图纸

技术编号:37380815 阅读:15 留言:0更新日期:2023-04-27 07:22
本公开的实施例涉及译后编辑方法和装置、电子设备及存储介质,涉及机器翻译技术领域。所述译后编辑方法包括:获取目标源文本和目标机器翻译文本,目标机器翻译文本是目标源文本的机器翻译文本;将目标源文本和目标机器翻译文本输入至预先训练好的译后编辑模型,并通过译后编辑模型对目标机器翻译文本进行修正;译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;输出译后编辑模型对目标机器翻译文本修正得到的目标译后编辑文本。标机器翻译文本修正得到的目标译后编辑文本。标机器翻译文本修正得到的目标译后编辑文本。

【技术实现步骤摘要】
译后编辑方法和装置、电子设备及存储介质


[0001]本公开涉及机器翻译技术,更具体地,涉及译后编辑方法和装置、电子设备及存储介质。

技术介绍

[0002]机器翻译在日常生活中的应用十分广泛,也是机器学习在语言处理领域的一个重要研究方向。在使用机器翻译得到机器翻译文本之后,用户还可以利用译后编辑模型对机器翻译文本进行再次编辑调整。目前译后编辑模型存在耗时严重、编辑效果不佳的问题。

技术实现思路

[0003]本公开实施例提供译后编辑方法和装置、电子设备及存储介质,以提升翻译文本的准确性。
[0004]根据本公开的实施例的第一方面,提供了一种译后编辑方法,该译后编辑方法包括:
[0005]获取目标源文本和目标机器翻译文本,所述目标机器翻译文本是所述目标源文本的机器翻译文本;
[0006]将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型,并通过所述译后编辑模型对所述目标机器翻译文本进行修正;所述译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;
[0007]输出所述译后编辑模型对所述目标机器翻译文本修正得到的目标译后编辑文本。
[0008]可选地,所述译后编辑模型包括编码器网络和解码器网络;所述通过所述译后编辑模型对所述目标机器翻译文本进行修正,包括:
[0009]通过所述编码器网络,对所述目标源文本进行编码得到所述目标源文本的编码向量;
[0010]通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正。
[0011]可选地,所述解码器网络包括编码单元、解码单元、第一预测单元、第二预测单元以及第三预测单元;
[0012]所述通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正,包括:
[0013]通过所述编码单元,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量;
[0014]通过所述解码单元,对所述目标源文本的编码向量和所述目标机器翻译文本的编码向量进行矩阵运算,得到所述目标机器翻译文本基于所述目标源文本的注意力分布;
[0015]通过所述第一预测单元,根据所述目标机器翻译文本基于所述目标源文本的注意力分布预测是否要删除所述目标机器翻译文本中的词元;
[0016]通过所述第二预测单元,预测在所述目标机器翻译文本中的词元间需要插入的占位符的数量,所述数量为大于或等于零的整数;
[0017]通过所述第三预测单元,预测出替代所述占位符的词元。
[0018]可选地,在将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型之前,所述方法还包括:
[0019]获取多个样本数据组合,每个所述样本数据组合包括样本源文本、第一样本翻译文本以及第二样本翻译文本,所述第一样本翻译文本是所述样本源文本的机器翻译文本,所述第二样本翻译文本是所述样本源文本的译后编辑文本;
[0020]使用所述多个样本数据组合对所述译后编辑模型进行训练。
[0021]可选地,在所述获取多个样本数据组合之前,所述方法还包括:
[0022]获取双语语料文本,所述双语语料文本包括对应相同内容的第一语种文本和第二语种文本;
[0023]将所述第一语种文本作为所述样本数据组合中的样本源文本;
[0024]将所述第二语种文本作为所述样本数据组合中的第二样本翻译文本;
[0025]对所述第二语种文本中的词元进行随机替换和/或随机删除,得到所述样本数据组合中的第一样本翻译文本。
[0026]可选地,在所述获取多个样本数据组合之前,所述方法还包括:
[0027]获取双语语料文本,所述双语语料文本包括对应相同内容的第一语种文本和第二语种文本;
[0028]将所述第一语种文本作为所述样本数据组合中的样本源文本;
[0029]将所述第二语种文本作为所述样本数据组合中的第二样本翻译文本;
[0030]调劣预先训练好的翻译模型的参数,将所述第一语种文本输入至所述翻译模型中,通过所述翻译模型对所述第一语种文本进行翻译得到翻译结果,将所述翻译结果作为所述样本数据组合中的第一样本翻译文本。
[0031]可选地,所述使用所述多个样本数据组合对所述译后编辑模型进行训练,包括:
[0032]将所述多个样本数据组合分为n个训练批次,确定每个训练批次的不可信概率;
[0033]在第i个训练批次的不可信概率大于或等于预设阈值的情况下,确定针对第i个训练批次中的每个所述样本数据组合采用第一模式进行训练;在第i个训练批次的不可信概率小于预设阈值的情况下,确定针对第i个训练批次中的每个所述样本数据组合采用第二模式进行训练;所述第i个训练批次是所述n个训练批次中的任一个训练批次;
[0034]在针对第i个训练批次中的每个所述样本数据组合采用所述第一模式进行训练的情况下,将所述样本数据组合中的第二样本翻译文本的第j

1个词元作为所述译后编辑模型的下一步输入以预测出第j个词元;在针对第i个训练批次中的每个所述样本数据组合采用所述第二模式进行训练的情况下,将所述译后编辑模型预测出的第j

1个词元作为所述译后编辑模型的下一步输入以预测出第j个词元;所述j为整数并且j≥2。
[0035]可选地,根据以下式子确定第i个训练批次的不可信概率:
[0036]∈
i
=max(∈
min
,K

C*i)
[0037]其中,∈
i
为第i个训练批次的不可信概率,max()为取最大值函数,K和C为正值常数,∈
min
为预设的不可信概率最小值,∈
min
≥0。
[0038]根据本公开的实施例的第二方面,提供了一种译后编辑装置,该译后编辑装置包括:
[0039]获取模块,用于获取目标源文本和目标机器翻译文本,所述目标机器翻译文本是所述目标源文本的机器翻译文本;
[0040]修正模块,用于将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型,并通过所述译后编辑模型对所述目标机器翻译文本进行修正;所述译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;
[0041]输出模块,用于输出所述译后编辑模型对所述目标机器翻译文本修正得到的目标译后编辑文本。
[0042]根据本公开的实施例的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机指令,所述计算机指令被所述处理器执行时实现本公开的第一方面的译后编辑方法。
[0043]根据本公开的实施例的第四方面,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种译后编辑方法,其特征在于,包括:获取目标源文本和目标机器翻译文本,所述目标机器翻译文本是所述目标源文本的机器翻译文本;将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型,并通过所述译后编辑模型对所述目标机器翻译文本进行修正;所述译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;输出所述译后编辑模型对所述目标机器翻译文本修正得到的目标译后编辑文本。2.根据权利要求1所述的方法,其特征在于,所述译后编辑模型包括编码器网络和解码器网络;所述通过所述译后编辑模型对所述目标机器翻译文本进行修正,包括:通过所述编码器网络,对所述目标源文本进行编码得到所述目标源文本的编码向量;通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正。3.根据权利要求2所述的方法,其特征在于,所述解码器网络包括编码单元、解码单元、第一预测单元、第二预测单元以及第三预测单元;所述通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正,包括:通过所述编码单元,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量;通过所述解码单元,对所述目标源文本的编码向量和所述目标机器翻译文本的编码向量进行矩阵运算,得到所述目标机器翻译文本基于所述目标源文本的注意力分布;通过所述第一预测单元,根据所述目标机器翻译文本基于所述目标源文本的注意力分布预测是否要删除所述目标机器翻译文本中的词元;通过所述第二预测单元,预测在所述目标机器翻译文本中的词元间需要插入的占位符的数量,所述数量为大于或等于零的整数;通过所述第三预测单元,预测出替代所述占位符的词元。4.根据权利要求1

3任一项所述的方法,其特征在于,在将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型之前,所述方法还包括:获取多个样本数据组合,每个所述样本数据组合包括样本源文本、第一样本翻译文本以及第二样本翻译文本,所述第一样本翻译文本是所述样本源文本的机器翻译文本,所述第二样本翻译文本是所述样本源文本的译后编辑文本;使用所述多个样本数据组合对所述译后编辑模型进行训练。5.根据权利要求4所述的方法,其特征在于,在所述获取多个样本数据组合之前,所述方法还包括:获取双语语料文本,所述双语语料文本包括对应相同内容的第一语种文本和第二语种文本;将所述第一语种文本作为所述样本数据组合中的样本源文本;将所述第二语种文本作为所述样本数据组合中的第二样本翻译文本;
对所述第二语种文本中的词元进行随机替换和/或随机删除,得到所述样本数据组合中的第一样本翻译文本。6.根据权利要求4所述的方法,其特征在于,在所述获取多个样本数据组合之前,所述方法还包括:获取...

【专利技术属性】
技术研发人员:陆翀王浪
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1