【技术实现步骤摘要】
译后编辑方法和装置、电子设备及存储介质
[0001]本公开涉及机器翻译技术,更具体地,涉及译后编辑方法和装置、电子设备及存储介质。
技术介绍
[0002]机器翻译在日常生活中的应用十分广泛,也是机器学习在语言处理领域的一个重要研究方向。在使用机器翻译得到机器翻译文本之后,用户还可以利用译后编辑模型对机器翻译文本进行再次编辑调整。目前译后编辑模型存在耗时严重、编辑效果不佳的问题。
技术实现思路
[0003]本公开实施例提供译后编辑方法和装置、电子设备及存储介质,以提升翻译文本的准确性。
[0004]根据本公开的实施例的第一方面,提供了一种译后编辑方法,该译后编辑方法包括:
[0005]获取目标源文本和目标机器翻译文本,所述目标机器翻译文本是所述目标源文本的机器翻译文本;
[0006]将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型,并通过所述译后编辑模型对所述目标机器翻译文本进行修正;所述译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;
[0007]输出所述译后编辑模型对所述目标机器翻译文本修正得到的目标译后编辑文本。
[0008]可选地,所述译后编辑模型包括编码器网络和解码器网络;所述通过所述译后编辑模型对所述目标机器翻译文本进行修正,包括:
[0009]通过所述编码器网络,对所述目标源文本进行编码得到所述目标源文本的编码向量;
[0010]通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻 ...
【技术保护点】
【技术特征摘要】
1.一种译后编辑方法,其特征在于,包括:获取目标源文本和目标机器翻译文本,所述目标机器翻译文本是所述目标源文本的机器翻译文本;将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型,并通过所述译后编辑模型对所述目标机器翻译文本进行修正;所述译后编辑模型的修正方式包括删除词元、插入占位符和用词元替换占位符;输出所述译后编辑模型对所述目标机器翻译文本修正得到的目标译后编辑文本。2.根据权利要求1所述的方法,其特征在于,所述译后编辑模型包括编码器网络和解码器网络;所述通过所述译后编辑模型对所述目标机器翻译文本进行修正,包括:通过所述编码器网络,对所述目标源文本进行编码得到所述目标源文本的编码向量;通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正。3.根据权利要求2所述的方法,其特征在于,所述解码器网络包括编码单元、解码单元、第一预测单元、第二预测单元以及第三预测单元;所述通过所述解码器网络,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量,并根据所述目标源文本的编码向量和所述目标机器翻译文本的编码向量对所述目标机器翻译文本进行修正,包括:通过所述编码单元,对所述目标机器翻译文本进行编码得到所述目标机器翻译文本的编码向量;通过所述解码单元,对所述目标源文本的编码向量和所述目标机器翻译文本的编码向量进行矩阵运算,得到所述目标机器翻译文本基于所述目标源文本的注意力分布;通过所述第一预测单元,根据所述目标机器翻译文本基于所述目标源文本的注意力分布预测是否要删除所述目标机器翻译文本中的词元;通过所述第二预测单元,预测在所述目标机器翻译文本中的词元间需要插入的占位符的数量,所述数量为大于或等于零的整数;通过所述第三预测单元,预测出替代所述占位符的词元。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,在将所述目标源文本和所述目标机器翻译文本输入至预先训练好的译后编辑模型之前,所述方法还包括:获取多个样本数据组合,每个所述样本数据组合包括样本源文本、第一样本翻译文本以及第二样本翻译文本,所述第一样本翻译文本是所述样本源文本的机器翻译文本,所述第二样本翻译文本是所述样本源文本的译后编辑文本;使用所述多个样本数据组合对所述译后编辑模型进行训练。5.根据权利要求4所述的方法,其特征在于,在所述获取多个样本数据组合之前,所述方法还包括:获取双语语料文本,所述双语语料文本包括对应相同内容的第一语种文本和第二语种文本;将所述第一语种文本作为所述样本数据组合中的样本源文本;将所述第二语种文本作为所述样本数据组合中的第二样本翻译文本;
对所述第二语种文本中的词元进行随机替换和/或随机删除,得到所述样本数据组合中的第一样本翻译文本。6.根据权利要求4所述的方法,其特征在于,在所述获取多个样本数据组合之前,所述方法还包括:获取...
【专利技术属性】
技术研发人员:陆翀,王浪,
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。