译文术语词形自适应替换方法、装置及电子设备制造方法及图纸

技术编号:37957266 阅读:13 留言:0更新日期:2023-06-30 09:30
本发明专利技术提供一种译文术语词形自适应替换方法、装置及电子设备,所述方法包括:对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本;将所述合成译文文本输入至第一译文术语替换模型中,获取所述第一译文术语替换模型输出的所述待翻译文本对应的目标译文文本;所述第一译文术语替换模型是根据合成译文文本样本和对应的真实译文文本标签训练得到的,所述合成译文文本样本是通过对原始译文文本样本进行术语替换处理得到的。本发明专利技术可以自动生成具有正确术语词形的译文,保证最终译文语法的正确性,在面对含有较多特定领域专业术语的文本翻译场景下可以实现高质量的翻译效果,有效提升了机器翻译译文的质量。有效提升了机器翻译译文的质量。有效提升了机器翻译译文的质量。

【技术实现步骤摘要】
译文术语词形自适应替换方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种译文术语词形自适应替换方法、装置及电子设备。

技术介绍

[0002]机器翻译技术是通过计算机等计算设备将一种自然语言的原文翻译为另一种自然语言的译文的技术。由于这一翻译过程由机器完成,所以与人工翻译相比,可以在相对短的时间处理大量的翻译工作。但是,当使用机器翻译技术翻译有较多特定领域专业术语的文本时,由于通用机器翻译系统的训练语料中缺乏特定领域术语的翻译或者领域术语的翻译出现次数较少,导致使用通用的机器翻译方法来翻译此类文本经常会出错,翻译质量差。
[0003]为解决上述问题,在现有技术中,通常会在翻译前对翻译文本中的术语及术语译文进行统一定义,在机器翻译过程中对术语的译文进行自动替换,从而保持术语的翻译在全文中的一致性。然而,这种方法对于术语译文不存在词形变化的情形是适用的,但针对术语译文需要基于当前句子的上下文进行词形变化的情形,会导致术语译文替换后的句子存在语法错误,影响翻译质量。
[0004]因此,在面对含有较多特定领域专业术语的文本翻译场景下,如何更好地进行机器翻译已成为业界亟待解决的技术问题。

技术实现思路

[0005]本专利技术提供一种译文术语词形自适应替换方法、装置及电子设备,用以在面对含有较多特定领域专业术语的文本翻译场景下更好地进行机器翻译,提高翻译质量。
[0006]本专利技术提供一种译文术语词形自适应替换方法,包括:
[0007]对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本;
[0008]将所述合成译文文本输入至第一译文术语替换模型中,获取所述第一译文术语替换模型输出的所述待翻译文本对应的目标译文文本;
[0009]所述第一译文术语替换模型是根据合成译文文本样本和对应的真实译文文本标签训练得到的,所述合成译文文本样本是通过对原始译文文本样本进行术语替换处理得到的。
[0010]根据本专利技术提供的一种译文术语词形自适应替换方法,所述对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本,包括:
[0011]对待翻译文本的原始译文文本进行分句处理,得到所述原始译文文本对应的多个句子;
[0012]采用术语提取工具在每个所述句子上进行术语提取,并对每个所述句子提取到的术语进行标记,确定每个所述句子中的术语的标记位置;
[0013]采用词形还原工具,根据每个所述句子中的术语的标记位置,将每个所述句子中的术语还原为对应的原始术语,得到所述合成译文文本。
[0014]根据本专利技术提供的一种译文术语词形自适应替换方法,在所述对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本之后,所述方法还包括:
[0015]将所述合成译文文本输入至第二译文术语替换模型中,获取所述第二译文术语替换模型输出的所述原始译文文本对应的目标术语;所述第二译文术语替换模型是根据所述合成译文文本样本和对应的术语标签训练得到的;
[0016]将所述合成译文文本中的原始术语替换为对应的所述目标术语,得到所述待翻译文本对应的所述目标译文文本。
[0017]根据本专利技术提供的一种译文术语词形自适应替换方法,在将所述合成译文文本输入至第一译文术语替换模型中之前,所述方法还包括:
[0018]将所述合成译文文本样本和所述合成译文文本样本对应的真实译文文本标签作为一组训练样本,获取多组训练样本;
[0019]利用所述多组训练样本对T5模型进行训练,得到所述第一译文术语替换模型。
[0020]根据本专利技术提供的一种译文术语词形自适应替换方法,利用所述多组训练样本对T5模型进行训练,得到所述第一译文术语替换模型,包括:
[0021]对于任意一组训练样本,将所述训练样本进行分词处理,得到分词处理后的训练样本;
[0022]将所述分词处理后的训练样本输入至所述T5模型,输出所述分词处理后的训练样本对应的预测概率;
[0023]利用预设损失函数,根据所述分词处理后的训练样本对应的预测概率和所述训练样本对应的真实译文文本标签,计算损失值;
[0024]基于所述损失值,对所述T5模型的模型参数进行调整,直至所述损失值小于预设阈值或迭代次数达到预设次数;
[0025]将所述损失值小于预设阈值或迭代次数达到预设次数时所得到的模型参数作为训练好的T5模型的模型参数,得到所述第一译文术语替换模型。
[0026]根据本专利技术提供的一种译文术语词形自适应替换方法,将所述分词处理后的训练样本输入至所述T5模型,输出所述分词处理后的训练样本对应的预测概率,包括:
[0027]通过所述T5模型的多层编码器,利用双向注意力掩码机制对所述分词处理后的训练样本进行逐词编码,得到所述分词处理后的训练样本对应的隐藏层状态向量;
[0028]通过所述T5模型的多层解码器,利用单向注意力掩码机制对所述隐藏层状态向量进行逐词解码,得到所述分词处理后的训练样本对应的预测概率。
[0029]本专利技术还提供一种译文术语词形自适应替换装置,包括:
[0030]合成模块,用于对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本;
[0031]将所述合成译文文本输入至第一译文术语替换模型中,获取所述第一译文术语替换模型输出的所述待翻译文本对应的目标译文文本;
[0032]所述第一译文术语替换模型是根据合成译文文本样本和对应的真实译文文本标签训练得到的,所述合成译文文本样本是通过对原始译文文本样本进行术语替换处理得到的。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述译文术语词形自适应替换方法。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述译文术语词形自适应替换方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述译文术语词形自适应替换方法。
[0036]本专利技术提供的译文术语词形自适应替换方法、装置及电子设备,通过对原始译文文本样本进行术语替换处理得到合成译文文本样本,从而获取大量由合成译文文本样本构成的训练语料,利用这些训练语料及每条训练语料对应的真实译文文本标签进行模型训练,获得第一译文术语替换模型,可以实现对原始译文术语词形的自适应替换。通过对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本,并将合成译文文本输入至第一译文术语替换模型进行替换,可以自动生成具有正确术语词形的译文,保证最终译文语法的正确性,在面对含有较多特定领域专业术语的文本翻译场景下可以实现高质量的翻译效果,有效提升了机器翻译译文的质量。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种译文术语词形自适应替换方法,其特征在于,包括:对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本;将所述合成译文文本输入至第一译文术语替换模型中,获取所述第一译文术语替换模型输出的所述待翻译文本对应的目标译文文本;所述第一译文术语替换模型是根据合成译文文本样本和对应的真实译文文本标签训练得到的,所述合成译文文本样本是通过对原始译文文本样本进行术语替换处理得到的。2.根据权利要求1所述的译文术语词形自适应替换方法,其特征在于,所述对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本,包括:对待翻译文本的原始译文文本进行分句处理,得到所述原始译文文本对应的多个句子;采用术语提取工具在每个所述句子上进行术语提取,并对每个所述句子提取到的术语进行标记,确定每个所述句子中的术语的标记位置;采用词形还原工具,根据每个所述句子中的术语的标记位置,将每个所述句子中的术语还原为对应的原始术语,得到所述合成译文文本。3.根据权利要求1所述的译文术语词形自适应替换方法,其特征在于,在所述对待翻译文本的原始译文文本进行术语替换处理,得到合成译文文本之后,所述方法还包括:将所述合成译文文本输入至第二译文术语替换模型中,获取所述第二译文术语替换模型输出的所述原始译文文本对应的目标术语;所述第二译文术语替换模型是根据所述合成译文文本样本和对应的术语标签训练得到的;将所述合成译文文本中的原始术语替换为对应的所述目标术语,得到所述待翻译文本对应的所述目标译文文本。4.根据权利要求1所述的译文术语词形自适应替换方法,其特征在于,在将所述合成译文文本输入至第一译文术语替换模型中之前,所述方法还包括:将所述合成译文文本样本和所述合成译文文本样本对应的真实译文文本标签作为一组训练样本,获取多组训练样本;利用所述多组训练样本对T5模型进行训练,得到所述第一译文术语替换模型。5.根据权利要求4所述的译文术语词形自适应替换方法,其特征在于,利用所述多组训练样本对T5模型进行训练,得到所述第一译文术语替换模型,包括:对于任意一组训练样本,将所述训练样本进行分词处理,得到分词...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1