一种基于提示的机器翻译方法技术

技术编号:37135370 阅读:29 留言:0更新日期:2023-04-06 21:34
本发明专利技术涉及一种基于提示的机器翻译方法,属于自然语言处理技术领域,解决了现有技术中机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。通过构建待翻译文本中的名词集合及名词译文集合,进一步得到翻译模型的输入文本及翻译模型的调节矩阵;使用翻译模型对翻译模型的输入文本进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。基于包含名词译文提示的输入数据以及调节矩阵的调节,一定程度上保证了翻译模型名词翻译的准确性,解决了名词漏译和错译的问题,实现了机器翻译模型名词翻译准确性的提高。翻译模型名词翻译准确性的提高。翻译模型名词翻译准确性的提高。

【技术实现步骤摘要】
一种基于提示的机器翻译方法


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于提示的机器翻译方法。

技术介绍

[0002]机器翻译是人工智能的重要方向之一,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着经济全球化及互联网的飞速发展,机器翻译技术在促进各国之间政治、经济、文化交流等方面起到越来越重要的作用,因此,研究机器翻译技术具有重要现实意义。
[0003]机器翻译技术提出之初,使用的方法是基于统计学的统计机器翻译(SMT,Statistics

based Machine Translation),这种方法把翻译看作一个概率问题,直接根据统计结果进行歧义消解处理和译文选择,从而避开了语言理解的难题。但是由于语料的选择和处理工程量巨大,通用领域的机器翻译系统很少以统计方法为主。近年来,被广泛使用的基于深度学习网络的神经网络机器翻译(NMT,Neural Machine Translation),多层的网络结构可以很好地学习原文本的上下文信息、提取语义特征,生成更加流畅、规范的译文,使得机器翻译质量实现了“跃进式”的提升。
[0004]然而,基于深度学习的方法也存在一些缺陷,其中最主要的就是名词和专有名词翻译不准的问题。名词和专有名词翻译不准包括两方面,漏译(即直接跳过某个或某段名词不翻译)和错译(即翻译错误),其中,漏译问题在翻译小语种及训练样本较少时尤其严重。由于目前的机器翻译模型均存在对于名词和专有名词翻译不准,漏翻、错翻的问题,因此亟需确保名词翻译准确性的机器翻译模型。

技术实现思路

[0005]鉴于上述的分析,本专利技术实施例旨在提供一种基于提示的机器翻译方法,用以解决现有机器翻译模型对于名词和专有名词翻译不准,漏翻、错翻的问题。
[0006]一方面,本专利技术实施例提供了一种基于提示的机器翻译方法,包括以下步骤:
[0007]获取待翻译文本x,识别得到待翻译文本中包括的名词集合S
word

[0008]获得所述名词集合S
word
中所有名词对应的名词译文,组成译文集合S
word

trans

[0009]待翻译文本x、名词集合S
word
和名词译文集合S
word

trans
通过数据构建,得到翻译模型的输入文本x
input
及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合S
word

trans
中的所有译文;
[0010]使用翻译模型对x
input
进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。
[0011]进一步的,所述数据构建,包括如下步骤:
[0012]对所述待翻译文本进行数据清洗,得到清洗后的文本x0;
[0013]所述文本x0其后依次拼接名词译文集合S
word

trans
中的所有译文,得到翻译模型的输入文本x
input

[0014]构建所述输入文本x
input
的对应位置关系的列表List
index
,根据所述列表List
index
确定构建调节矩阵中元素的取值M
ij
,起始和终止行列插入特殊符号,得到所述调节矩阵M。
[0015]进一步的,所述翻译模型,通过如下步骤训练得到:
[0016]获取所需翻译的两个语种的平行语料数据,得到数据集D;
[0017]识别得到所述数据集D中的原文和译文,得到原文名词集合S
word
和译文名词集合S
word

trans

[0018]通过数据构建得到D中所有数据的训练样本X
input
和所有数据对应的调节矩阵M
train
,其中,X
input
=[x1,x2,

,x
g
],M
train
=[M1,M2,

,M
g
],单条训练样本x
i
,i∈[1,2,

,g]是增加译文提示后文本x
input
和目标译文x
gold
的文本对,g为数据条数;
[0019]将X
input
划分为训练集D
train
、验证集D
valid
、测试集D
test
,所述调节矩阵M
train
导入所述翻译模型,用D
train
训练模型,每轮训练结束用D
valid
进行验证,取验证结果最好的一轮模型作为最终模型。
[0020]进一步的,构建所述文本的对应位置关系的列表List
index
,包括如下步骤:
[0021]将所述翻译模型的输入文本x
input
中每一对名词和名词译文在x
input
中的位置用一对元组表示;
[0022]每个名词

译文位置元组对组成一个子列表;
[0023]将所有名词

译文位置元组对所在的子列表连接起来,构成所述文本的对应位置关系的列表List
index

[0024]进一步的,所述调节矩阵元素M
ij
的取值及约束如下:
[0025][0026]其中,len(x0)代表清洗后、增加翻译提示前的原始文本x0的长度,len(List
index
)代表所述列表List
index
的长度,List
index
[z][0]代表List
index
中第z个子列表中的第一个元组,List
index
[z][1]代表List
index
中第z个子列表中的第二个元组。
[0027]进一步的,利用如下函数计算导入调节矩阵M后模型的注意力:
[0028][0029]其中,Q、K、V分别是自注意力机制中的Query,Key,Value矩阵,d
k
是Q或K的维度。
[0030]进一步的,所述导入调节矩阵M,包括:
[0031]根据所述模型预设的可输入最大长度L
max
,通过增加0值元素,将所述调节矩阵M向右、向下扩展至大小为L
max
×
L
max
,得到M


[0032]将M

导入所述模型编码层。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于提示的机器翻译方法,其特征在于,包括如下步骤:获取待翻译文本x,识别得到待翻译文本中包括的名词集合S
word
;获得所述名词集合S
word
中所有名词对应的名词译文,组成译文集合S
word

trans
;待翻译文本x、名词集合S
word
和名词译文集合S
word

trans
通过数据构建,得到翻译模型的输入文本x
input
及翻译模型的调节矩阵M;其中,所述输入文本包括提示,所述提示为名词译文集合S
word

trans
中的所有译文;使用翻译模型对x
input
进行翻译,使用调节矩阵M调节模型的注意力计算,最终输出译文。2.根据权利要求1的方法,其特征在于,所述数据构建,包括如下步骤:对所述待翻译文本进行数据清洗,得到清洗后的文本x0;所述文本x0其后依次拼接名词译文集合S
word

trans
中的所有译文,得到翻译模型的输入文本x
input
;构建所述输入文本x
input
的对应位置关系的列表List
index
,根据所述列表List
index
确定构建调节矩阵中元素的取值M
ij
,起始和终止行列插入特殊符号,得到所述调节矩阵M。3.根据权利要求1或2的方法,所述翻译模型,通过如下步骤训练得到:获取所需翻译的两个语种的平行语料数据,得到数据集D;识别所述数据集D中的原文和译文,得到原文名词集合S
word
和译文名词集合S
word

trans
;通过数据构建得到D中所有数据的训练样本X
input
和所有数据对应的调节矩阵M
train
,其中,X
input
=[x1,x2,

,x
g
],M
train
=[M1,M2,

,M
g
],单条训练样本x
i
(i∈[1,2,

,g])是增加译文提示后文本x
input
和目标译文x
gold
的文本对,g为数据条数;将X
input
划分为训练集D
train
、验证集D
valid
、测试集D
test
,所述调节矩阵M
train
导入所述翻译模型,用D
train
训练模型,每轮训练结束用D
valid
进行验证,取验证结果最好的一轮模型作为最终模型。4.根据权利要求2的方法,其特征在于,构建所述文本的对应位置关系的列表List
index
,包括如下步骤:将所述翻译模型的输入文本x
input
中每一对名词和名词译文在x
input
中的位置用一对元组表示;每个名词

译文位置元组对组成一个子列表;将所有名词

译文位置元组对所在的子列表连接起来,构成所述文本的对应位置关系的列表List
index
。5.根据权利要求2或4的方法,其特征在于,所述调节矩阵元...

【专利技术属性】
技术研发人员:迟雨桐冯少辉李鹏
申请(专利权)人:北京中科智加科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1