一种根据向量表示生成的提升机翻鲁棒性增强数据的方法技术

技术编号：39515074 阅读：9 留言：0更新日期：2023-11-25 18:52

本发明专利技术属于机器翻译技术领域，提供了一种根据向量表示生成的提升机翻鲁棒性增强数据的方法

全部详细技术资料下载

【技术实现步骤摘要】
一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质

[0001]本专利技术属于机器翻译
，具体的说，是涉及一种根据向量表示生成的提升机翻鲁棒性增强数据的方法
、
装置及计算机可读存储介质
。

技术介绍

[0002]对于传统的机翻模型鲁棒性对抗数据，现有技术的处理方式是：根据一些人为的语言学知识，并对模型存在的鲁棒性相关问题，去指定一定的规则，构造出我们认为的能提升模型鲁棒性的增强数据
。
该方法存在的不足之处在于：具有不可解释性，无法根据模型的真实情况对其进行生成增强数据，而是依赖于人类的“直觉”。

技术实现思路

[0003]本专利技术的目的在于提供一种根据向量表示生成的提升机翻鲁棒性增强数据的方法，以解决现有技术所存在的技术问题
。
[0004]为了实现上述目的，本专利技术采取的技术方案如下：
[0005]一种根据向量表示生成的提升机翻鲁棒性增强数据的方法，包括：
[0006](1)
构建两个机翻模型用于输出词向量与句向量：
src_lang
到
tgt_lang
的机翻模型
f_MT
，
tgt_lang
到
src_lang
的机翻模型
g_MT
，其中，
src_lang
表示原文，
tgt_lang
表示译文；
[0007](2)
从集合<...

【技术保护点】

【技术特征摘要】
1.
一种根据向量表示生成的提升机翻鲁棒性增强数据的方法，其特征在于，包括：
(1)
构建两个机翻模型用于输出词向量与句向量：
src_lang
到
tgt_lang
的机翻模型
f_MT
，
tgt_lang
到
src_lang
的机翻模型
g_MT
，其中，
src_lang
表示原文，
tgt_lang
表示译文；
(2)
从集合
Γ
中遍历出一个原文句子
x
，
x
＝
{w1,
…
,w
i
,
…
,w
n
}
，加入
mask
，得到将其作为输入，输入至
bert
语言模型
M
：输出概率值
S(x,w
i
)
，并取概率值排名最低的后
n
个词，其中，
n
的数值根据句子词级别长度决定，集合
Γ
表示用来生成增强数据的数据集，表示用来生成增强数据的数据集，为原文
src_lang
所属句子的最大集合；
(3)
基于所述步骤
(2)
中的
n
个词，随机挑选出其中一个词
w
i
；
(4)
计算词
w
i
与合法词表集合
M
’
里的所有词的词向量，得出与
w
i
词向欧式距离最近的
k
个预选词，构成预选词集合个预选词，构成预选词集合其中，合法词表集合
M
’
为
bert
语言模型
M
的词表；
(5)
词替换：基于所述步骤
(2)
中的原文句子
x
＝
{w1,
…
,w
i
,
…
,w
n
}
，用预选词集合里的词遍历，分别替换原文句子
x
＝
{w1,
…
,w
i
,
…
,w
n
}
中的待替换词，得到若干替换后句子
x
’
；
(6)
基于所述步骤
(5)
中的替换后句子
x
’
和原文句子
x
，根据式：计算每个替换后句子
x
’
和原文句子
x
的余弦相似度差值
E(x,x`)
，其中，和表示两个句子的句向量余弦相似度，
f(*)
为机翻模型
f_MT
的推理函数，
g(*)
为机翻模型
g_MT
的推理函数；
(7)
取
E(x,x
`
)
分值最高的替换后句子
x
`
替换原文句子
x
；
(8)
判断所述步骤
(7)
中的替换后句子
x
`
...

【专利技术属性】
技术研发人员：朱宪超，吴阳剑，
申请(专利权)人：四川语言桥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人