一种根据向量表示生成的提升机翻鲁棒性增强数据的方法技术

技术编号:39515074 阅读:9 留言:0更新日期:2023-11-25 18:52
本发明专利技术属于机器翻译技术领域,提供了一种根据向量表示生成的提升机翻鲁棒性增强数据的方法

【技术实现步骤摘要】
一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质


[0001]本专利技术属于机器翻译
,具体的说,是涉及一种根据向量表示生成的提升机翻鲁棒性增强数据的方法

装置及计算机可读存储介质


技术介绍

[0002]对于传统的机翻模型鲁棒性对抗数据,现有技术的处理方式是:根据一些人为的语言学知识,并对模型存在的鲁棒性相关问题,去指定一定的规则,构造出我们认为的能提升模型鲁棒性的增强数据

该方法存在的不足之处在于:具有不可解释性,无法根据模型的真实情况对其进行生成增强数据,而是依赖于人类的“直觉”。

技术实现思路

[0003]本专利技术的目的在于提供一种根据向量表示生成的提升机翻鲁棒性增强数据的方法,以解决现有技术所存在的技术问题

[0004]为了实现上述目的,本专利技术采取的技术方案如下:
[0005]一种根据向量表示生成的提升机翻鲁棒性增强数据的方法,包括:
[0006](1)
构建两个机翻模型用于输出词向量与句向量:
src_lang

tgt_lang
的机翻模型
f_MT

tgt_lang

src_lang
的机翻模型
g_MT
,其中,
src_lang
表示原文,
tgt_lang
表示译文;
[0007](2)
从集合<br/>Γ
中遍历出一个原文句子
x

x

{w1,

,w
i
,

,w
n
}
,加入
mask
,得到将其作为输入,输入至
bert
语言模型
M
:输出概率值
S(x,w
i
)
,并取概率值排名最低的后
n
个词,其中,
n
的数值根据句子词级别长度决定,集合
Γ
表示用来生成增强数据的数据集,表示用来生成增强数据的数据集,为原文
src_lang
所属句子的最大集合;
[0008](3)
基于所述步骤
(2)
中的
n
个词,随机挑选出其中一个词
w
i

[0009](4)
计算词
w
i
与合法词表集合
M

里的所有词的词向量,得出与
w
i
词向欧式距离最近的
k
个预选词,构成预选词集合个预选词,构成预选词集合其中,合法词表集合
M


bert
语言模型
M
的词表;
[0010](5)
词替换:基于所述步骤
(2)
中的原文句子
x

{w1,

,w
i
,

,w
n
}
,用预选词集合里的词遍历,分别替换原文句子
x

{w1,

,w
i
,

,w
n
}
中的待替换词,得到若干替换后句子
x


[0011](6)
基于所述步骤
(5)
中的替换后句子
x

和原文句子
x
,根据式:计算每个替换后句子
x

和原文句子
x
的余弦相似度差值
E(x,x`)
,其中,和表示两个句子的句向量余弦相似度,
f(*)
为机翻模型
f_MT
的推理函数,
g(*)
为机翻模型
g_MT
的推理函数;
[0012](7)

E(x,x`)
分值最高的替换后句子
x`
替换原文句子
x

[0013](8)
判断所述步骤
(7)
中的替换后句子
x`
是否满足增强数据集合若满足,则执行步骤
(9)
,若不满足,则执行步骤
(11)

[0014](9)
将所述步骤
(7)
中的替换后句子
x
`
和其相对应的替换前句子的标准译文
y
ref
存入集合
Z

[0015](10)
重复执行
(2)

(9)
步骤,直至所述步骤
(2)
中的集合
Γ
中增强数据集遍历完,所得集合
Z
即为最终得出的鲁棒性增强数据;
[0016](11)
重复执行
(3)

(7)
步骤,直至替换后句子
x
`
满足增强数据集合然后,执行步骤
(9)

(10)。
[0017]进一步的,所述增强数据集合表示如下:表示如下:其中,为原文
src_lang
所属句子的最大集合,为译文
tgt_lang
所属句子的最大集合,
f(*)
为机翻模型
f_MT
的推理函数,
g(*)
为机翻模型
g_MT
的推理函数,
y

f(x)
,为由
x
修改生成的增强数据,
``
[0018]y

f(x)

S
t
(*,*
[0019])
为两个句子的句向量余弦相似度,为两个句子的句向量余弦相似度,为两个句子的句向量余弦相似度,为准备好的用来生成增强数据的数据集,
y
ref

x
的标准译文,
α
、∈、
δ

γ
为可调节自定义参数

[0020]进一步的,所述步骤
(11)
中,若根据所述步骤
(4)
得到的预选替换词已遍历完,且基于该预选替换词根据步骤
(7)
得到的替换后句子
x
`
不满足增强数据集合则不将该替换后句子
x
`
存入集合
Z
中,并继续重复
(3)

(7)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种根据向量表示生成的提升机翻鲁棒性增强数据的方法,其特征在于,包括:
(1)
构建两个机翻模型用于输出词向量与句向量:
src_lang

tgt_lang
的机翻模型
f_MT

tgt_lang

src_lang
的机翻模型
g_MT
,其中,
src_lang
表示原文,
tgt_lang
表示译文;
(2)
从集合
Γ
中遍历出一个原文句子
x

x

{w1,

,w
i
,

,w
n
}
,加入
mask
,得到将其作为输入,输入至
bert
语言模型
M
:输出概率值
S(x,w
i
)
,并取概率值排名最低的后
n
个词,其中,
n
的数值根据句子词级别长度决定,集合
Γ
表示用来生成增强数据的数据集,表示用来生成增强数据的数据集,为原文
src_lang
所属句子的最大集合;
(3)
基于所述步骤
(2)
中的
n
个词,随机挑选出其中一个词
w
i

(4)
计算词
w
i
与合法词表集合
M

里的所有词的词向量,得出与
w
i
词向欧式距离最近的
k
个预选词,构成预选词集合个预选词,构成预选词集合其中,合法词表集合
M


bert
语言模型
M
的词表;
(5)
词替换:基于所述步骤
(2)
中的原文句子
x

{w1,

,w
i
,

,w
n
}
,用预选词集合里的词遍历,分别替换原文句子
x

{w1,

,w
i
,

,w
n
}
中的待替换词,得到若干替换后句子
x


(6)
基于所述步骤
(5)
中的替换后句子
x

和原文句子
x
,根据式:计算每个替换后句子
x

和原文句子
x
的余弦相似度差值
E(x,x`)
,其中,和表示两个句子的句向量余弦相似度,
f(*)
为机翻模型
f_MT
的推理函数,
g(*)
为机翻模型
g_MT
的推理函数;
(7)

E(x,x
`
)
分值最高的替换后句子
x
`
替换原文句子
x

(8)
判断所述步骤
(7)
中的替换后句子
x
`
...

【专利技术属性】
技术研发人员:朱宪超吴阳剑
申请(专利权)人:四川语言桥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1