基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置制造方法及图纸

技术编号:31792653 阅读:13 留言:0更新日期:2022-01-08 10:51
本发明专利技术涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理领域。针对汉语

【技术实现步骤摘要】
基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置


[0001]本专利技术涉及基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,属于自然语言处理


技术介绍

[0002]由于缅甸语属于低资源语言,汉语

缅甸语双语数据较难获得,但是互联网中存在大量缅甸语和汉语单语数据,基于回译的半监督神经机器翻译方法在低资源神经机器翻译取得了明显的效果,因此,如何利用大量缅甸语、汉语单语语料提升汉语

缅甸语翻译模型性能成为了关键问题。
[0003]基于回译的方法在结构差异性较小的低资源语言对,如英法,英德,取得了较为显著的效果。然而,对于汉缅机器翻译,由于语料资源稀缺而且结构差异较大,回译生成的伪语料存在漏译,多译,错译的问题,传统基于Transformer编码端的Self

attention机制不能有效区别回译中产生的伪平行数据的噪声对句子编码的影响,致使回译方法应用于结构差异较大的低资源的语对上效果欠佳。

技术实现思路

[0004]本专利技术提供了基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置,解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题,提升了汉语

缅甸语翻译性能。
[0005]本专利技术的技术方案是:第一方面,基于模型不确定性约束的半监督汉缅神经机器翻译方法,所述方法的具体步骤如下:
[0006]Step1、对汉语

缅甸语文本数据进行预处理:将汉语r/>‑
缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词等处理;
[0007]Step2、模型不确定性注意力机制的获取:句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;
[0008]Step3、模型不确定性为约束的汉缅神经机器翻译训练算法:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语

缅甸语回译任务翻译性能;
[0009]Step4、通过使用训练好的汉语

缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。
[0010]作为本专利技术的进一步方案,在数据预处理层面,对汉语

缅甸语数据进行数据清洗,长度比过滤,分词等工作,主要是为了提升翻译质量,规范翻译流程,提高模型性能。
[0011]所述Step1的具体步骤为:
[0012]Step1.1、汉语

缅甸语文本数据清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;
[0013]Step1.2、缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转
换,变成Unicode字体;
[0014]Step1.3、长度比过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;
[0015]Step1.4、分词:汉语

缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。
[0016]作为本专利技术的进一步方案,所述Step2的具体步骤为:
[0017]Step2.1、在回译过程中,给定一个真实的目标语言句子y,y∈{D
m
},通过标准的transformer模型解码预测其对应的为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元(dropout)并重新计算翻译概率(同时保持y和固定)来进行翻译概率的采样,最终获得回译过程中的模型不确定性;
[0018]Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。
[0019]作为本专利技术的进一步方案,所述Step2.2的具体步骤为:
[0020]Step2.2.1、Transformer的核心是运用多头的Self

attention自注意力机制,每一个注意力机制头都是对n个元素的输入序列x=(x1,...,x
n
),其中接着计算得出同样长度的序列c=(c1,...,c
n
),其中在此专利技术中,我们用标记文本句子向量特征,用标记与文本句子词对齐的model

uncertainty。如图3所示,Uncertainty Enc

Attention可表示为:
[0021][0022]其中是softmax函数计算的权重系数:
[0023][0024]Step2.2.2、Uncertainty Enc

Attention最后计算得出结合句子文本向量表征和model

uncertainty表征的隐藏层向量c,其中在Transformer编码端最后一层,c被送入解码端去产生目标语言序列,能区分伪语料中噪声的句子编码向量是用文本句子向量与该句子词对齐的模型不确定性值向量作注意力机制得到,这样句子编码表征能捕捉到上下文的模型不确定性值,在编码时能对模型不确定性值较大的词给予更多的关注,用于实现模型在编码过程中能更好的区分来自伪语料中的噪声数据,即漏译,错译,多译的词。
[0025]作为本专利技术的进一步方案,所述Step3的具体步骤为:
[0026]Step3.1、为使编码端既能学习回译质量较高的词的编码表征,又能有效降低质量较低的词(漏译,错译,多译的词)对句子有效向量表征的影响,提出,汉缅神经机器翻译训练时,编码端编码方式为:
[0027]其中attn
S
和attn
un
是不同参数的注意力机制模型;
[0028]Step3.2、随后进一步送入非线性变换层FFN(
·
),在此得到了能够有效处理回译语料中噪声的编码向量:最后编码端会输出最后一层的隐藏层状态解码端是常规的transformer解码端,解码过程持续进行直到遇到结束的特殊字符为止。
[0029]另一方面,基于模型不确定性约束的半监督汉缅神经机器翻译装置,包括用于执行如第一方面所述方法的模块。
[0030]本专利技术的有益效果是:
[0031]本专利技术提出以实验为支撑的融合机制策略,实现了将模型不确定性融进Transformer编码端每一层表征,解决了回译方法应用在汉缅神经机器翻译任务中性能较差的问题;提出模型不确定性注意力机制,用自注意力机制将模型不确定性与Embedding进行深度融合,使编码端能更好的得到伪语料的句子向量表征。汉语

缅甸语神经机器翻译方法具有一定的理论意义和实际应用价值。
附图说明
[0032]图1为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、对汉语

缅甸语文本数据进行预处理:将汉语

缅甸语文本数据进行数据清洗、编码转换、长度比过滤、分词处理;Step2、模型不确定性注意力机制的获取:句子编码表征捕捉到上下文的模型不确定性值,编码时对模型不确定值较大词给予更多的关注;Step3、模型不确定性为约束的汉缅神经机器翻译训练算法:将回译过程的模型不确定性融进Transformer编码端每一层表征,提升汉语

缅甸语回译任务翻译性能;Step4、通过使用训练好的汉语

缅甸语互译模型,实现汉语到缅甸语的翻译和缅甸语到汉语的翻译。2.根据权利要求1所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step1的具体步骤为:Step1.1、汉语

缅甸语文本数据清洗:去除汉语、缅甸语文本中的乱码字符,规范标点符号表示方法;Step1.2、缅甸语编码转换:缅甸语存在zawgyione字体、Myanmar3字体统一编码转换,变成Unicode字体;Step1.3、长度比过滤:保留汉语比缅甸语句子长度比在1~1.5的句子,移除少于5个词,大于30个词的语句,用于提升模型训练效率;Step1.4、分词:汉语

缅甸语双语平行句对用分词粒度为16K的BPE分词进行处理,所得汉语词典大小为10k,缅甸语词典大小为5k。3.根据权利要求1所述的基于模型不确定性约束的半监督汉缅神经机器翻译方法,其特征在于:所述Step2的具体步骤为:Step2.1、在回译过程中,给定一个真实的目标语言句子y,y∈{D
m
},为了量化模型在预测时的模型不确定性,首先将词级别的翻译概率视作随机变量,通过随机停用NMT模型的部分神经元并重新计算翻译概率来进行翻译概率的采样,最终获得回译过程中的模型不确定性;Step2.2、将文本句子向量表征与模型不确定性特征通过CrossAttention机制建模,计算得出结合句子文本向量表征和模型不确定性表征的隐藏层向量,能区分伪语料中噪声。4.根据权...

【专利技术属性】
技术研发人员:毛存礼王琳钦余正涛高盛祥黄于欣王振晗
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1