融合短语知识的日中机器翻译方法和系统技术方案

技术编号:35704368 阅读:21 留言:0更新日期:2022-11-23 15:00
本发明专利技术提供一种融合短语知识的日中机器翻译方法、系统、存储介质和电子设备,涉及机器翻译技术领域。本发明专利技术显式地建模源语言和目标语言的短语信息,并且通过交叉注意力融合到Transformer的编码器和解码器中,为了进一步利用短语翻译知识,还引入了词语记忆和拷贝网络,有效克服了经典的深度机器翻译中端到端学习带来的可控性和可解释性问题;同时也没有带来解码过程复杂度的增加。此外,本发明专利技术针对文节结构进行建模,把文节作为一个整体去编码表示和翻译,这样有利于提高文节的翻译质量;以及由于在匹配短语表之后于一定程度上透露整句翻译的信息,更有利于解码决策过程,从而提高了整体的翻译效果。高了整体的翻译效果。高了整体的翻译效果。

【技术实现步骤摘要】
融合短语知识的日中机器翻译方法和系统


[0001]本专利技术涉及机器翻译
,具体涉及一种融合短语知识的日中机器翻译方法、系统、存储介质和电子设备。

技术介绍

[0002]机器翻译是指利用计算机在不同自然语言之间的进行自动翻译的技术,如将日文自动转化为中文,此时日文被称为源语言,中文则被称为目标语言。自从基于噪音信道原理的机器翻译提出之后,研究者们先后提出基于规则、基于实例和基于统计等一系列的方法。近年来随着深度学习的发展,基于深度神经网络的机器翻译(NMT)已经成为主流技术,其采用端到端的训练方式,避免了特征工程的繁琐和分模块带来的错误累计,因此在工业界和学术界均取得了巨大的成功。
[0003]目前,深度学习模型Transformer为序列到序列学习提供了一种全新的解决思路,它是第一个完全基于注意力机制搭建的模型,由于自注意力机制的优点在于可以直接对序列中任意两个单元之间的关系进行建模,这使得长距离依赖等问题可以更好地被求解。此外,自注意力机制非常适合在GPU上进行并行化,因此模型训练的速度很快,在翻译任务上也获得了更好的结果,一跃成为目前最主流的神经机器翻译框架,同时在自然语言处理的各项任务上也取得了很好的成绩。
[0004]然而,也正是由于基于Transformer的神经网络机器采用端到端学习训练方式,其可控性和可解释性方面存在着缺陷,影响了翻译质量。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种融合短语知识的日中机器翻译方法、系统、存储介质和电子设备,解决了现有日中机器翻译质量有待提高的技术问题。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种融合短语知识的日中机器翻译方法,遵循基于Transformer的编码器

解码器结构,该方法包括:
[0010]S1、获取日文语句,对所述日文语句进行文节识别;
[0011]S2、根据预先构建的短语表,依次对识别所得文节进行短语匹配,获取相互间存在对齐关系的日文短语和中文短语;
[0012]S3、采用日文短语编码器将每一所述日文短语编码表示为第一向量,采用中文短语编码器将每一所述中文短语编码标识为第二向量;
[0013]S4、将所述日文语句输入编码器中,结合所述第一向量,获取融合日文短语信息的上下文表示;
[0014]S5、初始化待生成的中文语句,将前一时刻翻译输出的中文词序列输入解码器中,
结合所述第二向量和融合日文短语信息的上下文表示,获取当前时刻的隐藏表示;
[0015]S6、根据当前时刻的隐藏表示,获取当前解码结果中每个中文词汇的概率分布,记为生成概率;
[0016]获取当前解码结果中每个中文词为拷贝词语记忆中一个中文词的概率,记为拷贝概率;所述词语记忆为S2中获取的所有中文短语的内容词组成;
[0017]S7、根据所述生成概率和拷贝概率,获取当前时刻的输出;
[0018]S8、重复执行S5~S7,直到生成句子结束标记,将所有时刻的输出连接起来构成机器翻译的中文语句。
[0019]优选的,所述S2中短语表的构建过程包括:
[0020]S2a、对日中平行语料进行预处理,包括对双语分别进行中文分词和日文分词,并针对日文识别出文节;
[0021]S2b、基于词对齐工具得到词对齐,获取双语之间的词对齐关系;
[0022]S2c、从词对齐中挖掘候选短语对:
[0023]其中挖掘的候选日文短语限定为在同一个文节内部且长度小于等于预设数量的连续词语片段;挖掘的候选中文短语为长度小于等于相同预设数量,且和候选日文短语满足对齐一致性的目标句子片段;
[0024]S2d、短语对过滤:
[0025]若一个候选日文短语对应多个候选中文短语,仅保留分数最高的前预设个数的目标中文短语。
[0026]优选的,所述S2d中每一短语对的分数为其共现频次和相似度的乘积,其中相似度通过mBERT计算得到,具体过程如下:
[0027]Similarity(P
i
,P
j
)=Cosine(Enc(P
i
),Enc(P
j
))
ꢀꢀ
(1)
[0028][0029]c1,c2,...,c
L
=mBERT(P
i1
,P
i2
,...,P
iL
)
ꢀꢀ
(3)
[0030]其中,Similarity(P
i
,P
j
)表示日语短语P
i
和中文短语P
j
的相似度,Cosine为余弦距离,Enc(P)为短语的向量表示,P
i1
,P
i2
,...,P
iL
为短语P
i
被mBERT切分后的子词序列,c1,c2,...,c
L
为其mBERT输出的上下文表示向量序列。
[0031]优选的,所述S3中采用日文短语编码器将每一所述日文短语编码表示为第一向量,具体包括:
[0032]假设日文短语分词之后表示为S=s1,s2,...,s
M

[0033]首先,获取该短语的初始向量表示即:
[0034][0035]其中,s
m
为日语短语中的第m个词,E(s
m
)为其词向量;
[0036]其次,获取该短语的最终向量表示如下:
[0037][0038][0039]其中,α
m
为初始表示对第m个词的注意力分布概率,
·
表示向量内积操作符,公式
(6)中的softmax函数实现了概率的归一化,保证在各个词上的注意力概率之和为1;
[0040]优选的,所述S3中采用中文短语编码器将每一所述中文短语编码标识为第二向量,具体包括:
[0041]假设在短语匹配阶段,日文短语为S,对应I个中文短语,即T1,T2,...,T
I

[0042]首先,计算每一个中文短语T
i
=t1,t2,...,t
N
的向量表示如下:
[0043][0044][0045]其中,t
j
为该中文短语中的第j个词,公式(8)中的softmax函数实现了概率的归一化,保证了在各个词上的注意力概率之和为1;E(t
j
)为其词向量;β
j
为日文短语对中文短语中第j个词的注意力分布概率;Linear表示线性映射,其输入和输出保持维数不变;此时,得到I个中文短语,即
[0046]其次,聚合成一个中文短语表示如下:
[0047][00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合短语知识的日中机器翻译方法,其特征在于,遵循基于Transformer的编码器

解码器结构,该方法包括:S1、获取日文语句,对所述日文语句进行文节识别;S2、根据预先构建的短语表,依次对识别所得文节进行短语匹配,获取相互间存在对齐关系的日文短语和中文短语;S3、采用日文短语编码器将每一所述日文短语编码表示为第一向量,采用中文短语编码器将每一所述中文短语编码标识为第二向量;S4、将所述日文语句输入编码器中,结合所述第一向量,获取融合日文短语信息的上下文表示;S5、初始化待生成的中文语句,将前一时刻翻译输出的中文词序列输入解码器中,结合所述第二向量和融合日文短语信息的上下文表示,获取当前时刻的隐藏表示;S6、根据当前时刻的隐藏表示,获取当前解码结果中每个中文词汇的概率分布,记为生成概率;获取当前解码结果中每个中文词为拷贝词语记忆中一个中文词的概率,记为拷贝概率;所述词语记忆为S2中获取的所有中文短语的内容词组成;S7、根据所述生成概率和拷贝概率,获取当前时刻的输出;S8、重复执行S5~S7,直到生成句子结束标记,将所有时刻的输出连接起来构成机器翻译的中文语句。2.如权利要求1所述的日中机器翻译方法,其特征在于,所述S2中短语表的构建过程包括:S2a、对日中平行语料进行预处理,包括对双语分别进行中文分词和日文分词,并针对日文识别出文节;S2b、基于词对齐工具得到词对齐,获取双语之间的词对齐关系;S2c、从词对齐中挖掘候选短语对:其中挖掘的候选日文短语限定为在同一个文节内部且长度小于等于预设数量的连续词语片段;挖掘的候选中文短语为长度小于等于相同预设数量,且和候选日文短语满足对齐一致性的目标句子片段;S2d、短语对过滤:若一个候选日文短语对应多个候选中文短语,仅保留分数最高的前预设个数的目标中文短语。3.如权利要求2所述的日中机器翻译方法,其特征在于,所述S2d中每一短语对的分数为其共现频次和相似度的乘积,其中相似度通过mBERT计算得到,具体过程如下:Similarity(P
i
,P
j
)=Cosine(Enc(P
i
),Enc(P
j
))
ꢀꢀꢀꢀ
(1)c1,c2,...,c
L
=mBERT(P
i1
,P
i2
,...,P
iL
)
ꢀꢀꢀꢀꢀꢀ
(3)其中,Similarity(P
i
,P
j
)表示日语短语P
i
和中文短语P
j
的相似度,Cosine为余弦距离,Enc(P)为短语的向量表示,P
i1
,P
i2
,...,P
iL
为短语P
i
被mBERT切分后的子词序列,c1,c2,...,c
L
为其mBERT输出的上下文表示向量序列。
4.如权利要求1所述的日中机器翻译方法,其特征在于,所述S3中采用日文短语编码器将每一所述日文短语编码表示为第一向量,具体包括:假设日文短语分词之后表示为S=s1,s2,...,s
M
;首先,获取该短语的初始向量表示即:其中,s
m
为日语短语中的第m个词,E(s
m
)为其词向量;其次,获取该短语的最终向量表示如下:如下:其中,α
m
为初始表示对第m个词的注意力分布概率,
·
表示向量内积操作符,公式(6)中的softmax函数实现了概率的归一化,保证在各个词上的注意力概率之和为1;和/或所述S3中采用中文短语编码器将每一所述中文短语编码标识为第二向量,具体包括:假设在短语匹配阶段,日文短语为S,对应I个中文短语,即T1,T2,...,T
I
;首先,计算每一个中文短语T
i
=t1,t2,...,t
N
的向量表示如下:如下:其中,t
j
为该中文短语中的第j个词,公式(8)中的softmax函数实现了概率的归一化,保证了在各个词上的注意力概率之和为1;E(t
j
)为其词向量;β
j
为日文短语对中文短语中第...

【专利技术属性】
技术研发人员:李泽中孙晓师飘
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1