语音翻译方法、装置、设备及可读存储介质制造方法及图纸

技术编号:37315553 阅读:17 留言:0更新日期:2023-04-21 22:57
本申请公开了一种语音翻译方法、装置、设备及可读存储介质。本方案中,在获取待翻译的源语言语音之后,对源语言语音进行处理,得到源语言类文本表征,并对源语言类文本表征进行解码得到目标语言文本,该方案中,生成的源语言类文本特征与真实的源语言文本的序列长度一致,基于源语言类文本表征得到的目标语言文本相对于基于源语言语音的声学特征得到的目标语言文本准确度更高,因此,本方案能够有效提高语音翻译的效果。提高语音翻译的效果。提高语音翻译的效果。

【技术实现步骤摘要】
语音翻译方法、装置、设备及可读存储介质


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种语音翻译方法、装置、设备及可读存储介质。

技术介绍

[0002]语音翻译(Speech Translation,ST)的目的是将源语言中的语音翻译成目标语种的文本。传统的语音翻译系统通常遵循一个级联模型,包括两个子任务:自动语音识别(Automatic Speech Recognition,ASR)和机器翻译(Machine Translation,MT)。这种级联模型主要存在错误传播和高延迟问题。近年来,为了解决级联模型的问题,端到端的语音翻译模型被提出。端到端的语音翻译模型主流使用自动语音识别模型的编码器(encoder)编码源端输入(即,源语言语音),再用机器翻译模型的解码器(decoder)解码为目标端输出(即,目标语言文本),但是,这种编码器

解码器结构的语音翻译模型对语义的建模能力较差,导致语音翻译效果较差。
[0003]为了提升语音翻译模型对语义的建模能力,目前有一些语音翻译模型是将机器翻译模型的encoder插入至语音翻译模型的编码器和解码器之间,将语音翻译模型的编码器得到的声学特征序列输入至机器翻译模型的编码器,但是,由于机器翻译模型在训练时,编码器接收的输入是文本序列,因此,机器翻译模型的编码器的期望输入是文本序列,而声学特征序列与机器翻译模型训练时输入编码器的文本序列的长度不一致,这将影响语音翻译模型的学习,导致语音翻译模型的语音翻译效果较差。
[0004]因此,如何提供一种语音翻译方法,以提升语音翻译效果,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]鉴于上述问题,本申请提出了一种语音翻译方法、装置、设备及可读存储介质。具体方案如下:
[0006]一种语音翻译方法,所述方法包括:
[0007]获取待翻译的源语言语音;
[0008]对所述源语言语音进行处理,得到源语言类文本表征,并对所述源语言类文本表征进行解码得到目标语言文本,所述源语言类文本表征与所述源语言语音对应的源语言文本的序列长度一致。
[0009]可选地,所述对所述源语言语音进行处理,得到源语言类文本表征,并对所述源语言类文本表征进行解码得到目标语言文本,包括:
[0010]将所述源语言语音输入语音翻译模型,所述语音翻译模型包括声学编码器模块、文本编码器模块、语义解码器模块和语音翻译解码器模块;
[0011]所述声学编码器模块对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征,并基于所述源语言语音的声学表征得到源语言预测文本;
[0012]所述文本编码器模块基于所述源语言语音的声学表征以及所述源语言预测文本,得到所述源语言语音对应的源语言文本表征;
[0013]所述语义解码器模块对所述源语言文本表征进行语义解码处理,得到源语言类文本表征,所述源语言类文本表征与所述源语言语音对应的源语言文本的序列长度一致;
[0014]所述语音翻译解码器模块对所述源语言类文本表征进行解码,得到目标语言文本。
[0015]可选地,所述声学编码器模块包括声学表征提取单元和源语言文本预测单元;
[0016]所述声学编码器模块对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征,并基于所述源语言语音的声学表征得到源语言预测文本,包括:
[0017]所述声学表征提取单元对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征;
[0018]所述源语言文本预测单元基于所述源语言语音的声学表征得到源语言预测文本。
[0019]可选地,所述文本编码器模块包括映射处理单元、嵌入处理单元、特征融合单元和编码单元;
[0020]所述文本编码器模块基于所述源语言语音的声学表征以及所述源语言预测文本,得到所述源语言语音对应的源语言文本表征,包括:
[0021]所述映射处理单元对所述源语言语音的声学表征进行映射处理,得到映射后的特征;
[0022]所述嵌入处理单元对所述源语言预测文本进行嵌入处理,得到嵌入后的特征;
[0023]所述特征融合单元对所述映射后的特征以及所述嵌入后的特征进行融合,得到融合后的特征;
[0024]所述编码单元对所述融合后的特征进行编码,得到所述源语言语音对应的源语言文本表征。
[0025]可选地,所述语音翻译模型的训练方式如下:
[0026]获取训练用源语言语音、所述训练用源语言语音对应的源语言文本以及所述训练用源语言语音对应的目标语言文本,其中,所述训练用源语言语音对应的源语言文本标注有句尾标签;
[0027]获取预先训练好的机器翻译模型;
[0028]将所述训练用源语言语音对应的源语言文本输入所述预先训练好的机器翻译模型,得到所述预先训练好的机器翻译模型输出的源语言文本特征;
[0029]以所述训练用源语言语音为训练样本,以所述训练用源语言语音对应的源语言文本、所述训练用源语言语音对应的目标语言文本、所述预先训练好的机器翻译模型输出的源语言文本特征和所述训练用源语言语音对应的源语言文本标注的句尾标签为样本标签训练得到所述语音翻译模型。
[0030]可选地,在所述语音翻译模型训练过程中:
[0031]所述声学编码器模块对所述训练用源语言语音进行声学表征提取,得到所述训练用源语言语音的声学表征,并基于所述训练用源语言语音的声学表征得到所述训练用源语言语音对应的源语言预测文本;
[0032]所述文本编码器模块基于所述训练用源语言语音的声学表征以及所述训练用源
语言语音对应的源语言预测文本,得到所述训练用源语言语音对应的源语言文本表征;
[0033]所述语义解码器模块对所述训练用源语言语音对应的源语言文本表征进行语义解码,得到所述训练用源语言语音对应的源语言类文本表征,并基于所述训练用源语言语音对应的源语言类文本表征进行句尾预测之后得到所述训练用源语言语音对应的源语言预测文本,所述训练用源语言语音对应的源语言预测文本包括预测句尾位置;
[0034]所述语音翻译解码器模块对所述训练用源语言语音对应的源语言类文本表征进行解码,得到所述训练用源语言语音对应的目标语言预测文本。
[0035]可选地,所述语音翻译模型训练过程中是以第一损失、第二损失、第三损失和第四损失作为联合损失进行训练的;
[0036]其中,所述第一损失表征所述训练用源语言语音对应的源语言预测文本与所述训练用源语言语音对应的源语言文本之间的差异;
[0037]所述第二损失表征所述训练用源语言语音对应的源语言类文本表征与所述预先训练好的机器翻译模型输出的源语言文本特征之间的差异;
[0038]所述第三损失表征所述训练用源语言语音对应的预测文本与所述训练用源语言语音对应的源语言文本之间的差异;
[0039]所述第四损失表征所述训练用源语言语音对应的目标语言预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音翻译方法,其特征在于,所述方法包括:获取待翻译的源语言语音;对所述源语言语音进行处理,得到源语言类文本表征,并对所述源语言类文本表征进行解码得到目标语言文本,所述源语言类文本表征与所述源语言语音对应的源语言文本的序列长度一致。2.根据权利要求1所述的方法,其特征在于,所述对所述源语言语音进行处理,得到源语言类文本表征,并对所述源语言类文本表征进行解码得到目标语言文本,包括:将所述源语言语音输入语音翻译模型,所述语音翻译模型包括声学编码器模块、文本编码器模块、语义解码器模块和语音翻译解码器模块;所述声学编码器模块对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征,并基于所述源语言语音的声学表征得到源语言预测文本;所述文本编码器模块基于所述源语言语音的声学表征以及所述源语言预测文本,得到所述源语言语音对应的源语言文本表征;所述语义解码器模块对所述源语言文本表征进行语义解码处理,得到源语言类文本表征,所述源语言类文本表征与所述源语言语音对应的源语言文本的序列长度一致;所述语音翻译解码器模块对所述源语言类文本表征进行解码,得到目标语言文本。3.根据权利要求2所述的方法,其特征在于,所述声学编码器模块包括声学表征提取单元和源语言文本预测单元;所述声学编码器模块对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征,并基于所述源语言语音的声学表征得到源语言预测文本,包括:所述声学表征提取单元对所述源语言语音进行声学表征提取,得到所述源语言语音的声学表征;所述源语言文本预测单元基于所述源语言语音的声学表征得到源语言预测文本。4.根据权利要求2所述的方法,其特征在于,所述文本编码器模块包括映射处理单元、嵌入处理单元、特征融合单元和编码单元;所述文本编码器模块基于所述源语言语音的声学表征以及所述源语言预测文本,得到所述源语言语音对应的源语言文本表征,包括:所述映射处理单元对所述源语言语音的声学表征进行映射处理,得到映射后的特征;所述嵌入处理单元对所述源语言预测文本进行嵌入处理,得到嵌入后的特征;所述特征融合单元对所述映射后的特征以及所述嵌入后的特征进行融合,得到融合后的特征;所述编码单元对所述融合后的特征进行编码,得到所述源语言语音对应的源语言文本表征。5.根据权利要求2所述的方法,其特征在于,所述语音翻译模型的训练方式如下:获取训练用源语言语音、所述训练用源语言语音对应的源语言文本以及所述训练用源语言语音对应的目标语言文本,其中,所述训练用源语言语音对应的源语言文本标注有句尾标签;获取预先训练好的机器翻译模型;将所述训练用源语言语音对应的源语言文本输入所述预先训练好的机器翻译模型,得
到所述预先训练...

【专利技术属性】
技术研发人员:周心远邓攀张为泰
申请(专利权)人:科大讯飞上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1