一种降低端到端语音翻译跨模态跨语言障碍的方法及系统技术方案

技术编号:30536700 阅读:27 留言:0更新日期:2021-10-30 13:12
本发明专利技术属于语音翻译技术领域,公开了一种降低端到端语音翻译跨模态跨语言障碍的方法及系统,所述降低端到端语音翻译跨模态跨语言障碍的系统,包括语音编码器和文本解码器;所述降低端到端语音翻译跨模态跨语言障碍的方法包括:数据集以及数据处理;模型预训练;模型训练;模型解码。本发明专利技术提供的降低端到端语音翻译跨模态跨语言障碍的方法,能够使得解码端的每一层都有一个特定的声学表示,在没有引入参数和避免错误传递的情况下达到降低端到端语音翻译跨模态跨语言障碍的目的。本发明专利技术的实现以神经网络为基础,提出的降低端到端语音翻译跨模态跨语言障碍的方法旨在不引入额外参数和避免错误传递的情况下提高语音翻译的质量。量。量。

【技术实现步骤摘要】
一种降低端到端语音翻译跨模态跨语言障碍的方法及系统


[0001]本专利技术属于语音翻译
,尤其涉及一种降低端到端语音翻译跨模态跨语言障碍的方法及系统。

技术介绍

[0002]目前,语音翻译是研究将一种语言的语音翻译成为另一种语言的文本的一种技术,此技术有很多应用场景如:跨国会议、商业会谈、跨境客服、出国旅游,电影配音/字幕制作等。语音翻译的实现主要有两种范式
‑‑
级联范式和端到端范式。传统的语音翻译是采用级联的方式,即一个语音识别模型串联一个机器翻译模型而成。随着研究技术的发展以及研究人员对于语音翻译认知的不断完善,端到端语音翻译逐渐成为研究热点。端到端语音翻译在模型上采用编码器

解码器架构,源端声学信号通过编码器得到高维声学状态,解码端根据编码得到的声学状态解码到另一种语言的文本。
[0003]语音翻译的实现会面临两个问题:一、输入的是声学信号,输出的是文本表示,即跨模态问题。一般来说,在同一个句子下,声学的表示长度要远大于文本表示。二、输入的是一种语言,输出的是另一种语言,即跨语言问题。不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种降低端到端语音翻译跨模态跨语言障碍的系统,其特征在于,所述降低端到端语音翻译跨模态跨语言障碍的系统,包括语音编码器和文本解码器;其中,所述语音编码器由用于编码声学信号的几层卷积神经网络和堆叠在卷积神经网络层之上的几层Transformer编码器层组成;语音特征序列输入到模型中在经过语音编码器得到一个语音状态序列解码端采用自回归的方式基于语音编码端解码得到的状态序列生成目标语言的文本,用公式表达如下:h=SpeechEncoder(x);y
i
=TranslationDecoder(h,y
i
‑1);其中,x为输入的语音特征序列,y
i
为第i个目标词;所述文本解码器的每一层由多头语音

文本混合注意力子层和全连接前馈神经网络子层组成,用于将语音编码器的最后一层输出的高维语音状态序列与目标语言词嵌入序列连接,并将连接后的序列作为解码器的输入;其中,连接的输入序列还包括位置编码和模态编码,用于区分目标语言词嵌入和语音状态序列。2.一种实施权利要求1所述的降低端到端语音翻译跨模态跨语言障碍的系统的降低端到端语音翻译跨模态跨语言障碍的方法,其特征在于,所述降低端到端语音翻译跨模态跨语言障碍的方法包括以下步骤:步骤一,数据集以及数据处理:数据集中包含训练集和测试集,利用英语到德语数据集IWSLT18和英语到法语的数据集Augmented Librispeech实现;步骤二,模型预训练:利用源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练,并将得到的编码端的参数来初始化语言翻译模型的编码器;步骤三,模型训练:使用平行语料在本发明所提出的可以降低端到端语言翻译跨语言跨模态障碍的模型上进行训练;步骤四,模型解码:在模型训练收敛后,使用测试集的数据进行测试,采用beam search算法解码,解码得到的句子使用BLEU作为翻译的评价指标。3.如权利要求2所述的降低端到端语音翻译跨模态跨语言障碍的方法,其特征在于,步骤一中,所述IWSLT18语音翻译数据集来自TED演讲,包含271小时的演讲,171K的英语转录文本和德语翻译文本;从训练集中随机抽取2000个样本作为验证集,使用此数据集的tst2013作为测试集;Augmented Librispeech数据集为每个实例提供英语语音信号、英语转录文本、对齐电子书中的法语文本翻译;使用100小时的干净数据进行训练;其中2小时的数据作为验证集,4小时作为测试集,分别对应47271、1071和2048个句子;通过谷歌翻译将对于转录文本进行翻译,进而得到弱标签数据;在输入到模型之前先对数据进行预处理,将文本的句子改写成全部小写,对于解码的粒度,在IWSLT18数据集上使用字符级别,在Augmented Librispeech数据集使用子词级别,通过sentencepiece工具实现,同时生成字典;将音频信号通过开源工具kaldi提取80维的Fbank特征,步长设为10ms,窗口大小设为25ms,将每一句的语音特征长度大于4000和对齐的效果比较差的句子删除。4.如权利要求2所述的降低端到端语音翻译跨模态跨语言障碍的方法,其特征在于,步骤二中,所述模型预训练,包括:所采用的两个数据集中都包含英文的转录文本,首先利用
源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练;由于CNN+Transformer结构的...

【专利技术属性】
技术研发人员:张婷黄武伟熊德意
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1