一种语音处理模型的训练方法及装置制造方法及图纸

技术编号：22660163 阅读：25 留言：0更新日期：2019-11-28 03:59

本申请提供一种语音处理模型的训练方法及装置。其中，所述方法包括：获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并基于所述目标语言语句和所述标准目标语言语句对所述语音翻译模型进行更新；将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并基于所述源语言音标序列与所述标准源语言音标序列对所述声学模型进行更新。本申请提供的语音处理模型的训练方法及装置，可以有效提升模型的训练效果。

A training method and device of speech processing model

The present application provides a training method and device for speech processing model. Among them, the method includes: acquiring training samples and sample labels, the training samples include source language speech data, the sample labels include standard target language statements and standard source language speech sequences, inputting the source language speech data into the encoder for processing, generating encoding vectors, inputting the encoding vectors into the first decoder for processing Processing, generating a target language statement, and updating the voice translation model based on the target language statement and the standard target language statement; inputting the coding vector into the second decoder for processing, generating a source language phonetic alphabet sequence, and updating the acoustic model based on the source language phonetic alphabet sequence and the standard source language phonetic alphabet sequence \u3002 The training method and device of the speech processing model provided by the application can effectively improve the training effect of the model.

全部详细技术资料下载

【技术实现步骤摘要】
一种语音处理模型的训练方法及装置
本申请涉及计算机
，特别涉及一种语音处理模型的训练方法及装置、计算设备及计算机可读存储介质。
技术介绍
语音识别技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。现有的机器翻译技术主要是针对源语言文本到目标语言文本。目前，对于语音数据的翻译是先通过ASR识别出文本，再利用传统的机器翻译技术将识别出的文本翻译成目标语言文本。但是此种翻译方法易造成语音识别及机器翻译两阶段的错误累加，翻译结果不准确。
技术实现思路
有鉴于此，本申请实施例提供了一种语音处理模型的训练方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。本申请实施例公开了一种语音处理模型的训练方法，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；所述训练方法，包括：获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语...

【技术保护点】
1.一种语音处理模型的训练方法，其特征在于，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；/n所述训练方法，包括：/n获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；/n将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；/n将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并将所述目标语言语句和所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述语音翻译模型进行更新；/n将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并将所述源语言音标序列和所述标准语言音标序列进行对比，基于所述源语言音标序列与所述标准源语言音标序列的对比结果，对所述声学模型进行更新。/n

【技术特征摘要】
1.一种语音处理模型的训练方法，其特征在于，所述语音处理模型包括语音翻译模型和声学模型，所述语音翻译模型和声学模型包括同一个编码器，所述语音翻译模型还包括第一解码器，所述声学模型还包括第二解码器；
所述训练方法，包括：
获取训练样本和样本标签，所述训练样本包括源语言语音数据，所述样本标签包括标准目标语言语句和标准源语言音标序列；
将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量；
将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，并将所述目标语言语句和所述标准目标语言语句进行对比，基于所述目标语言语句和所述标准目标语言语句的对比结果，对所述语音翻译模型进行更新；
将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，并将所述源语言音标序列和所述标准语言音标序列进行对比，基于所述源语言音标序列与所述标准源语言音标序列的对比结果，对所述声学模型进行更新。

2.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述编码器包括编码单元，所述编码单元包括m层编码层，其中，m＞1，且m为整数；
所述将所述源语言语音数据输入至所述编码器中进行处理，生成编码向量，包括：
S11、将所述源语言语音数据输入至第1层编码层中进行处理，生成第1层编码层的输出向量；
S12、将第n-1层编码层的输出向量输入至第n层编码层中进行处理，生成第n层编码层的输出向量，其中n≤m，且n为整数；
S13、将n自增1，判断自增1后的n是否小于等于m；若是，则执行步骤S12；若否，则执行步骤S14；
S14、将所述第n层编码层的输出向量作为编码向量。

3.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述第一解码器包括第一注意力单元和第一解码单元；
所述将所述编码向量输入至所述第一解码器中进行处理，生成目标语言语句，包括：
将所述编码向量输入至所述第一注意力单元中进行处理，生成第一中间向量；
将所述第一中间向量输入至所述第一解码单元中进行处理，生成目标语言语句。

4.根据权利要求3所述的语音处理模型的训练方法，其特征在于，所述第一解码单元包括p层翻译解码层，其中，p＞1，且p为整数；
所述将所述第一中间向量输入至所述第一解码单元中进行处理，生成目标语言语句，包括：
S21、将所述第一中间向量输入至第1层翻译解码层中进行处理，生成第1层翻译解码层的输出向量；
S22、将第q-1层翻译解码层的输出向量输入至第q层翻译解码层中进行处理，生成第q层翻译解码层的输出向量，其中q≤p，且q为整数；
S23、将q自增1，判断自增1后的q是否小于等于p；若是，则执行步骤S22；若否，则执行步骤S24；
S24、基于所述第q层翻译解码层的输出向量生成目标语言语句。

5.根据权利要求1所述的语音处理模型的训练方法，其特征在于，所述第二解码器包括第二注意力单元和第二解码单元；
所述将所述编码向量输入至所述第二解码器中进行处理，生成源语言音标序列，包括：
将所述编码向量输入至所述第二注意力单元中进行处理，生成第二中间向量；
将所述第二中间向量输入至所述第二解码单元中进行处理，生成源语言音标序列。

【专利技术属性】
技术研发人员：王峰，唐剑波，李长亮，郭馨泽，
申请(专利权)人：北京金山数字娱乐科技有限公司，成都金山数字娱乐科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人