一种声学模型训练方法、装置、终端设备及存储介质制造方法及图纸

技术编号：29875746 阅读：11 留言：0更新日期：2021-08-31 23:51

本申请适用于信号处理技术领域，提供了一种声学模型训练方法、装置、终端设备及存储介质。本申请实施例通过语句编码模块提取训练语音的n个语句向量，以获取训练语音的语句特征；通过音素编码模块提取训练语音的n段音素向量，以获取训练语音的音素特征；将n个语句向量和n段音素向量输入声学建模模块，以获取训练语音的声学信息；将训练语音的声学信息输入解码模块，以获取训练语音的声谱图；根据训练语音和训练语音的声谱图，更新解码模块的参数，可以从训练语音中捕捉丰富的细颗粒度声学信息，减少训练语音的需求量，从而降低数据集的获取难度并提升数据集的质量，进而提高语音合成的自然度以及和说话者声音的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
一种声学模型训练方法、装置、终端设备及存储介质
本申请属于信号处理
，尤其涉及一种声学模型训练方法、装置、终端设备及存储介质。
技术介绍
语音合成可以将文本转化为对应的语音，目前已经在智能移动终端、智能家居、智能机器人领域和车载设备等领域得到广泛应用。一个语音合成系统通常包括声学模型和语言模型，声学模型用于提取语音的声学信息形成声谱图，语言模型用于根据声谱图形成对应的文本。随着语音合成满足了声音清晰的基本要求后，开发重点转移到了提高语音合成的自然度以及和说话者声音的相似度，这对声学模型的性能提出了进一步要求。为了提升声学模型性能，需要获取包含大量高质量语音的数据集，数据集中需要包含多个说话者，从而获取每个说话者的高质量语音，并且要考虑语音在不同的韵律、情感、口音和录制环境等因素下的差异，导致数据集的获取工作繁重，容易由于数据集质量不佳影响声学模型的识别准确度和声音质量。
技术实现思路
有鉴于此，本申请实施例提供了一种声学模型训练方法、装置、终端设备及存储介质，以解决现有的声学模型由于数据集质量不佳影响声学模型的识别准确度和声音质量的问题。本申请实施例的第一方面提供了一种声学模型训练方法，包括：将训练语音分别输入语句编码模块和音素编码模块；通过所述语句编码模块提取所述训练语音的n个语句向量，获取所述训练语音的语句特征；其中，一个语句向量包括多个单词向量，n为大于或等于1的整数；通过所述音素编码模块提取所述训练语音的n段音素向量，获取所述训练语音的音素特征...

【技术保护点】
1.一种声学模型训练方法，其特征在于，包括：/n将训练语音分别输入语句编码模块和音素编码模块；/n通过所述语句编码模块提取所述训练语音的n个语句向量，获取所述训练语音的语句特征；其中，一个语句向量包括多个单词向量，n为大于或等于1的整数；/n通过所述音素编码模块提取所述训练语音的n段音素向量，获取所述训练语音的音素特征，所述n段音素向量与所述n个语句向量一一对应；/n将所述n个语句向量和所述n段音素向量输入声学建模模块，获取所述训练语音的声学信息，所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征；/n将所述训练语音的声学信息输入解码模块，获取所述训练语音的声谱图；/n根据所述训练语音和所述训练语音的声谱图，更新所述解码模块的参数。/n

【技术特征摘要】
1.一种声学模型训练方法，其特征在于，包括：
将训练语音分别输入语句编码模块和音素编码模块；
通过所述语句编码模块提取所述训练语音的n个语句向量，获取所述训练语音的语句特征；其中，一个语句向量包括多个单词向量，n为大于或等于1的整数；
通过所述音素编码模块提取所述训练语音的n段音素向量，获取所述训练语音的音素特征，所述n段音素向量与所述n个语句向量一一对应；
将所述n个语句向量和所述n段音素向量输入声学建模模块，获取所述训练语音的声学信息，所述声学信息包括将所述n个语句特征和所述n段音素特征进行相加的声学特征；
将所述训练语音的声学信息输入解码模块，获取所述训练语音的声谱图；
根据所述训练语音和所述训练语音的声谱图，更新所述解码模块的参数。

2.如权利要求1所述的声学模型训练方法，其特征在于，所述通过所述语句编码模块提取所述训练语音的n个语句向量，获取所述训练语音的语句特征，包括：
通过所述语句编码模块以语句为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征，所述n个语句向量包括局部时频特征以及所述局部时频特征的隐性时序特征。

3.如权利要求2所述的声学模型训练方法，其特征在于，所述语句编码模块包括第一卷积神经网络单元和第一门控循环单元；
通过所述语句编码模块以语句为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征，包括：
通过所述第一卷积神经网络单元以语句为单位获取所述训练语音的局部时频特征，并通过所述第一门控循环单元以语句为单位获取所述局部时频特征的隐性时序特征。

4.如权利要求1所述的声学模型训练方法，其特征在于，所述通过所述音素编码模块提取所述训练语音的n段音素向量，获取所述训练语音的音素特征，包括：
通过所述音素编码模块以音素为单位获取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征，所述n个音素向量包括局部时频特征以及所述局部时频特征的隐性时序特征。

5.如权利要求4所述的声学模型训练方法，其特征在于，所述音素编码模块包括第二卷积神经网络单元和第二门控循环单元；
所述通过所述音素编码模块以音素为单位提取所述训练语音的局部时频特征以及所述局部时频特征的隐性时序特征，包括：
通过所述第二卷积神经网络单元以音素为单位获取所述训练语音的局部时频特征，并通过所述第二门控循环单元以音素为单位获取所述局部时频特征的隐性时序特征。

6....

【专利技术属性】
技术研发人员：郭洋，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人