语音处理方法、系统、设备及存储介质技术方案

技术编号:35217513 阅读:17 留言:0更新日期:2022-10-15 10:33
本发明专利技术涉及人工智能,提供了一种语音处理方法、系统、设备及存储介质,该方法包括:获取语音信号和说话人向量,其中,语音信号包括时域分辨率;根据语音信号得到梅尔谱数据;将梅尔谱数据导入预设的声码器网络结构中的第一卷积层进行提取处理,得到初始隐状态数据,声码器网络结构包括第一卷积层、上采样层、残差层和第二卷积层,其中,第一卷积层的通道数量与第二卷积层的通道数量不同;在初始隐状态数据经过上采样层的上采样处理,得到降维隐状态数据的情况下,将说话人向量和降维隐状态数据导入残差层进行合成处理,得到混合数据,其中,降维隐状态数据的序列长度与时域分辨率一致;将混合数据导入第二卷积层进行降维处理,得到语音波形。语音波形。语音波形。

【技术实现步骤摘要】
语音处理方法、系统、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种语音处理方法、系统、设备及存储介质。

技术介绍

[0002]目前,在语音合成(Text to Speech,简称TTS)技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。语音合成就是一个将文本转化为语音输出的过程,该过程分成三个部分,文字前端、声学模型和声码器,文字前端将文字转化为音素、语气、语调控制信息,声学模型再将这些信息转化为频谱图,声码器的作用是将频谱图转化为声波,声码器为TTS流程中的后端。
[0003]声码器承担着很重要的角色,声码器的好坏往往决定着整个语音处理系统的质量。在拥有多说话人大量训练数据的前提下,相关技术的声码器实现方法已能合成训练数据集内各说话人的高自然度语音。然而,针对训练数据集以外说话人且数据量匮乏的情况,相关技术的声码器实现方法的合成自然度欠佳。通常依靠尽可能多地录制说话人数据以改善合成自然度,需要耗费大量的人力和精力,因此,如何提高说话人语音合成的自然度,成为了亟待解决的技术问题。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本专利技术实施例提供了一种语音处理方法、系统、设备及存储介质,能够在数据量匮乏的情况下,提高说话人语音合成的自然度。
[0006]第一方面,本专利技术实施例提供了一种语音处理方法,该方法包括:
[0007]获取语音信号和说话人向量,其中,所述语音信号包括时域分辨率;
[0008]根据所述语音信号得到梅尔谱数据;
[0009]将所述梅尔谱数据导入预设的声码器网络结构中的第一卷积层进行提取处理,得到初始隐状态数据,所述声码器网络结构包括所述第一卷积层、上采样层、残差层和第二卷积层,其中,所述第一卷积层的通道数量与所述第二卷积层的通道数量不同;
[0010]在所述初始隐状态数据经过所述上采样层的上采样处理,得到降维隐状态数据的情况下,将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,其中,所述降维隐状态数据的序列长度与所述时域分辨率一致;
[0011]将所述混合数据导入所述第二卷积层进行降维处理,得到语音波形。
[0012]根据本专利技术提供的实施例的语音处理方法,至少具有如下有益效果:通过语音信号可以得到时域分辨率,还可以对语音信号进行处理得到梅尔谱数据。在得到梅尔谱数据后,导入预设的声码器网络结构中,通过第一卷积层对梅尔谱数据进行提取处理,可以提取得到梅尔谱数据对应的初始隐状态数据。利用声码器网络结构中的上采样层对初始隐状态
数据进行上采样处理,降低初始隐状态数据的特征维度,得到降维隐状态数据,使得降维隐状态数据的序列长度和语音信号的时域分辨率一致,提高后续语音合成的自然度。从而,将降维隐状态数据和说话人向量导入残差层进行合成处理,建立语音之间的相关性,得到混合数据。再通过第二卷积层对混合数据进行降维处理,得到所需的语音波形。本专利技术实施例提供的语音处理方法通过预设的声码器网络结构,利用上采样层提高梅尔谱数据对应的降维隐状态数据的时域分辨率,再利用残差层建模语音在时间刻度上的局部相关性,同时在残差层中引入说话人向量,能够在针对合成数据集以外的说话人语音且数据量匮乏的情况下,提高说话人语音合成的自然度。
[0013]根据本专利技术的一些实施例,在上述语音处理方法中,所述将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,包括:
[0014]根据预设的激活函数,对所述说话人向量和所述降维隐状态数据进行计算,得到综合映射数据;
[0015]根据所述综合映射数据和所述降维隐状态数据,得到混合数据。
[0016]通过预设的激活函数将残差层的输入即说话人向量和降维隐状态数据进行加权求和计算,从而能够映射得到综合映射数据。通过综合映射数据和降维隐状态数据进行叠加计算处理,得到混合数据,通过在残差层引入说话人向量,提升合成特定说话人时语音自然度。
[0017]根据本专利技术的一些实施例,在上述语音处理方法中,所述根据预设的激活函数,对所述说话人向量和所述降维隐状态数据进行计算,得到综合映射数据,包括:
[0018]将所述降维隐状态数据与说话人卷积量进行叠加处理,得到初始混合数据;
[0019]将所述初始混合数据导入预设的第一激活函数进行计算,得到第一映射数据;将所述初始混合数据导入预设的第二激活函数进行计算,得到第二映射数据;
[0020]将所述第一映射数据和所述第二映射数据进行矩阵点乘计算,得到综合映射数据;
[0021]其中,所述说话人卷积量表征为所述说话人向量经过一维卷积计算得到的数值。
[0022]对降维隐状态数据和说话人卷积量进行叠加处理,得到用于语音信号和说话人信息混合的初始混合数据。将初始混合数据分别导入预先设置好的第一激活函数和第二激活函数中进行计算处理,即利用预先设置好的第一激活函数对初始混合数据进行加权求和计算,得到第一映射数据,同时,利用预先设置好的第二激活函数对初始混合数据进行加权求和计算,得到第二映射数据。利用多个激活函数对初始混合数据进行计算能够有效改善特定说话人语音合成自然度。
[0023]根据本专利技术的一些实施例,在上述语音处理方法中,根据所述综合映射数据和所述降维隐状态数据,得到混合数据,包括:
[0024]将所述综合映射数据经过一维卷积计算得到的数值与降维隐状态卷积量进行叠加处理,得到混合数据;
[0025]其中,所述降维隐状态卷积量表征为所述降维隐状态数据经过一维卷积计算得到的数值。
[0026]由于语音信号是一维信号,为了提高语音波形合成自然度,通过对综合映射数据进行一维卷积计算得到的数值与降维隐状态数据经过一维卷积计算得到的数值进行叠加,
能够对综合映射数据的维度和降维隐状态数据的维度进行规整,有助于进行叠加处理,提高混合数据的准确性。
[0027]根据本专利技术的一些实施例,在上述语音处理方法中,所述上采样层和所述残差层设置有多个,所述上采样层的数量与所述残差层的数量一一对应且所述上采样层与所述残差层依次连接;
[0028]所述在所述初始隐状态数据经过所述上采样层的上采样处理,得到降维隐状态数据的情况下,将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,包括:
[0029]在所述降维隐状态数据的序列长度与所述时域分辨率不一致的情况下,将所述混合数据导入下一个上采样层进行上采样处理,得到新的降维隐状态数据;
[0030]将所述说话人向量和新的降维隐状态数据导入下一个残差层进行合成处理,得到新的混合数据,直至新的降维隐状态数据的序列长度与所述时域分辨率一致。
[0031]对降维隐状态数据的序列长度和时域分辨率进行比较,当降维隐状态数据的序列长度与时域分辨率不一致本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,所述方法包括:获取语音信号和说话人向量,其中,所述语音信号包括时域分辨率;根据所述语音信号得到梅尔谱数据;将所述梅尔谱数据导入预设的声码器网络结构中的第一卷积层进行提取处理,得到初始隐状态数据,所述声码器网络结构包括所述第一卷积层、上采样层、残差层和第二卷积层,其中,所述第一卷积层的通道数量与所述第二卷积层的通道数量不同;在所述初始隐状态数据经过所述上采样层的上采样处理,得到降维隐状态数据的情况下,将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,其中,所述降维隐状态数据的序列长度与所述时域分辨率一致;将所述混合数据导入所述第二卷积层进行降维处理,得到语音波形。2.根据权利要求1所述的语音处理方法,其特征在于,所述将所述说话人向量和所述降维隐状态数据导入所述残差层进行合成处理,得到混合数据,包括:根据预设的激活函数,对所述说话人向量和所述降维隐状态数据进行计算,得到综合映射数据;根据所述综合映射数据和所述降维隐状态数据,得到混合数据。3.根据权利要求2所述的语音处理方法,其特征在于,所述根据预设的激活函数,对所述说话人向量和所述降维隐状态数据进行计算,得到综合映射数据,包括:将所述降维隐状态数据与说话人卷积量进行叠加处理,得到初始混合数据;将所述初始混合数据导入预设的第一激活函数进行计算,得到第一映射数据;将所述初始混合数据导入预设的第二激活函数进行计算,得到第二映射数据;将所述第一映射数据和所述第二映射数据进行矩阵点乘计算,得到综合映射数据;其中,所述说话人卷积量表征为所述说话人向量经过一维卷积计算得到的数值。4.根据权利要求2所述的语音处理方法,其特征在于,根据所述综合映射数据和所述降维隐状态数据,得到混合数据,包括:将所述综合映射数据经过一维卷积计算得到的数值与降维隐状态卷积量进行叠加处理,得到混合数据;其中,所述降维隐状态卷积量表征为所述降维隐状态数据经过一维卷积计算得到的数值。5.根据权利要求1所述的语音处理方法,其特征在于,所述上采样层和所述残差层设置有多个,所述上采样层的数量与所述残差层的数量一一对应且所述上采样层与所述残差层依次连接;所述在所述初始...

【专利技术属性】
技术研发人员:郭洋王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1