一种音频合成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32772252 阅读：8 留言：0更新日期：2022-03-23 19:27

本公开提供了一种音频合成方法、装置、电子设备及存储介质，涉及数据处理技术领域，尤其涉及语音技术技术领域，包括：获取待合成文本；从待合成文本中提取多个第一音素特征向量；对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息；采集用户情绪为特定情绪的音频作为参考音频，并从参考音频中提取情绪特征向量和说话人特征向量；将情绪特征向量和说话人特征向量拼接在多个第一音素特征向量上，得到多个第二音素特征向量；基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频。目标音频。目标音频。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频合成方法、装置、电子设备及存储介质

[0001]本公开涉及数据处理
，尤其涉及语音
，具体涉及一种音频合成方法、装置、电子设备及存储介质。

技术介绍

[0002]相关技术中的音频合成方法，主要是对合成好的目标说话人的某一特定情绪的音频或音频特征进行情绪转换，或者，对合成好的某一特定说话人的目标情绪的音频或音频特征进行音色转换，以实现音频合成。

技术实现思路

[0003]本公开提供了一种音频合成方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面，提供了一种音频合成方法，包括：
[0005]获取待合成文本；
[0006]从所述待合成文本中提取多个第一音素特征向量；
[0007]对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息；
[0008]采集用户情绪为特定情绪的音频作为参考音频，并从所述参考音频中提取情绪特征向量和说话人特征向量；
[0009]将所述情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上，得到多个第二音素特征向量；
[0010]基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频。
[0011]根据本公开的另一方面，提供了一种音频合成装置，包括：
[0012]采集模块，用于获取待合成文本；
[0013]提取模块，用于从所述待合成文本中提取多个第一音素特征向量；
[0014]计算模块，用于对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息；r/>[0015]所述提取模块，还用于采集用户情绪为特定情绪的音频作为参考音频，并从所述参考音频中提取情绪特征向量和说话人特征向量；
[0016]所述计算模块，还用于将所述情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上，得到多个第二音素特征向量；
[0017]合成模块，用于基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频。
[0018]根据本公开的另一方面，提供了一种电子设备，包括：
[0019]至少一个处理器；以及
[0020]与所述至少一个处理器通信连接的存储器；其中，
[0021]所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。
[0022]根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述任一项所述的方法。
[0023]根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述任一项所述的方法。
[0024]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
[0025]在本公开上述方法中，通过将从参考音频提取的情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上使得最后合成的目标音频具有用户的音色特征和与文本相符的情绪特征，提高了最后合成的音频的质量，而基于预测对齐信息和多个第二音素特征向量合成目标音频，进一步提升了目标音频合成的效果和目标音频的质量。
附图说明
[0026]附图用于更好地理解本方案，不构成对本公开的限定。其中：
[0027]图1是根据本公开实施例提供的音频合成方法的流程示意图；
[0028]图2是根据本公开实施例提供的一种音频合成模型训练方法的流程示意图；
[0029]图3是根据本公开实施例提供的另一种音频合成模型训练方法的流程示意图；
[0030]图4是根据本公开实施例提供的音频合成具体方法的流程示意图；
[0031]图5是根据本公开实施例提供的音频合成装置的结构示意图；
[0032]图6是用来实现本公开实施例的音频合成方法的电子设备的框图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
[0034]为了提高合成的音频的质量和合成音频的速度，如图1所示，本公开一实施例提供了一种音频合成方法，该方法包括：
[0035]步骤101，获取待合成文本。
[0036]获取用户需要合成的音频的文本作为待合成文本。
[0037]步骤102，从所述待合成文本中提取多个第一音素特征向量。
[0038]从待合成文本中提取多个第一音素特征向量。
[0039]步骤103，对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息。
[0040]利用音频合成模型中的时长预测模块对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息，对齐信息是指每个第一音素特征向量的帧数，时长预测模块由多个CNN(卷积神经网络层)和全连接层组成；
[0041]例如，提取的3个第一音素特征向量为[a1，a2，a3]，对这三个第一音素特征向量预测出的预测对齐信息为[2，3，1]，则证明第一个第一音素特征向量预测的帧数为2，第二个第一音素特征向量预测的帧数为3，第三个第一音素特征向量预测的帧数为1。
[0042]步骤104，采集用户情绪为特定情绪的音频作为参考音频，并从所述参考音频中提
取情绪特征向量和说话人特征向量。
[0043]采集用户的音频作为参考音频，参考音频的情绪为特定情绪；
[0044]例如，用户需要合成的音频的情绪是开心的，那么就采集该用户情绪为开心的一段音频作为参考音频，若预先采集过该用户情绪为开心的音频，可以直接使用，不用重新进行采集；
[0045]从参考音频中提取参考音频的音频特征，利用音频合成模型中的情绪识别模块从参考音频的音频特征中提取一个情绪特征向量，情绪识别模块由多个CNN、一个pooling(池化)层、一个全连接层和softmax(逻辑回归)组成；
[0046]利用音频合成模型中的声纹识别模块从参考音频的音频特征中提取一个说话人特征向量，声纹识别模块由多个TDNN(时延神经网络)、pooling层、一个全连接层和softmax组成。
[0047]步骤105，将所述情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上，得到多个第二音素特征向量。
[0048]将情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上，使得得到的多个第二音素特征向量带有说话人特征和情绪特征，得到第二音素特征向量的数量与第一音素特征向量的数量相同。
[0049]步骤106，基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频。
[0050]在本实施例提供的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频合成方法，包括：获取待合成文本；从所述待合成文本中提取多个第一音素特征向量；对多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息；采集用户情绪为特定情绪的音频作为参考音频，并从所述参考音频中提取情绪特征向量和说话人特征向量；将所述情绪特征向量和说话人特征向量拼接在各个第一音素特征向量上，得到多个第二音素特征向量；基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频。2.根据权利要求1所述的方法，所述从所述待合成文本中提取多个第一音素特征向量，包括：从所述待合成文本中提取多个第三音素特征向量和各第三音素特征向量对应的位置编码；根据所述位置编码从所述多个第三音素特征向量中提取所述多个第一音素特征向量。3.根据权利要求1所述的方法，所述基于所述预测对齐信息和所述多个第二音素特征向量合成目标音频，包括：基于所述预测对齐信息对所述多个第二音素特征向量进行调整，得到调整后的多个第二音素特征向量；基于所述调整后的多个第二音素特征向量，合成所述目标音频。4.根据权利要求3所述的方法，所述基于所述调整后的多个第二音素特征向量，合成所述目标音频，包括：将所述调整后的多个第二音素特征向量转换成预测梅尔频谱；根据所述预测梅尔频谱合成所述目标音频。5.一种音频合成模型的训练方法，包括：采集训练音频样本集，所述训练音频样本集中包含多个训练音频样本和各训练音频样本对应的文本内容、情绪标签和说话人标签；根据每个训练音频样本，从训练音频样本集中选取与该训练音频样本的情绪标签和说话人标签都相同的训练音频样本作为该训练音频样本的参考音频；根据每个训练音频样本对应的音频对齐信息和预测对齐信息计算对齐信息损失值；根据每个训练音频样本对应的音频频谱特征和预测频谱特征，计算得到频谱损失值；根据每个训练音频样本对应的参考音频的情绪识别结果、每个训练音频样本的预测情绪识别结果和参考音频的情绪标签，计算得到情绪损失值；根据每个训练音频样本对应的对齐信息损失值、频谱损失值和情绪损失值计算得到所述训练音频样本对应的损失值；根据各个所述训练音频样本对应的损失值，对音频合成模型的参数进行更新。6.根据权利要求5所述的方法，通过以下方式获取所述音频对齐信息和音频频谱特征：从所述每个训练音频样本中提取对应的音频对齐信息和音频频谱特征。7.根据权利要求5所述的方法，通过以下方式获取所述预测对齐信息：从所述每个训练音频样本的文本内容中提取多个第一音素特征向量；
对每个训练音频样本对应的多个第一音素特征向量的对齐信息进行预测，得到预测对齐信息。8.根据权利要求5所述的方法，通过以下方式获取所述参考音频的情绪识别结果：从每个训练音频样本对应的参考音频中提取情绪特征向量和说话人特征向量；根据所述情绪特征向量，计算得到所述参考音频的情绪识别结果。9.根据权利要求7所述的方法，通过以下方式获取所述预测频谱特征：将每个训练音频样本对应的情绪特征向量和说话人特征向量拼接在与该训练音频样本对应的各个第一音素特征向量上，得到多个第二音素特征向量；基于每个训练音频样本对应的预测对齐信息对该训练音频样本对应的多个第二音素特征向量进行调整，得到每个训练音频样本对应的调整后的多个第二音素特征向量；将每个训练音频样本对应的调整后的多个第二音素特征向量转换成预测梅尔频谱，以...

【专利技术属性】
技术研发人员：梁芸铭，赵情恩，张银辉，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人