文本朗读风格生成模型的训练方法、风格生成方法和设备技术

技术编号：38829303 阅读：17 留言：0更新日期：2023-09-15 20:08

本申请涉及文本朗读风格生成模型的训练方法、风格生成方法、设备和介质，能使文本朗读风格信息与说话人风格解耦，提升语音表现力。包括：根据多个音频句样本及对应的多个句文本样本，获取多个音频句样本对应的多个音频特征和平均说话人朗读特征，将多个句文本样本输入文本编码器，得到多个第一文本朗读风格预测信息，将多个音频特征和平均说话人朗读特征输入音频编码器，得到多个第二文本朗读风格预测信息，基于第一、第二预测信息训练编码器，对应的第一与第二预测信息的相似度大于或等于第一阈值且不对应的第一与第二预测信息的相似度小于第二阈值时，得到经训练的文本编码器作为文本朗读风格生成模型。文本朗读风格生成模型。文本朗读风格生成模型。

全部详细技术资料下载

【技术实现步骤摘要】
文本朗读风格生成模型的训练方法、风格生成方法和设备

[0001]本申请涉及人工智能及音频
，特别是涉及一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。

技术介绍

[0002]随着人工智能及音频技术的发展，出现了获取文本朗读风格信息的相关技术，文本朗读风格在整体上可以包括高兴、生气、悲伤、惊讶、害怕、厌恶等情感类别及各情感类别对应的情感强度，文本朗读风格信息可用于提升语音合成系统的语音表现力。
[0003]在目前技术中提供的用于获取文本朗读风格信息的相关方法中，需要以特定说话人在录音棚录制的音频数据为基础进行模型训练及文本朗读风格信息预测，其存在文本朗读风格受限于特定说话人而影响语音合成系统的语音表现力的问题。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。
[0005]第一方面，本申请提供了一种文本朗读风格生成模型的训练方法。所述方法包括：
[0006]获取多个文本朗读音频句样本及多个句文本样本，其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系；
[0007]获取所述多个文本朗读音频句样本的多个音频特征，以及获取所述多个文本朗读音频句样本的平均说话人朗读特征；
[0008]将所述多个句文本样本输入待训练的文本编码器，获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息；
[000...

【技术保护点】

【技术特征摘要】
1.一种文本朗读风格生成模型的训练方法，其特征在于，所述方法包括：获取多个文本朗读音频句样本及多个句文本样本，其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系；获取所述多个文本朗读音频句样本的多个音频特征，以及获取所述多个文本朗读音频句样本的平均说话人朗读特征；将所述多个句文本样本输入待训练的文本编码器，获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息；将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器，获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息；基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度，训练所述待训练的文本编码器和待训练的音频编码器；当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值，且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时，得到经训练的文本编码器作为文本朗读风格生成模型。2.根据权利要求1所述的方法，其特征在于，所述获取多个文本朗读音频句样本及多个句文本样本，包括：获取文本朗读音频数据和对应的文本数据；所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台；根据所述文本朗读音频数据，获取满足预设音频句时长条件的多个文本朗读音频句样本；根据所述多个文本朗读音频句样本以及所述对应的文本数据，获取每个所述文本朗读音频句样本对应的句文本样本。3.根据权利要求2所述的方法，其特征在于，所述根据所述文本朗读音频数据，获取满足预设音频句时长条件的多个文本朗读音频句样本，包括：对所述文本朗读音频数据进行音量均衡处理，得到音量均衡处理后的文本朗读音频数据；根据所述音量均衡处理后的文本朗读音频数据，获取满足预设音频句时长条件的多个文本朗读音频句样本。4.根据权利要求1所述的方法，其特征在于，所述获取多个文本朗读音频句样本及多个句文本样本，包括：获取文本朗读音频数据和对应的文本数据；所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台；根据所述对应的文本数据，获取多个句文本样本；根据所述多个句文本样本以及所述文本朗读音频数据，获取所述多个文本朗读音频句样本。5.根据权利要求4所述的方法，其特征在于，所述根据所述多个句文本样本以及所述文本朗读音频数据，获取所述多个文本朗读音频句样本，包括：对所述文本朗读音频数据进行音量均衡处理，得到音量均衡处理后的文本朗读音频数
据；根据所述多个句文本样本...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人