一种可合成多情感音频的语音合成模型方法技术

技术编号：38938717 阅读：10 留言：0更新日期：2023-09-25 09:39

本发明专利技术公开了一种可合成多情感音频的语音合成模型方法，涉及智能语音技术领域，包括以下步骤：处理原始数据，区分训练集和验证集，分别添加标注文件，同时将原始数据集交付情感识别模块处理；调用情感识别模块对数据集进行预处理，将音频拆解成音素和情感特征文件；完整的多情感文本转语音模型和数据集处理具体分为数据集收集、无监督预处理、编码器训练和在线推理，最后获得的产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件，能够实现多情感输出，同时可模拟韵律，使效果接近真人，在处理数据时无需进行情感标注，同时以构建连续特征值谱的方式极大避免了机器标注不准的问题。注不准的问题。注不准的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种可合成多情感音频的语音合成模型方法

[0001]本专利技术涉及智能语音
，尤其涉及一种可合成多情感音频的语音合成模型方法。

技术介绍

[0002]智能语音技术经过近几年的发展已进入高峰期，推动智能语音的市场规模扩大及商业化应用的落地。随着新兴自然语言技术产生以及已有技术的不断成熟，智能语音技术已经从萌芽期迈入了成熟期，推动大规模的商业化应用落地。
[0003]受益于深度学习的蓬勃发展，机器合成的声音不再顿挫、冰冷，在自然度和可懂度等方面取得了不错的成绩，但当前语音合成技术仍然无法对人类声道进行完全模拟，因此合成的质量欠佳。此外，有情感语音合成也是一个难点。目前虽推出了能够合成自然声音的tacotron2，但它并不能用来分析语义，合成有情感的语音，并且其自然度也有能够提升的空间。
[0004]为此，需要设计一种可合成多情感音频的语音合成模型方法来解决上述问题。

技术实现思路

[0005]本专利技术提供一种可合成多情感音频的语音合成模型方法，解决了上述提出的技术问题。
[0006]为解决上述技术问题，本专利技术提供的一种可合成多情感音频的语音合成模型方法，包括以下步骤：S1、处理原始数据，区分训练集和验证集，分别添加标注文件，同时将原始数据集交付情感识别模块处理；S2、调用情感识别模块对数据集进行预处理，将音频拆解成音素和情感特征文件；S3、调用编码器对拆解好的音频进行训练，音频会基于特征文件被编码器自动分类，获取训练好的声学模型；S4、获得模型文件，插入声码器，再输入端...

【技术保护点】

【技术特征摘要】
1.一种可合成多情感音频的语音合成模型方法，其特征在于，包括以下步骤：S1、处理原始数据，区分训练集和验证集，分别添加标注文件，同时将原始数据集交付情感识别模块处理；S2、调用情感识别模块对数据集进行预处理，将音频拆解成音素和情感特征文件；S3、调用编码器对拆解好的音频进行训练，音频会基于特征文件被编码器自动分类，获取训练好的声学模型；S4、获得模型文件，插入声码器，再输入端输入文本，利用声学模型提供的函数处理文本转换成的音素，随机时长预测器添加音长信息，获得连续的结果音频；S5、根据S4步骤所得产出物含中间输出的多情感编码器和最终在线合成的独立的wav文件；其中，所述S1中要求吐字清晰、语速适中、音量大小均衡、长度为5
‑
10s的音频，且情绪要求至少5000条训练集，500条验证集；其中，所述S2中训练时间用epoch表示，一般在10000个epoch左右收敛，收敛与否主要由偏移量标注。2.根据权利要求1所述的一种可合成多情感音频的语音合成模型方法，其特征在于，所述S2中情感识别模块表达训练步骤如下：S201、首先构建以音素为单位的超小样本；S202、然后通过卷积神经网络来提取每个片段的情感特征；S203、最后转换成numpy数组存储在样本集中。3.根据权利要求2所述的一种可合成多情感音频的语音合成模型方法，其特征在于，所述numpy数组被依照聚类算法进行了自然组划分。4.根据权利要求1所述的一种可合成多情感音频的语音合成模型方法，其特征在于，所述S3中编码器模块对拆解好的音频训练步骤如下：S301、采用变分推理用于从潜在空间中采样隐...

【专利技术属性】
技术研发人员：彭宇飞，李海滨，李勇刚，何熠，
申请(专利权)人：联通在线信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人