将文本转换为指定风格语音的方法技术

技术编号：24689909 阅读：29 留言：0更新日期：2020-06-27 09:48

本发明专利技术公开了一种将文本转换为指定风格语音的方法，首先获得不同风格的训练样本，对训练样本中的每幅语音时频图像进行字符标注，获取字符的位置框序列和文本字符序列对双向长短期记忆网络进行训练，构建生成对抗网络，将训练样本中的语音时频图像作为原始语音时频图像，掩码图像作为其对应的掩码图像，文本字符序列作为真实文本字符序列，对生成对抗网络进行训练；将需要生成语音信号的文本通过双向长短期记忆网络预测得到字符位置框序列，进而得到掩码图像，将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并得到生成语音时频图像，最后转换得到语音信号。采用本发明专利技术可以实现单一文本到多种指定风格语音的转换。

The method of converting text to speech with specified style

全部详细技术资料下载

【技术实现步骤摘要】
将文本转换为指定风格语音的方法
本专利技术属于语音合成
，更为具体地讲，涉及一种将文本转换为指定风格语音的方法。
技术介绍
随着深度学习在语音合成领域的不断深入，语音生成技术逐渐缩小了生成语音与人类语音的差距。语音生成通常是将一个文本通过特定的合成系统转换为一种特定风格的语音。此过程需要经过多个步骤的处理，比如前端文本分析，声学模型，以及音频合成模块。传统的语音生成方法是拼接式语音合成：先录制单一说话者的大量语音片段，建立一个大型语料库，然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴，并且无法调整语音的语调，强调性音节或情绪。
技术实现思路
本专利技术的目的在于克服现有技术的不足，提供一种将文本转换为指定风格语音的方法，实现单一文本到多种指定风格语音的转换。为了实现上述专利技术目的，本专利技术将文本转换为指定风格语音的方法包括以下步骤：S1：获取若干不同风格的语音信号，按照预定时间间隔对语...

【技术保护点】
1.一种将文本转换为指定风格语音的方法，其特征在于，包括以下步骤：/nS1：获取若干不同风格的语音信号，按照预定时间间隔对语音信号进行分割，记分割得到的语音信号数量为N，记第n个语音信号为S

【技术特征摘要】
1.一种将文本转换为指定风格语音的方法，其特征在于，包括以下步骤：
S1：获取若干不同风格的语音信号，按照预定时间间隔对语音信号进行分割，记分割得到的语音信号数量为N，记第n个语音信号为Sn，其中n＝1,2,…,N，获取语音信号Sn的文本Tn以及语音时频图像In，将语音信号按照风格进行分类，记语音信号Sn对应的风格分类标签Fn；
S2：对于每幅语音时频图像In，标注图中每个字符的信息，字符信息包含该字符的字符类别和字符位置框；记每幅语音时频图像In中所有的位置框信息为该语音时频图像对应的位置框序列Cn；
S3：对于每幅语音时频图像In，根据位置框序列Cn中每个字符位置框位置，将字符位置框内的像素值置为1，其余像素值置为0，得到语音时频图像In对应的掩码图像
S4：构建双向长短期记忆网络，将各个文本Tn转换化文本字符序列，文本字符序列中包含各个字符及其类型，将文本字符序列作为双向长短期记忆网络的输入，将对应的位置框序列Cn作为双向长短期记忆网络的输出，对双向长短期记忆网络进行训练；
S5：构建生成对抗网络，包括生成器模块、内容判别器模块，图像来源判别器模块和风格判别器模块，其中生成器模块的输入为掩码图像和原始语音时频图像的级联图像，输出为生成语音时频图像；内容判别器模块的功能是对生成语音信号的文本内容真伪判别，其输入为生成语音信号时频图像经过目标检测识别出来的文本字符序列和真实文本字符序列，输出对预测数据的真否判断结果；图像来源判别器的功能是对语音时频图像的来源进行判别，其输入为生成语音时频图像和原始语音时频图像，其输出为图像来源的预测结果；风格判别器模块的功能是对原始语音时频图和生成语音时频图的语音风格判别，其输入为生成语音时频图像和原始语音时频图像，输出为语音风格分类的预测结果；
将训练样本中的语音时频图像In作为原始语音时频图像，步骤S3所得到的掩码图像作为其对应的掩码图像，文本Tn转化得到的文本字符序列作为真实文本字符序列，对生成网络进行训练；
S6：将需要生成语音信号的文本T′的文本字符序列按最大可输入长度切片，将切片后的文本字符序列依次输入到步骤S104训练好的双向长短期记忆网络中，得到相应的字符位置框序列信息并转化为掩码图像，将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并生成具有频谱信息的生成语音时频图像，最后将生成语音时频图像转换为语音信号；最后将各个文本字符序列所对应的语音信息按照切片顺序进行整合，即可得到文本T′的语音信号。。

2.根据权利要求1所述的将文本转换为指定风格语音的方法，其特征在于，所述的生成器模块的具体结构如下：
第1层为卷积层，记为Conv1层，使用64个大小为4×4、步长为2的卷积核，对输入的级联后的成对图像进行卷积操作后输出；
第2层为卷积层，记为Conv2层，使用128个大小为4×4、步长为2的卷积核，对Conv1层输出的特征图进行卷积操作，再进行实例归一化后输出；
第...

【专利技术属性】
技术研发人员：姬艳丽，顾天成，张浩，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人