【技术实现步骤摘要】
一种语音合成方法及装置
本申请涉及语音合成
,尤其涉及一种语音合成方法及装置。
技术介绍
语音合成目前主流技术是神经网络合模型,如Wavenet,Wavernn,Simplernn等,可以实现从文本到声音的转换,即语音合成。当Wavenet模型被应用到语音合成方面时,不论是英文还是中文普通话,人类专家在评价其自然度上,相比于传统的参数式或者拼接式系统,可以获得当前业内最好的效果。也就是说,Wavenet可以把文本信息,通过层层堆叠的因果卷积神经网络转换成通畅流利的语音作为输出。Wavenet的网络结构为因果卷积网络,通常包括40层卷积神经网络(4个block,每个block10层神经网络)。在wavenet网络中,神经元节点跨度为2,每个神经网络节点对前一层的2个神经元进行加权,卷积计算。层数越多,时域上的感知能力(或称“感受野”,“跨度”)越强,感知范围越大。这种由大跨度感受野堆叠的类似二叉树形状的卷积网络,称为空洞卷积Dilatedconvolutions模型。如wavenet网络,跨度dilation=2 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取初始语音的初始语音点、相应初始语音点向量和预测时间段;所述初始语音点是所述初始语音在每个时刻上的语音特征,所述相应初始语音点向量是所述语音特征对应的语音点数值的向量形式;/n按照所述初始语音点的时间顺序,将所述初始语音点向量输入预先训练的语音合成网络,获取所述预测时间段内起始待测时刻的预测语音点向量;其中,所述语音合成网络包括至少两个网络层,每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数;所述至少一个网络组件按照采集语音采样点的时间顺序依次排列;每个网络组 ...
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取初始语音的初始语音点、相应初始语音点向量和预测时间段;所述初始语音点是所述初始语音在每个时刻上的语音特征,所述相应初始语音点向量是所述语音特征对应的语音点数值的向量形式;
按照所述初始语音点的时间顺序,将所述初始语音点向量输入预先训练的语音合成网络,获取所述预测时间段内起始待测时刻的预测语音点向量;其中,所述语音合成网络包括至少两个网络层,每个网络层包括与所述预测时间段中待测时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数;所述至少一个网络组件按照采集语音采样点的时间顺序依次排列;每个网络组件与所述待测时刻相距的时长与相应网络组件参数值呈正相关变化;
针对所述预测时间段内包括所述起始待测时刻的每个待测时刻,依次将所述每个待测时刻的下一个相邻待测时刻确定为新的待测时刻,将所述待测时刻的预测语音点向量确定为所述新的待测时刻的初始语音点向量,并输入至所述语音合成网络,依次获取所述预测时间段内每个待测时刻的预测语音点向量;
采用预设神经网络算法,对所述预测时间段内每个待测时刻的预测语音点向量进行运算,合成所述预测时间段的预测语音。
2.如权利要求1所述的方法,其特征在于,将所述初始语音点向量输入预先训练的语音合成网络后,所述语音合成网络执行以下步骤:
采用预设卷积算法和至少一个网络组件的网络组件参数,在网络输入层的相应网络组件中对相应初始语音点向量进行卷积运算,得到所述网络输入层的每个网络组件所占时长中最后时刻输出的中间语音点向量;
采用所述预设卷积算法和所述至少一个网络组件的网络组件参数,在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算,得到所述网络中间层的每个网络组件所占时长中最后时刻输出的中间语音点向量;
获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量,并将所述当前语音点向量确定为所述起始待测时刻的预测语音点向量。
3.如权利要求2所述的方法,其特征在于,
所述语音合成网络在获取最高网络中间层的网络组件所占时长中最后时刻输出的当前语音点向量之后,所述语音合成网络还执行以下步骤:
采用残差算法,对所述当前语音点向量和每个网络中间层的中间语音点的中间语音点向量进行运算,获取所述待测时刻的预测语音点向量;
或者,
采用残差算法,对所述当前语音点向量和每个网络中间层中满足预设条件的中间语音点向量进行运算,获取所述待测时刻的预测语音点向量;其中,所述满足预设条件的中间语音点为所述网络中间层中权重最大的预设数量的中间语音点。
4.如权利要求1所述的方法,其特征在于,训练所述语音合成网络的步骤包括:
获取待训练语音合成网络、训练语音的训练语音点和相应训练语音点向量,所述待训练语音合成网络包括至少两个网络层和所述至少两个网络层对应的网络参数;
根据所述训练语音点的时间顺序,获取每个网络层中与目标时刻相距不同时长的至少一个网络组件、相应网络组件所占时长和相应网络组件参数;其中,所述至少一个网络组件按照所述训练语音点的时间顺序依次排列;每个网络组件与所述目标时刻相距的时长与相应网络组件参数值呈正相关变化;
采用预设卷积算法和网络组件参数,在网络输入层的相应网络组件中对相应训练语音点向量进行卷积运算,得到所述网络输入层中每个网络组件所占时长中最后时刻输出的中间语音点向量;
采用所述预设卷积算法和网络组件参数,在网络中间层的相应网络组件中对相应中间语音点向量进行卷积运算,得到所述网络中间层的每个网络组件所占时长中最后时刻输出的中间语...
【专利技术属性】
技术研发人员:冯大航,陈孝良,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。