【技术实现步骤摘要】
一种语音合成方法和装置
[0001]本申请涉及数据处理、深度学习及语音合成
,尤其涉及一种语音合成方法和装置。
技术介绍
[0002]目前根据文本合成歌曲的方法有两种。一种是利用隐马尔科夫模型合成歌曲,由于隐马尔科夫模型未考虑音高特征,导致合成的歌曲的声音缺乏情感。另一种是利用现有的神经网络模型合成歌曲,但是由于考虑的特征的维度过少,导致模型出现过拟合,合成的歌曲不够稳定和真实。
技术实现思路
[0003]本申请提供一种语音合成方法和装置,以解决上述的技术问题。
[0004]为此,本申请实施例一方面提供一种语音合成方法,所述方法包括:
[0005]获取文本数据和所述文本数据对应的音高数据,所述文本数据中包含多个文本,所述音高数据表征每个文本对应的音高;
[0006]对所述文本数据和音高数据进行编码,得到文本特征数据和音高特征数据;
[0007]对所述多个文本进行时长预测,得到每个文本的预测时长,所述预测时长表征该文本对应的帧数;
[0008]将所述文本特征数据和音 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取文本数据和所述文本数据对应的音高数据,所述文本数据中包含多个文本,所述音高数据表征每个文本对应的音高;对所述文本数据和音高数据进行编码,得到文本特征数据和音高特征数据;对所述多个文本进行时长预测,得到每个文本的预测时长,所述预测时长表征该文本对应的帧数;将所述文本特征数据和音高特征数据进行合并,得到第一特征数据;利用所述每个文本的预测时长对所述第一特征数据进行时长扩充,得到第二特征数据;对所述第二特征数据进行解码,得到语音谱参数,并将所述语音谱参数输入预训练的神经网络声码器,生成并得到目标语音。2.根据权利要求1所述语音合成方法,其特征在于,所述将所述文本特征数据和音高特征数据进行合并,包括:从所述文本特征数据和音高特征数据中确定出每个文本对应的文本子特征数据和音高子特征数据;根据所述文本的文本子特征数据和音高子特征数据确定该文本的第一子特征数据;将所有第一子特征数据按照对应的文本在所述文本数据中的顺序进行合并,得到第一特征数据。3.根据权利要求1所述语音合成方法,其特征在于,所述利用所述每个文本的预测时长对所述第一特征数据进行时长扩充,得到第二特征数据,包括:从所述第一特征数据中确定出每个文本对应的第一子特征数据;按照所述文本的预测时长将该文本对应的第一子特征数据扩充到该预测时长所指示的帧数,得到第二子特征数据;将所述第二子特征数据按照对应的文本在所述文本数据中的顺序进行合并,得到第二特征数据。4.根据权利要求1所述语音合成方法,其特征在于,所述得到第二特征数据之后,还包括:从所述第二特征数据中确定出每个文本对应的第二子特征数据;对所有第二子特征数据进行遍历;确定当前第二子特征数据与其他每个第二子特征数据的相似度,并根据所述相似度确定权重;根据当前第二子特征数据、所有其他第二子特征数据和当前第二子特征数据其他每个第二子特征数据的权重对当前第二子特征数据进行调整;在遍历完所有第二子特征数据后,将所有调整后的第二子特征数据按照对应的文本在所述文本数据中的顺序进行合并,得到第二特征数据。5.一种语音合成模型训练方法,其特征在于,包括:获取多个文本样本数据和每个文本样本数据对应的标签语音谱参数;将所述文本样本数据输入初始语音合成模型,得到所述文本样本数据的预测特征数据;
根据所述文本样本数据的标签语音谱参数和预测语音谱参数确定所述文本样本数据的损失值;根据所述多个文本样本数据的损失值对所述初始语音合成模型进行优化,得到语音合成模型。6.一种语音合成装置,其特征在于,所述装置包括:第一采集模块,用于获取文本数据和所述文本数据对应的音高数据,所述文本数据中包含多个文本,所述音高数据表征每个文本对应的音高;编码...
【专利技术属性】
技术研发人员:江明奇,王瑞,陈云琳,叶顺平,
申请(专利权)人:问问智能信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。