基于深度度量网络的语音合成方法及装置制造方法及图纸

技术编号:20366580 阅读:29 留言:0更新日期:2019-02-16 18:13
本发明专利技术涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置,旨在解决如何得到更为精确的目标代价以及品质更高的合成语音的技术问题。该方法包括将待测文本信息拆分为多个文本基元,提取文本基元的文本特征;从语料库中获取对应的多个候选基元,并提取每个候选基元对应的文本特征和声学特征;对文本基元的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,获取目标代价;利用语音合成系统根据目标代价对候选基元进行拼接合成语音。上述方法可以提升合成语音的品质。

【技术实现步骤摘要】
基于深度度量网络的语音合成方法及装置
本专利技术涉及语音合成
,具体涉及一种基于深度度量网络的语音合成方法及装置。
技术介绍
语音合成技术,又称文语转换(TexttoSpeech)技术,用于将文字信息转化为语音信息。语音合成的方法主要有两种,一种是采用参数语音合成方法,该方法作为一种基于统计声学建模方法的具体实现,对语音的声学参数进行建模,并通过参数生成算法来重构声学参数轨迹,最后调用语音合成器来产生语音波形。这种方法的不足之处在于合成语音的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。该方法虽然能够合成较为接近原始语音的波形,但是波形拼接合成的语音在基元拼接点存在不连续的问题。目标代价用于表征的文本基元对应的预测的声学特征与候选基元之间的相似相似性,所以,如何更好的利用候选基元的文本特征和声学特征以及目标基元的文本特征生成更为准确的目标代价成为研究重点。
技术实现思路
为了解决现有技术中的上述问题,即为了解决在语音合成过程中,如何得到更为精确的目标代价以及品质更高的合成语音的技术问题,本专利技术的第一方面,提供了一种基于深度度量网络的语音合成方法,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;所述语音合成方法包括:将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征;基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。进一步地,本专利技术提供了一个优选技术方案为:在“将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征”的步骤之前,所述方法还包括:从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。进一步地,本专利技术提供了一个优选技术方案为:“计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价”的步骤包括:提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。进一步地,本专利技术提供了一个优选技术方案为:“根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练”的步骤包括:根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。本专利技术的第二方面,还提供了一种基于深度度量网络的语音合成装置,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;所述语音合成装置包括:文本分析模块,配置为将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征;特征提取模块,配置为基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;特征编码模块,配置为利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;目标代价计算模块,配置为利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;语音合成模块,配置为利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。进一步地,本专利技术提供了一个优选技术方案为:所述语音合成装置还包括模型训练模块,所述模型训练模块包括:正负样本对单元,配置为从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;初始目标代价单元,配置为计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;网络训练单元,配置为根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。进一步地,本专利技术提供了一个优选技术方案为:所述初始目标代价单元进一步配置为执行如下操作:提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。进一步地,本专利技术提供了一个优选技术方案为:所述网络训练单元进一步配置为执行如下操作:根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。本专利技术的第三方面,还提供了一种本文档来自技高网...

【技术保护点】
1.一种基于深度度量网络的语音合成方法,其特征在于,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;所述语音合成方法包括:将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征;基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。

【技术特征摘要】
1.一种基于深度度量网络的语音合成方法,其特征在于,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;所述语音合成方法包括:将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征;基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。2.根据权利要求1所述的一种基于深度度量网络的语音合成方法,其特征在于,在“将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个所述文本基元对应的文本特征”的步骤之前,所述方法还包括:从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。3.根据权利要求2所述的一种基于深度度量网络的语音合成方法,其特征在于,“计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价”的步骤包括:提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。4.根据权利要求3所述的一种基于深度度量网络的语音合成方法,其特征在于,“根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练”的步骤包括:根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。5.一种基于深度度量网络的语音合成装置,其特征在于,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;所述语音合成装置包括:文本分析模块,...

【专利技术属性】
技术研发人员:陶建华傅睿博温正棋李雅
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1