【技术实现步骤摘要】
【国外来华专利技术】用于语音合成的系统和方法
本申请涉及到语音合成,更具体地,涉及基于单元选择和基于模型的语音生成来从文本中合成语音的系统和方法。
技术介绍
文本-语音系统可以将各种文本转换成语音。通常,文本-语音系统可以包括前端部分和后端部分。前端部分可以包括文本规范化和文本与音素的转换,也就是将原始文本转换成与其等同的书写单词,将拼音转换给每个单词,并将文本划分、标记为韵律单元,例如,短语、短句和句子。前端部分可以将语音转录和韵律信息作为符号语音输出到后端部分。然后,后端部分基于合成方法,例如统计参数合成或拼接合成方法将符号语言数据转化为声音。统计参数合成方法可以从文本中获得音素的特征,并通过训练的机器学习模型来预测每个音素的音素持续时间、基频和频谱。然而,预测的音素持续时间、基频和频谱可能会被统计方法过度平滑,导致合成语音严重失真。另一方面,连接合成方法,例如单元选择合成(USS),可以从数据库中选择并连接语音单元。然而,单元选择方法经常在连接处经历“跳跃”,导致语音不连续和不自然。因此,需要一种文本-语音合成系统来生成质量提高的语音。本申请的实施例提供一种改进语音合成的系统和 ...
【技术保护点】
1.一种用于基于文本生成语音的计算机实施方法,所述方法包括:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。
【技术特征摘要】
【国外来华专利技术】1.一种用于基于文本生成语音的计算机实施方法,所述方法包括:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音。2.根据权利要求1所述的计算机实施方法,其特征在于,所述第一组声学特征包括第一音素持续时间、第一基频、第一频谱或其任何组合。3.根据权利要求2所述的计算机实施方法,其特征在于,所述第二组声学特征包括第二音素持续时间、第二基频、第二频谱或其任何组合。4.根据权利要求1所述的计算机实施方法,进一步包括:将所述每个识别的音素分割为多个帧;以及确定每一帧的第三组声学特征,其中选择所述样本音素是基于所述第三组声学特征中的至少一个声学特征。5.根据权利要求1所述的计算机实施方法,进一步包括:为所述每个识别的音素确定一组文本特征,其中基于所述识别的音素确定的文本特征生成所述语音。6.根据权利要求1所述的计算机实施方法,其特征在于,选择所述样本音素进一步包括选择存储在所述语音数据库中的音素,所述被选择的音素的声学特征与所述识别的音素的声学特征相似度最高。7.根据权利要求1所述的计算机实施方法,其中所述生成模型是隐马尔可夫模型(HMM)或神经网络模型。8.根据权利要求1所述的计算机实施方法,进一步包括:利用所述语音数据库中的多个训练样本训练所述生成模型,其中所述多个训练样本包括多个音素频谱。9.根据权利要求8所述的计算机实施方法,其特征在于,生成所述语音包括利用所述经训练的生成模型,基于所述被选择的样本音素的频谱,生成所述语音。10.一种用于基于文本生成语音的语音合成系统,所述语音合成系统包括:存储装置,所述存储装置被配置为存储语音数据库和生成模型;以及处理器,所述处理器被配置为:从所述文本中识别多个音素;对每个识别的音素,确定第一组声学特征;基于所述第一组声学特征中的至少一个声学特征,从语音数据库中选择与所述每个识别的音素相对应的样本音素;对所述每个选择的样本音素,确定第二组声学特征;以及利用生成模型,基于所述第二组声学特征中的至少一个声学特征,生成语音...
【专利技术属性】
技术研发人员:张辉,李秀林,
申请(专利权)人:北京嘀嘀无限科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。