一种实现合成语音增强的方法及系统技术方案

技术编号:12272800 阅读:213 留言:0更新日期:2015-11-04 21:39
本发明专利技术涉及语音合成技术领域,公开了一种实现合成语音增强的方法及系统,该方法包括:基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数;利用所述合成语音参数生成连续语音信号。利用本发明专利技术,可以有效提高合成语音的增强效果。

【技术实现步骤摘要】

本专利技术涉及语音合成
,具体涉及一种实现合成语音增强的方法及系统
技术介绍
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成 为当前信息技术应用和发展的迫切需求。作为语音技术中实用的一项重要技术,语音合成 技术或称文语转换技术(Text-To-Speech,TTS),将文字信息转化为自然的语音信号,实现 文本的实时转换,改变了传统通过录音回放实现机器开口说话的繁琐操作,节省了系统存 储空间,在信息交互日益增多的当今,特别是在信息内容需要经常变动的动态查询应用领 域发挥了越来越重要的作用。 基于参数合成的语音合成系统由于具有较好的鲁棒性和推广性得到了广泛的应 用,然而该方法具有较强的平滑作用,合成的语音平淡且音质容易受损,在合成自然度方面 表现不够理想,实际应用中存在一定的提升空间。如何提高合成语音的自然度是合成系统 实用化的重要保障。 为此,现有技术中主要采用合成语音增强的方法来提高合成语音的自然度,其主 要技术可以归纳为:基于人的听感特性等经验知识对生成频谱参数或合成语音进行后滤波 处理,比如对合成语音的共振峰进行增强处理、加强生成频谱参数的动态特性,从而改善合 成语音的音质。 实际上,不同发音人的声学特性存在细节差异,且对于同一个发音人,其在发不同 音时,声学特性也存在细节差异。而基于经验知识的合成语音增强方法,只能使得增强后的 合成语音在总体上符合人的听感,其增强效果并不理想。
技术实现思路
本专利技术实施例提供一种实现合成语音增强的方法及系统,以提高合成语音的增强 效果。 为此,本专利技术实施例提供如下技术方案: -种实现合成语音增强的方法,包括: 基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本 数据对应的语音数据; 建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参 数与自然语音参数的映射关系; 在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所 述待合成文本的合成语音参数; 利用所述合成语音参数生成连续语音信号。 优选地,所述建立增强模型包括: 根据所述初始语音合成模型生成所有训练数据的合成语音参数; 提取所有训练数据的自然语音参数; 确定增强模型的拓扑结构; 将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合,根 据所述拓扑结构进行参数训练,得到增强模型。 优选地,所述增强模型为:线性函数的映射模型、或者GMM模型、或者DNN模型。 优选地,所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系 为所述初始语音合成模型生成的合成语音参数与自然语音参数的条件分布。 优选地,所述初始语音合成模型包括:时长模型、频谱模型、基频模型; 所述根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合 成语音参数包括: 根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行 增强处理,得到增强的频谱模型和/或基频模型; 利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数 和/或基频参数; 利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频 模型之外的其它语音参数。 优选地,所述根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基 频模型进行增强处理,得到增强的频谱模型和/或基频模型包括: 从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数; 利用所述增强模型对所述模型参数进行增强处理,得到增强后的模型参数; 将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数,得到增强 的频谱模型和/或基频模型。 优选地,所述初始语音合成模型包括:时长模型、频谱模型、基频模型; 所述根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合 成语音参数包括: 利用所述初始语音合成模型分别生成对应所述待合成文本的时长参数、频谱参数 和基频参数; 利用增强模型对所述频谱参数和/或基频参数进行增强处理,得到增强后的频谱 参数和/或基频参数,并将所述增强后的频谱参数和/或基频参数作为合成语音时对应所 述待合成文本的频谱参数和/或基频参数。 -种实现合成语音增强的系统,包括: 初始模型建立模块,用于基于训练数据构建初始语音合成模型,所述训练数据包 括文本数据及与所述文本数据对应的语音数据; 增强模型建立模块,用于建立增强模型,所述增强模型用于模拟所述初始语音合 成模型生成的合成语音参数与自然语音参数的映射关系; 接收模块,用于接收待合成文本; 参数生成模块,用于根据所述初始语音合成模型和所述增强模型生成对应所述待 合成文本的合成语音参数; 合成模块,用于利用所述合成语音参数生成连续语音信号。 优选地,所述增强模型建立模块包括: 合成语音参数生成单元,用于根据所述初始语音合成模型生成所有训练数据的合 成语音参数; 自然语音参数提取单元,用于提取所有训练数据的自然语音参数; 拓扑结构确定单元,用于确定增强模型的拓扑结构; 训练单元,用于将对应所述训练数据的合成语音参数和自然语音参数的数据对作 为训练集合,根据所述拓扑结构进行参数训练,得到增强模型。 优选地,所述初始语音合成模型包括:时长模型、频谱模型、基频模型;所述参数 生成模块包括: 模型增强单元,用于根据所述增强模型对所述初始语音合成模型中的频谱模型和 /或基频模型进行增强处理,得到增强的频谱模型和/或基频模型; 增强语音参数生成单元,用于利用所述增强的频谱模型和/或基频模型生成对应 所述待合成文本的频谱参数和/或基频参数; 初始语音参数生成单元,用于利用所述初始语音合成模型生成对应所述待合成文 本的除频谱模型和/或基频模型之外的其它语音参数。 优选地,所述模型增强单元包括: 模型参数获取单元,用于从所述初始语音合成模型中获取频谱模型和/或基频模 型的模型参数; 模型参数增强单元,用于利用所述增强模型对所述模型参数进行增强处理,得到 增强后的模型参数; 增强模型生成单元,用于将增强后的模型参数替代对应的频谱模型和/或基频模 型的模型参数,得到增强的频谱模型和/或基频模型。 优选地,所述初始语音合成模型包括:时长模型、频谱模型、基频模型; 所述参数生成模块包括: 初始语音参数生成单元,用于利用所述初始语音合成模型分别生成对应所述待合 成文本的时长参数、频谱参数和基频参数; 参数增强单元,用于利用所述增强模型对所述频谱参数和/或基频参数进行增强 处理,得到增强后的频谱参数和/或基频参数,并将所述增强后的频谱参数和/或基频参数 作为合成语音时对应所述待合成文本的频谱参数和/或基频参数。 本专利技术实施例提供的实现合成语音增强的方法及系统,基于统计的方法构建用于 模拟传统语音合成模型生成的合成语音参数与自然语音参数的映射关系的增强模型,然后 利用该增强模型及传统语音合成模型生成对应待合成文本的合成语音参数,进而利用所述 合成语音参数生成连续语音信号。本专利技术实施例的方案以自然声学参数作为指导,因此可 以对不同发音人、以及同一发音人发不同音时声学参数的细节特征有较强的把握,可以抓 住特定发音人的特性,使合成语音增强的效果更好。【附当前第1页1 2 3&本文档来自技高网...
一种实现合成语音增强的方法及系统

【技术保护点】
一种实现合成语音增强的方法,其特征在于,包括:基于训练数据构建初始语音合成模型,所述训练数据包括文本数据及与所述文本数据对应的语音数据;建立增强模型,所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系;在接收到待合成文本后,根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数;利用所述合成语音参数生成连续语音信号。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙见青陈凌辉凌震华江源胡国平胡郁刘庆峰
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1