语音处理系统和方法技术方案

技术编号:11158661 阅读:107 留言:0更新日期:2015-03-18 14:37
一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。

【技术实现步骤摘要】

此处一般描述的本专利技术实施例涉及文本转语音系统和方法。
技术介绍
文本转语音系统是响应于接收到文本文件而输出音频语音或音频语音文件的系统。文本转语音系统广泛用于多种应用,例如电子游戏、电子图书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动报警系统。不断需要使系统被听起来更像人类声音。附图说明现在将参考附图描述根据非限制性实施例的系统和方法,其中:图1是根据实施例用于训练声学模型的框架;图2是示出根据实施例用于训练语音处理系统的方法的流程图;图3是示出参考图2描述的一个步骤的流程图;图4是示出参考图2描述的另一步骤的流程图;图5是示出根据实施例训练语音处理系统的方法的流程图;图6是示出根据实施例训练语音处理系统的方法的流程图;图7是示出根据实施例训练语音处理系统的方法的流程图;图8是示出参考图7描述的一个步骤的流程图;图9是根据实施例的语音处理方法的流程图;图10是示出如何选择声音特性的系统的示意图;图11是图10中的系统上的变形;图12是示出根据实施例的系统自适应的流程图;图13是示出根据进一步的实施例的系统自适应的流程图;图14是示出适合于系统自适应的各种数据类型的收集的示意图;图15是示出如何在不同说话者之间移植表达的绘图;图16是示出表达语音移植的声学空间图;图17是示出使用自适应数据的表达移植的方法的示意图;图18是用于提取表达合成向量的系统的示意图,是系统中的表达导出部分的示意图;图19是用于使用不同级别的知识信息提取表达特征的系统的示意图;图20是用于使用级联神经网络提取表达特征以建立不同知识级别模型的系统的示意图;图21是系统中表达导出部分的示意图;图22是文本转语音系统的示意图;图23是示出语音处理系统执行的步骤的流程图;图24是高斯概率函数的示意图;图25是可被训练的文本转语音系统的示意图;以及图26是特定实施例使用的决策树的示意图。具体实施方式在一个实施例中,提供一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据;所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于给定的语音数据项,所述第一语音因素的值未知;根据所述第一语音因素的值,将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音,其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。所述第一语音因素可包括说话者;表达(expression);噪声;诸如“the king”、“the wolf”之类的角色声音;或其它任何语音因素。表达包括独立于说话者的语音属性。表达的实例包括情绪,例如高兴、悲伤等;强调和说话风格。表达也可对应于上述一者以上的组合。中性语音是没有任何表达的语音,例如,没有情绪或强调的语音。未被标记语音数据是这样一种数据:例如,对于该数据,如果第一语音因素为表达,则不知道哪种表达对应于语音数据的给定部分。在一个实施例中,第一聚类集包括至少一个子聚类。第一参数集可以是被应用的权重,其中使得每个子聚类有一个权重,并且其中所述权重依赖于所述第一语音因素。这些权重可以是聚类自适应训练(CAT)权重。每个子聚类可包括至少一个决策树,所述决策树基于与语言、语音或音韵差别中的至少一者相关的问题。聚类决策树之间和子聚类中的决策树之间可能存在结构差别。在一个实施例中,第一参数集是依赖于所述第一语音因素的约束似然性线性回归变换。在一个实施例中,第一语音因素是说话者,并且所述语音数据进一步包括来自以中性语音说话的一个或多个说话者的语音数据。在一个实施例中,语音数据进一步包括对应于第二语音因素的不同值的数据。第二语音因素可包括说话者、表达、噪声、口音或其它任何语音因素。第二语音因素的值可以未知。在一个实施例中,所述方法进一步包括接收对应于所述已接收的语音数据的文本数据;从所述输入文本提取表达特征以形成在第一空间中构建的表达语言特征向量;从语音数据提取表达特征并形成在第二空间中构建的表达特征合成向量;训练机器学习算法,所述机器学习算法的训练输入是表达语言特征向量,其训练输出是对应于语音数据和文本数据的表达特征合成向量。文本数据对应于语音数据,使得语音数据对应于包括文本数据的文本的说话。在一个实施例中,第二空间是第一说话者的声学空间,并且所述方法被配置为将表达合成特征向量移植到第二说话者的声学空间。这表示,语音与第二说话者的声音合成,但是表达预测对应于第一说话者。在一个实施例中,所述方法包括根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不同值适应语音,其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇为第二聚类集所共同遵循的单个最大似然性准则联合执行。所述第二聚类集可包括至少一个子聚类。所述第二参数集可以是被应用的权重,其中使得每个子聚类有一个权重,所述权重可依赖于所述第二语音因素。这些权重可以是聚类自适应训练(CAT)权重。所述第二参数集可以是依赖于所述第二语音因素的约束似然性线性回归变换。在一个实施例中,训练所述声学模型进一步包括:使用从以中性语音说话的说话者处接收的语音数据训练第一声学子模型;并且使用对应于所述第二语音因素的不同值的语音数据训练第二声学子模型。在一个实施例中,所述声学模型包括,将声学单元与语音向量序列相关联的概率分布函数。所述概率分布可从高斯分布、泊松分布、伽玛分布、学生t分布或拉普拉斯分布中选择。在一个实施例中,提供一种被配置为输出具有语音因素目标值的语音的文本转语音方法,所述方法包括:输入具有所述语音因素目标值的自适应数据;使声学模型适应所述语音因素目标值;输入文本;将所述输入文本分为声学单元序列;使用所述声学模型将所述声学单元序列转换为语音向量序列;以及将所述语音向量序列输出为具有所述语音因素目标值的音频,其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及与所述语音因素相关的语音因素聚类集,并且其中与所述语音因素相关的所述语音因素参数集和所述语音因素聚类集未被标记,从而对于给定的一个或多个聚类以及给定的一个或多个参数,与其相关的所述语音因素的值未知。在所述声学模型的自适应之本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201410419320.html" title="语音处理系统和方法原文来自X技术">语音处理系统和方法</a>

【技术保护点】
一种训练用于文本转语音系统的声学模型的方法,所述方法包括:接收语音数据,所述语音数据包括对应于第一语音因素的不同值的数据,并且其中所述语音数据未标记,从而对于语音数据的给定项,所述第一语音因素的值未知;根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音;其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。

【技术特征摘要】
2013.08.23 GB 1315139.41.一种训练用于文本转语音系统的声学模型的方法,
所述方法包括:
接收语音数据,
所述语音数据包括对应于第一语音因素的不同值的数据,
并且其中所述语音数据未标记,从而对于语音数据的给定项,所述第
一语音因素的值未知;
根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集;以及
估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不
同值适应语音;
其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执
行。
2.根据权利要求1的方法,其中所述第一聚类集中的每一者包括至少
一个子聚类,并且其中所述第一参数集是待应用的权重,使得每个子聚类
有一个权重,并且其中所述权重依赖于所述第一语音因素。
3.根据权利要求1的方法,其中所述第一参数集为依赖于所述第一语
音因素的约束似然性线性回归变换。
4.根据权利要求1的方法,其中所述第一语音因素是说话者,并且所
述语音数据进一步包括来自以中性语音说话的一个或多个说话者的语音数
据。
5.根据权利要求1的方法,其中所述第一语音因素为表达。
6.根据权利要求5的方法,进一步包括:
接收对应于所述已接收语音数据的文本数据;
从所述输入文本提取表达特征,以形成在第一空间中构建的表达语言
特征向量;
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合
成向量;以及
训练机器学习算法,所述机器学习算法的训练输入是表达语言特征向
量,其训练输出是对应于所述语音数据和所述文本数据的表达特征合成向
量。
7.根据权利要求1的方法,其中所述语音数据进一步包括对应于第二
语音因素的不同值的数据。
8.根据权利要求7的方法,其中第二语音因素的值未知;
并且,其中所述方法进一步包括:
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及
估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不
同值适应语音;
其中所述第一和第二参数集与所述第一和第二聚类集不重叠,并且
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇
为第二聚类集两者所共同遵循的单个最大似然性准则联合执行。
9.根据权利要求8的方法,其中所述第二聚类集中的每一者包括至少
一个子聚类,并且其中所述第二参数集是待应用的权重,使得每个子聚类
有一个权重,并且其中所述权重依赖于所述第二语音因素。
10.根据权利要求8的方法,其中所述第二参数集为依赖于所述第二
语音因素的约束似然性线性回归变换。
11.根据权利要求4的方法,其中所述语音数据进一步包括对应于第
二语音因素的不同值的数据,并且其中训练所述声学模型进一步包括:
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集;以及
估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不
同值适应语音;
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇
为第二聚类集两者所共同遵循的单个最大似然性准则联合执行,
并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠。
12.根据权利要求11的方法,其中所述第二语音因素为表达。
13.根据权利要求1的方法,其中所述声学模型包括将声学单元与语
音向量序列相关联的概率分布函数。
14.一种文本转语音方法,其被配置为输出具有语音因素目标值的语
音,
所述方法包括:
输入具有所述语音因素目标值的音频数据;
使声学模型适应所述语音因素目标值;
输入文本;
将所述输入文本划分为声学单元序列;
使用所述声学模型将所述声学单元序列转换为语音向量序列;以及
将所述语音向量序列输出为具有所述语音因素目标值的音频,
其中所述声学模型包括与所述语音因素相关的语音因素参数集,以及
与所述语音因素相关的语音因素聚类集,
并且其中与所述语音因素相关的所述语音因素参数集和所述语音因素
聚类集未标记,从而对于给定的一个或多个聚类以及给定的一个或多个参
数,与其相关的所述语音因素的值未知。
15.根据权利要求14的文本转语音方法,
其中所述语音因素为表达,
所述声学模型进一步包括与...

【专利技术属性】
技术研发人员:陈浪舟
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1