语音处理系统和方法技术方案

技术编号：11158661 阅读：107 留言：0更新日期：2015-03-18 14:37

一种训练用于文本转语音系统的声学模型的方法，所述方法包括：接收语音数据，所述语音数据包括对应于第一语音因素的不同值的数据，并且其中所述语音数据未标记，从而对于给定的语音数据项，所述第一语音因素的值未知；根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集；以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音；其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。

全部详细技术资料下载

【技术实现步骤摘要】

此处一般描述的本专利技术实施例涉及文本转语音系统和方法。
技术介绍
文本转语音系统是响应于接收到文本文件而输出音频语音或音频语音文件的系统。文本转语音系统广泛用于多种应用，例如电子游戏、电子图书阅读器、电子邮件阅读器、卫星导航、自动电话系统、自动报警系统。不断需要使系统被听起来更像人类声音。附图说明现在将参考附图描述根据非限制性实施例的系统和方法，其中：图1是根据实施例用于训练声学模型的框架；图2是示出根据实施例用于训练语音处理系统的方法的流程图；图3是示出参考图2描述的一个步骤的流程图；图4是示出参考图2描述的另一步骤的流程图；图5是示出根据实施例训练语音处理系统的方法的流程图；图6是示出根据实施例训练语音处理系统的方法的流程图；图7是示出根据实施例训练语音处理系统的方法的流程图；图8是示出参考图7描述的一个步骤的流程图；图9是根据实施例的语音处理方法的流程图；图10是示出如何选择声音特性的系统的示意图；图11是图10中的系统上的变形；图12是示出根据实施例的系统自适应的流程图；图13是示出根据进一步的实施例的系统自适应的流程图；图14是示出适合于系统自适应的各种数据类型的收集的示意图；图15是示出如何在不同说话者之间移植表达的绘图；图16是示出表达语音移植的声学空间图；图17是示出使用自适应数据的表达移植的方法的示意图；图18是用于提取表...
<a href="http://www.xjishu.com/zhuanli/21/201410419320.html" title="语音处理系统和方法原文来自X技术">语音处理系统和方法</a>

【技术保护点】
一种训练用于文本转语音系统的声学模型的方法，所述方法包括：接收语音数据，所述语音数据包括对应于第一语音因素的不同值的数据，并且其中所述语音数据未标记，从而对于语音数据的给定项，所述第一语音因素的值未知；根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集；以及估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不同值适应语音；其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执行。

【技术特征摘要】
2013.08.23 GB 1315139.41.一种训练用于文本转语音系统的声学模型的方法，
所述方法包括：
接收语音数据，
所述语音数据包括对应于第一语音因素的不同值的数据，
并且其中所述语音数据未标记，从而对于语音数据的给定项，所述第
一语音因素的值未知；
根据所述第一语音因素的值将所述语音数据聚簇为第一聚类集；以及
估计第一参数集以使得所述声学模型能够针对所述第一语音因素的不
同值适应语音；
其中所述聚簇和所述第一参数估计根据共同的最大似然性准则联合执
行。
2.根据权利要求1的方法，其中所述第一聚类集中的每一者包括至少
一个子聚类，并且其中所述第一参数集是待应用的权重，使得每个子聚类
有一个权重，并且其中所述权重依赖于所述第一语音因素。
3.根据权利要求1的方法，其中所述第一参数集为依赖于所述第一语
音因素的约束似然性线性回归变换。
4.根据权利要求1的方法，其中所述第一语音因素是说话者，并且所
述语音数据进一步包括来自以中性语音说话的一个或多个说话者的语音数
据。
5.根据权利要求1的方法，其中所述第一语音因素为表达。
6.根据权利要求5的方法，进一步包括：
接收对应于所述已接收语音数据的文本数据；
从所述输入文本提取表达特征，以形成在第一空间中构建的表达语言
特征向量；
从所述语音数据提取表达特征并形成在第二空间中构建的表达特征合
成向量；以及
训练机器学习算法，所述机器学习算法的训练输入是表达语言特征向
量，其训练输出是对应于所述语音数据和所述文本数据的表达特征合成向
量。
7.根据权利要求1的方法，其中所述语音数据进一步包括对应于第二
语音因素的不同值的数据。
8.根据权利要求7的方法，其中第二语音因素的值未知；
并且，其中所述方法进一步包括：
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集；以及
估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不
同值适应语音；
其中所述第一和第二参数集与所述第一和第二聚类集不重叠，并且
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇
为第二聚类集两者所共同遵循的单个最大似然性准则联合执行。
9.根据权利要求8的方法，其中所述第二聚类集中的每一者包括至少
一个子聚类，并且其中所述第二参数集是待应用的权重，使得每个子聚类
有一个权重，并且其中所述权重依赖于所述第二语音因素。
10.根据权利要求8的方法，其中所述第二参数集为依赖于所述第二
语音因素的约束似然性线性回归变换。
11.根据权利要求4的方法，其中所述语音数据进一步包括对应于第
二语音因素的不同值的数据，并且其中训练所述声学模型进一步包括：
根据所述第二语音因素的值将所述语音数据聚簇为第二聚类集；以及
估计第二参数集以使得所述声学模型能够针对所述第二语音因素的不
同值适应语音；
其中所述聚簇和所述第二参数估计根据所述第二参数估计和所述聚簇
为第二聚类集两者所共同遵循的单个最大似然性准则联合执行，
并且其中所述第一和第二参数集与所述第一和第二聚类集不重叠。
12.根据权利要求11的方法，其中所述第二语音因素为表达。
13.根据权利要求1的方法，其中所述声学模型包括将声学单元与语
音向量序列相关联的概率分布函数。
14.一种文本转语音方法，其被配置为输出具有语音因素目标值的语
音，
所述方法包括：
输入具有所述语音因素目标值的音频数据；
使声学模型适应所述语音因素目标值；
输入文本；
将所述输入文本划分为声学单元序列；
使用所述声学模型将所述声学单元序列转换为语音向量序列；以及
将所述语音向量序列输出为具有所述语音因素目标值的音频，
其中所述声学模型包括与所述语音因素相关的语音因素参数集，以及
与所述语音因素相关的语音因素聚类集，
并且其中与所述语音因素相关的所述语音因素参数集和所述语音因素
聚类集未标记，从而对于给定的一个或多个聚类以及给定的一个或多个参
数，与其相关的所述语音因素的值未知。
15.根据权利要求14的文本转语音方法，
其中所述语音因素为表达，
所述声学模型进一步包括与...

【专利技术属性】
技术研发人员：陈浪舟，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人