当前位置: 首页 > 专利查询>西门子公司专利>正文

一种建立语音转换模型的方法、语音转换的方法及系统技术方案

技术编号:8563607 阅读:201 留言:0更新日期:2013-04-11 05:30
本发明专利技术公开了一种建立语音转换模型的方法和实现第一语言与第二语言之间的语音转换方法和装置,该转换方法包括:对待转换的第一语言语音进行语音切分得到至少一个第一语言音节,并记录通过语音切分得到的各个第一语言音节的音节时长参数;提取各个第一语言音节的基频参数;按照第一语言和第二语言的语音转换模型,根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长;对应各个第二语言音节,用其基频参数和音节时长调整所对应第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出。应用本发明专利技术进行语音转换时,能够基本保持输入语音和经转换后输出语音音质的一致性,且能够实时转换。

【技术实现步骤摘要】

本专利技术涉及利用计算机实现不同语音转换的技术,特别涉及一种建立语音转换模 型的方法以及实现第一语言与第二语言之间语音转换的方法及系统。
技术介绍
目前,从中国普通话到方言之间的转换有两种实现方式。第一种常用的转换方式 是完全的人工转换,这就是说,如果想把普通话语音转换成相应的方言语音,需要知道普通 话语音的内容,再将用方言读出的所述语音内容的每个句子录制下来。由于普通话语音内 容的多少是没有限制的,这就导致转换工作既费时又费力。第二种是利用计算机的语音合成技术来实现,典型的如申请号为200610038587. O 的中国专利申请就公开了一种在方言语音合成系统中进行文本方言化处理的方法。该方法 首先建立普通话与目标方言之间的同意翻译的方言化规则,然后根据该规则,将输入方言 语音合成系统的普通话文本转换为方言文本,再将方言文本输入到语音合成模块,由语音 合成模块将方言文本转换为方言语音输出。该方法在刚开始方言化规则建立阶段,需要对 所有的方言和普通话建立标注句库,这等于新建了一个文本语音系统,因此也很费时。虽然,第二种实现方式比第一种实现方式提高了适应性,能够将任意的普通话文 本转换为方言语音,但是,第二种方式一个明显的问题就是由语音合成系统转换的方言语 音是固定的音质,再有就是只能将普通话文本转换为方言语音,而不能实现普通话语音与 方言语音之间的实时转换。
技术实现思路
有鉴于此,本专利技术提供了一种建立语言转换模型的方法以及实现第一语言与第二 语言之间的语音转换方法及系统,应用该方法及系统能够实现第一语言语音与第二语言语 音之间的实时转换,且能够基本保持输入语音和经转换后输出语音音质的一致性。本专利技术的实施例提供的建立语言转换模型的方法包括建立存储第一语言语音和 针对同一文本的第二语言语音的语音数据库;对语音数据库中存储的第一语言语音进行语 音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言 音节;记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数; 分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及根 据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第 二语言之间的语音转换模型。上述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建 立第一语言和第二语言之间的语音转换模型包括根据各个第一语言音节和各个第二语言 音节的基频参数,建立第一语言和第二语言之间的基频转换模型;以及分别统计第一语言 音节以及第二语言音节的音节时长参数,并根据音节时长参数的统计结果建立第一语言和 第二语言之间的时长转换模型。上述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息;其中,建立第一语言和第二语言之间的基频转换模型包括分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数,其中,基频曲线特征参数包括基频的均值特征参数、基频开始位置以及四个调型特征参数,其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D = y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数;应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类,得到至少一个第一基频曲线类别;分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数,应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类,得到至少一个第二基频曲线类别;其中,第一基频曲线类别和第二基频曲线类别一一对应;针对每一对一一对应的第一基频曲线类别和第二基频曲线类别,建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。特别地,应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括为各个第一语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类;以及应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括为各个第二语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。上述音节时长参数包括每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值;其中,所述韵律位置特征参数表示该音节在句中的位置,包括句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界;此时,建立第一语言和第二语言之间的时长转换模型包括统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长;对平均音节时长进行归一化处理后,再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值,得到如下公式所示的时长变换系数矩阵本文档来自技高网...

【技术保护点】
一种建立语音转换模型的方法,所述方法包括:建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库;对所述语音数据库中存储的第一语言语音进行语音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言音节;记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数;分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。

【技术特征摘要】
1.一种建立语音转换模型的方法,所述方法包括 建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库; 对所述语音数据库中存储的第一语言语音进行语音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言音节; 记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数; 分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及 根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。2.根据权利要求1所述的方法,其中,所述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型,包括 根据各个第一语言音节和各个第二语言音节的基频参数,建立第一语言和第二语言之间的基频转换1 型;以及 分别统计第一语言音节以及第二语言音节的音节时长参数,并根据所述音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。3.根据权利要求2所述的方法,其中, 所述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息; 所述建立第一语言和第二语言之间的基频转换模型包括 分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数,其中,所述基频曲线特征参数包括基频的均值特征参数、基频开始位置以及四个调型特征参数;其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D = y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D); 应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类,得到至少一个第一基频曲线类别; 分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数,应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类,得到至少一个第二基频曲线类别;其中,所述第一基频曲线类别和所述第二基频曲线类别--对应; 针对每一对一一对应的第一基频曲线类别和第二基频曲线类别,建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。4.根据权利要求3所述的方法,其中,所述应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括为各个第一语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类;以及 所述应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括为各个第二语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。5.根据权利要求2所述的方法,其中,所述音节时长参数包括每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值;其中,所述韵律位置特征参数表示该音节在句中的位置,包括句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界; 所述建立第一语言和第二语言之间的时长转换模型包括 统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长; 对平均音节时长进行归一化处理后,再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值,得到如下公式所示的时长变换系数矩阵6.根据权利要求1所述的方法,其中,该方法进一步包括通过个性化语音训练过程建立个性化语音数据库,其中,所述个性化语音数据库存储第二语言的特殊词汇的语音波形。7.一种语音转换方法,该方法包括 对待转换的第一语言语音进行语音切分得到至少一个第一语言音节,并记录通过语音切分得到的各个第一语言音节的音节时长参数; 提取通过语音切分得到的各个第一语言音节的基频参数; 按照根据权利要求1至6中任一项所建立的第一语言和第二语言之间的语音转换模型,根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长; 对应各个第二语言音节,用其基频参数和音节时长调整所对应第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出所获得的各个第二语言音节的语音波形。8.根据权利要求7所述的方法,其中,所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长包括 按照第一语言和第二语言之间的基频转换模型,根据各个第一语言音节的基频参数确定所对应各个第二语言音节的基频参数;以及 按照第一语言和第二语言的之间音节时长转换模型,根据各个第一语言音节的音节时长参数确定所对应各个第二语言音节的音节时长。9.根据权利要求8所述的方法,其中,所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数包括 根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数;其中,所述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息;所...

【专利技术属性】
技术研发人员:杨晨蔡莲红周卫
申请(专利权)人:西门子公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1