用于波形拼接语音合成的选音方法和装置制造方法及图纸

技术编号:13323316 阅读:32 留言:0更新日期:2016-07-11 10:08
本发明专利技术提出一种用于波形拼接语音合成的选音方法和装置,该用于波形拼接语音合成的选音方法包括:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;获取预先生成的机器学习模型;根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。该方法能够提高语音合成时的预选效果。

【技术实现步骤摘要】

本专利技术涉及语音合成
,尤其涉及一种用于波形拼接语音合成的选音方法和装置
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,解决的主要问题是如何将文字信息转化为可听的声音信息。在语音合成时,需要先对输入的文本进行前端处理,再进行声学参数预测得到声学参数,最后利用声学参数直接通过声码器合成声音,或者从音库中挑选单元进行波形拼接。相对于声码器合成的声音,基于波形拼接的合成声音有更高的音质,以及更好保持了原发音人的风格。在构建基于波形拼接的语音合成系统过程中,相关技术中,通常是先根据标注信息获取候选音子波形片断,再在候选音子波形片断中进行一系列的预选,包括:时长预选、韵律位置预选、上下文预选、Kullback-Leibler距离(KLD)预选和邻居预选等,之后再从预选得到的波形片断中选择出最优音子波形片断序列,之后根据最优音子波形片断序列拼接合成得到合成语音。相关技术中的上述方案会存在如下问题:(1)各个预选过程相互独立,没有把这些信息综合起来充分考虑,因此难以取得很好的预选效果;(2)上述预选过程需要调整阈值和权重,而调整阈值和权重的工作需要大量的细致的人工工作,容易顾此失彼,针对一个音库调整好阈值和权重后,换一个音库往往需要重新调整这些参数;(3)需要进行多步预选,计算量较大(特别是KLD预选);(4)该方法的工程实现较为繁琐,涉及到大量参数的维护,代码复杂度高,较难维护。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种用于波形拼接语音合成的选音方法,该方法可以提高语音合成时预选音子的预选效果。本专利技术的另一个目的在于提出一种用于波形拼接语音合成的选音装置。为达到上述目的,本专利技术第一方面实施例提出的用于波形拼接语音合成的选音方法,包括:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;获取预先生成的机器学习模型;根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。本专利技术第一方面实施例提出的用于波形拼接语音合成的选音方法,通过采用机器学习模型进行预选,可以将各种信息综合起来考虑,从而提高语音合成时的预选效果。为达到上述目的,本专利技术第二方面实施例提出的用于波形拼接语音合成的选音装置,包括:第一获取模块,用于获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;第二获取模块,用于获取预先生成的机器学习模型;预选模块,用于根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。本专利技术第二方面实施例提出的用于波形拼接语音合成的选音装置,通过采用机器学习模型进行预选,可以将各种信息综合起来考虑,从而提高语音合成时的预选效果。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的用于波形拼接语音合成的选音方法的流程示意图;图2是本专利技术另一实施例提出的用于波形拼接语音合成的选音方法的流程示意图;图3是本专利技术实施例中一种音子树的示意图;图4是本专利技术实施例中语音合成方法的流程示意图;图5是本专利技术另一实施例提出的用于波形拼接语音合成的选音装置的结构示意图;图6是本专利技术另一实施例提出的用于波形拼接语音合成的选音装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的用于波形拼接语音合成的选音方法的流程示意图。参见图1,该方法包括:S11:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的。其中,前端处理主要包括:预处理、分词、词性标注、注音、韵律层级预测等。标注信息主要包括:音子的上下文信息、韵律位置信息、声调信息等。S12:获取预先生成的机器学习模型。可选的,机器学习模型可以是音子树或者深度神经网络模型。机器学习模型可以是在训练阶段,根据音子样本的标注信息和语音数据训练生成的。本实施例中,以机器学习模型是音子树为例。相应的,参见图2,一些实施例中,该方法还包括:S21:获取音子样本的标注信息及音子样本的波形片断,并根据所述音子样本的标注信息,训练得到隐马尔可夫模型(HiddenMarkovModel,HMM),以及,建立HMM与波形片断的对应关系。其中,训练HMM时可以采用隐马尔可夫模型工具包(HMMToolKit,HTK)的基于HMM的语音合成(HMM-basedSpeechSynthesisSystem,HTS)来实现。训练完成后,训练数据中每个音子的样本都会对应到一个HMM,每个HMM以标注信息来命名。在训练数据中,同一个音子,一般对应一个HMM;极少数情况下存在一个HMM对应多个音子的情况。例如,韵母音子ai4,对应的HMM声学模型的名称可以简单表示为:k-ai+b,t-ai+h,s-ai+n等。可以理解的是,完整的HMM名称,即音子标注,还包含大量其他信息。S22:对应每个音子,对所述音子对应的HMM进行决策树聚类,得到所述音子对应的音子树。对于特定音子,比如“ai4”,使用其所有的HMM进行决策树聚类。通过决策树聚类,构建的音子树中,每个非叶子节点对应一个最优的分裂问题,每个叶子节点关联一部分的HMM。聚类时使用的问题是韵律位置、上下文等标注信息。一开始所有的HMM都在根节点上,然后选择使得分裂前后对数似然值增量最大的问题作为最优分裂问题,把根节点关联的HMM分裂成两部分;然后子节点再继续分裂。当分裂前后对数似然增量小于某一阈值时,就停止分裂。其中,阈值由最小描述长度(MinimumDescriptiondistance,MDL)准则确定。一种音子树聚类过程可以如图3所示。图3中每个非叶子节点对应一个最优的分裂问题,每个叶子节点关联一部分的HMM。本文档来自技高网
...

【技术保护点】
一种用于波形拼接语音合成的选音方法,其特征在于,包括:获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;获取预先生成的机器学习模型;根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选音子波形片断。

【技术特征摘要】
1.一种用于波形拼接语音合成的选音方法,其特征在于,包括:
获取标注信息,所述标注信息是对待合成文本进行前端处理后得到的;
获取预先生成的机器学习模型;
根据所述标注信息和所述机器学习模型进行机器学习预选,得到候选
音子波形片断。
2.根据权利要求1所述的方法,其特征在于,当所述机器学习模型是音
子树时,所述方法还包括:
获取音子样本的标注信息及音子样本的波形片断,并根据所述音子样
本的标注信息,训练得到HMM,以及,建立HMM与波形片断的对应关系;
对应每个音子,对所述音子对应的HMM进行决策树聚类,得到所述音
子对应的音子树。
3.根据权利要求2所述的方法,其特征在于,所述音子树中,每个非叶
子节点对应一个最优的分裂问题,每个叶子节点关联一个或多个HMM。
4.根据权利要求3所述的方法,其特征在于,所述最优的分裂问题是
使得分裂前后对数似然值增量最大的问题,当分裂前后对数似然增量小于
预设阈值时,停止分裂,其中,所述预设阈值根据MDL准则确定。
5.根据权利要求2所述的方法,其特征在于,所述根据所述标注信息和
所述机器学习模型进行机器学习预选,得到候选音子波形片断,包括:
根据所述待合成文本对应的标注信息,对应每个音子,遍历所述音子
对应的音子树,获取所述音子树的叶子节点关联的HMM;
根据所述HMM与波形片断的对应关系,获取与所述叶子节点关联的HMM

\t对应的波形片断,将所述波形片断确定为得到候选音子波形片断。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取声学参数,所述声学参数是根据所述标注信息进行声学参数预测
后得到的;
根据所述声学参数...

【专利技术属性】
技术研发人员:张辉李秀林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1