【技术实现步骤摘要】
韵律标注方法、声学模型训练方法、语音合成方法及装置
[0001]本公开涉及语音合成
,尤其涉及一种韵律标注方法、声学模型训练方法、语音合成方法及装置。
技术介绍
[0002]声学模型是语音合成(Text To Speech,TTS)技术的重要组成之一。在声学模型的训练过程中,会使用大量具有韵律标记的训练文本,以保证训练后的声学模型能够预测文本中的韵律,从而合成具有韵律、不生硬的合成语音。因此保证文本中韵律标记的准确性是十分重要的。
[0003]相关技术在对文本进行韵律标注的过程中,以停顿韵律为主,即用简单的韵律符号,标注朗读时的停顿级别,从而使得整个语音有顿挫。然而,仅通过停顿级别对声学模型的训练文本进行韵律标注,无法得到具有高拟人度语音效果的声学模型。
技术实现思路
[0004]有鉴于此,本公开提供一种韵律标注方法、声学模型训练方法、语音合成方法及装置。
[0005]第一方面,提供一种韵律标注方法,包括:
[0006]根据文本数据中的多个音素和文本数据对应的第一音频数据之间的对 ...
【技术保护点】
【技术特征摘要】
1.一种韵律标注方法,其特征在于,包括:根据文本数据中的多个音素和所述文本数据对应的第一音频数据之间的对应关系,将所述第一音频数据划分为多个第二音频数据,所述多个第二音频数据与所述多个音素之间具有对应关系;对所述多个第二音频数据的韵律特征进行聚类,得到多个聚类簇;所述韵律特征包括音高、音量和音长;所述多个聚类簇中的每个聚类簇用于表示一种韵律标记,一种韵律标记用于反应包含一种音高、音量和音长的韵律特征;基于所述多个第二音频数据的韵律特征与所述多个聚类簇进行确定韵律标记的处理,得到所述多个音素各自的韵律标记。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二音频数据的韵律特征与所述多个聚类簇进行确定韵律标记的处理,得到所述多个音素各自的韵律标记,包括:分别计算每个第二音频数据的韵律特征与所述多个聚类簇中每个聚类簇的核心点之间的距离,得到距离计算结果;根据所述距离计算结果,从所述多个聚类簇中确定与每个第二音频数据对应的目标聚类簇;其中,每个第二音频数据的韵律特征与相应的目标聚类簇的核心点之间的距离满足预设距离条件;将每个第二音频数据对应的目标聚类簇示出的韵律标记,作为相应第二音频数据所对应的音素的韵律标记。3.根据权利要求1所述的方法,其特征在于,所述对所述多个第二音频数据的韵律特征进行聚类,得到多个聚类簇,包括:根据所述多个第二音频数据对应的音素的发音时长,将所述多个第二音频数据划分为多个音频数据子集;其中,同一个音频数据子集中各个第二音频数据各自对应的音素的发音时长在该音频数据子集对应的预设发音时长范围内;对所述多个音频数据子集分别进行聚类,得到多个聚类簇。4.根据权利要求1所述的方法,其特征在于,所述根据文本数据中的多个音素和所述文本数据对应的第一音频数据之间的对应关系,将所述第一音频数据划分为多个第二音频数据,包括:对所述文本数据以及与所述文本数据对应的所述第一音频数据进行对齐处理,得到所述多个音素中每个音素在所述第一音频数据中的时间边界;根据所述多个音素中每个音素在所述第一音频数据中的时间边界,将所述第一音频数据划分为多个第二音频数据。5.一种声学模型训练方法,其特征在于,包括:构建训练集,所述训练集包括文本数据以及与所述文本数据对应的音频数据;通过权利要求1至4任一项所述的方法,对所述文本数据中的多个音素分别进行韵律标注,得到所述多个音素各自的韵律标记;采用所述训练集以及所述多个音素各自的韵律标记,训练声学模型,训练完成的声学模型用于对待合成文本进行语音合成...
【专利技术属性】
技术研发人员:乔宏利,刘敏,夏粉,蒋宁,吴海英,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。