【技术实现步骤摘要】
样本生成方法及装置
本说明书涉及数据处理
,特别涉及样本生成方法及装置。
技术介绍
随着互联网技术的发展,语音合成被越来越多的场景所应用;语音合成(TextToSpeech,TTS)又称为文语转换技术,是一种通过软、硬件结合的方式将文本转换为自然语音的技术,该技术可以通过波形拼接、基于参数的合成或使用神经网络的端到端合成方法实现;其中波形拼接方法需要较长时间的训练数据才能够完成语音合成;而基于参数的合成方法虽然可以完成语音合成,但是所参考的因素较少,导致最终的合成结果并不理想;现有技术中应用较为广泛的即为基于神经网络的端到端合成方法,该方法所需要的数据量小,无需人工调整大量参数即可实现语音合成;虽然端到端的语音合成方法在数据量的需求上要小于其他方法,但是结合基于神经网络的端到端合成方法的特性,对语音数据的质量要求要远高于其他方法,前期准备语音数据的成本将大大的增加,并且准备好的语音数据还可能存在不完善的问题,严重影响基于神经网络的端到端合成方法的实现,因此亟需一种有效的方案以解决上述问题。
技术实现思路
< ...
【技术保护点】
1.一种样本生成方法,其特征在于,包括:/n获取多个文本音频对,其中每个文本音频对中包含文本片段和音频片段;/n计算所述多个文本音频对中每个文本音频对的音频片段的音频特征,并根据所述音频特征在所述多个文本音频对中筛选出目标文本音频对和所述目标文本音频对对应的拼接文本音频对;/n将所述目标文本音频对和所述拼接文本音频对拼接为待检测文本音频对,并对所述待检测文本音频对进行检测;/n在所述待检测文本音频对满足预设检测条件的情况下,将所述待检测文本音频对写入训练数据库。/n
【技术特征摘要】
1.一种样本生成方法,其特征在于,包括:
获取多个文本音频对,其中每个文本音频对中包含文本片段和音频片段;
计算所述多个文本音频对中每个文本音频对的音频片段的音频特征,并根据所述音频特征在所述多个文本音频对中筛选出目标文本音频对和所述目标文本音频对对应的拼接文本音频对;
将所述目标文本音频对和所述拼接文本音频对拼接为待检测文本音频对,并对所述待检测文本音频对进行检测;
在所述待检测文本音频对满足预设检测条件的情况下,将所述待检测文本音频对写入训练数据库。
2.根据权利要求1所述的样本生成方法,其特征在于,所述获取多个文本音频对,包括:
获取目标文本以及所述目标文本对应的音频;
对所述音频进行预处理获得目标音频,并将所述目标文本转换为音素序列;
将所述音素序列与所述目标音频进行对齐处理,并根据对齐处理结果生成所述多个文本音频对。
3.根据权利要求2所述的样本生成方法,其特征在于,所述根据对齐处理结果生成所述多个文本音频对,包括:
根据对齐处理结果得到音素音频文件,并确定所述音素音频文件的切分位置;
按照所述切分位置对所述音素音频文件进行切分,获得多个音素音频对,其中每个音素音频对中包含音素片段和音频片段;
基于所述目标文本确定所述多个音素音频对中的每个音素音频对的音素片段对应的文本片段;
根据每个音素音频对中音素片段对应的文本片段,以及每个音素音频对中的音频片段生成所述多个文本音频对。
4.根据权利要求1所述的样本生成方法,其特征在于,所述计算所述多个文本音频对中每个文本音频对的音频片段的音频特征,包括:
提取所述多个文本音频对中每个文本音频对的音频片段,并对每个文本音频对的音频片段进行分帧处理,获得每个文本音频对的音频帧集合;
基于所述多个文本音频对中每个文本音频对的音频帧集合包含的音频帧,计算每个文本音频对的音频片段的基音频率特征和音频帧特征;
根据每个文本音频对的音频片段的所述基音频率特征和所述音频帧特征,确定每个文本音频对的音频片段的所述音频特征。
5.根据权利要求1所述的样本生成方法,其特征在于,所述根据所述音频特征在所述多个文本音频对中筛选出目标文本音频对和所述目标文本音频对对应的拼接文本音频对,包括:
将所述多个文本音频对中每个文本音频对的音频片段、文本片段和音频特征进行整合,获得每个文本音频对对应的文本音频包,并写入片段数据库;
在所述片段数据库中选择任意一个文本音频包作为目标文本音频包,并将所述目标文本音频包中的文本音频对确定为所述目标文本音频对;
基于所述片段数据库中除所述目标文本音频包外的文本音频包和所述音频特征确定拼接文本音频包,并将所述拼接文本音频包中的文本音频对作为所述拼接文本音频对。
6.根据权利要求5所述的样本生成方法,其特征在于,所述基于所述片段数据库中除所述目标文本音频包外的文本音频包和所述音频特征确定拼接文本音频包,包括:
在所述片段数据库中选择除所述目标文本音频包外的文本音频包组成待筛选文本音频包集合;
将所述待筛选文本音频包集合中包含的各个待筛选文本音频包的文本音频对确定为待筛选文本音频对;
基于所述目标文本音频对的音频片段的音频特征和所述待筛选文本音频对的音频片段的音频特征,在所述待筛选文本音频包集合中筛选出所述拼接文本音频包。
7.根据权利要求6所述的样本生成方法,其特征在于,所述基于所述目标文本音频对的音频片段的音频特征和所述待筛选文本音频对的音频片段的音频特征,在所述待筛选文本音频包集合中筛选出所述拼接文本音频包,包括:
根据所述目标文本音频包确定所述目标文本音频对的音频片段的第一音频特征,以及根据所述待筛选文本音频包确定所述待筛选文本音频对的音频片段的第二音频特征;
计算所述第一音频特征和所述第二音频特征之间的特征距离;
将所述特征距离小于预设距离阈值的待筛选文本音频对所属的待筛选文本音频包确定为所述拼接文本音频包。
8.根据权利要求1所述的样本生成方法,其特征在于,所述将所述目标文本音频对和所述拼接文本音频对拼接为待检测文本音频对,并对所述待检测文本音频对进行检测步骤执行之前,还包括:
对所述目标文本音频对中的音频片段进行采样处理获得目标采样信息,以及确定所述目标文本音频对中的文本片段的目标文本信息;
判断所述目标...
【专利技术属性】
技术研发人员:王冬晓,杨明祺,马楠,夏龙,郭常圳,
申请(专利权)人:北京猿力未来科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。