一种语音增强方法、装置、存储介质及设备制造方法及图纸

技术编号:45501107 阅读:40 留言:0更新日期:2025-06-10 17:56
本申请公开了一种语音增强方法、装置、存储介质及设备,该方法包括:首先获取目标用户的录音数据;并利用录音数据训练得到语音转换模型和第一语音合成模型;其中,目标用户的录音数据包括文本数据及对应的语音数据,然后利用语音转换模型构造第一文本语音数据对;并利用第一语音合成模型构造第二文本语音数据对;接着对第一文本语音数据对和第二文本语音数据对进行质量筛选,得到筛选后的文本语音数据对;并利用筛选后的文本语音数据对和目标用户的录音数据构成增强后的语音数据。从而能够有效提高增强后的语音数据的质量,进而在利用增强后的语音数据再次训练得到语音合成模型后,可以有效提高模型的语音合成效果。

【技术实现步骤摘要】

本申请涉及语音处理,尤其涉及一种语音增强方法、装置、存储介质及设备


技术介绍

1、随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。其中,文本转语音(text-to-speech,tts)技术在智能交互领域中发挥着关键作用,例如虚拟助手、聊天机器人以及视频配音等应用。

2、并且,随着tts技术的发展和普及,人们对于高质量、个性化以及多样化的语音生成内容需求也不断增加。导致现有的语音合成系统往往需要说话人的高质量、高时长的录音数据来保障合成语音的自然度和质量。然而,构建高质量录音数据的所需的时间以及人力成本较高,因此,通常使用合成的数据来扩充录音数据进行现有语音合成系统的训练。但是,目前现有的语音数据增强方法通常是先利用语音转换模型或语音合成模型来生成新的语音数据,用以扩充训练数据,然后再直接使用扩充的训练数据对现有语音合成系统进行训练,其中,由于语音转换模型和语音合成模型能力的限制,会导致生成的新的语音数据质量较差,即与已有录音(训练)数据存在较大差距,进而会导致利用扩充后的训练数据训练本文档来自技高网...

【技术保护点】

1.一种语音增强方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述语音转换模型构造第一文本语音数据对,包括:

3.根据权利要求1所述的方法,其特征在于,所述利用所述第一语音合成模型构造第二文本语音数据对,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行质量筛选,得到筛选后的文本语音数据对,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行语音质量检测的方式如下:

6.根据权利要求4所述的...

【技术特征摘要】

1.一种语音增强方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述利用所述语音转换模型构造第一文本语音数据对,包括:

3.根据权利要求1所述的方法,其特征在于,所述利用所述第一语音合成模型构造第二文本语音数据对,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行质量筛选,得到筛选后的文本语音数据对,包括:

5.根据权利要求4所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行语音质量检测的方式如下:

6.根据权利要求4所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行语音内容一致性检测的方式如下:

7.根据权利要求4所述的方法,其特征在于,所述对所述第一文本语音数据对和所述第二文本语音数据对进行音色一致性...

【专利技术属性】
技术研发人员:陈天同汝家伟马志强方昕高建清刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1