System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音处理方法、装置及终端设备制造方法及图纸_技高网

语音处理方法、装置及终端设备制造方法及图纸

技术编号:40278306 阅读:10 留言:0更新日期:2024-02-02 23:06
本申请实施例提供一种语音处理方法、装置及终端设备。该方法包括:对待处理的初始语音进行去噪处理,得到目标语音;通过编码块对所述目标语音进行编码处理,得到中间音频数据,所述中间音频数据包括至少一个目标语义特征,所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块;通过量化模型对所述中间音频数据进行量化处理,得到目标音频数据,所述目标音频数据包括每个目标语义特征对应的编码索引值。提高了语音处理的效果。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及一种语音处理方法、装置及终端设备


技术介绍

1、终端设备可以通过声码器,对输入的语音进行编码处理,得到音频数据。同时可以通过声码器,对接收到的音频数据进行解码处理,并播放音频数据对应的语音。

2、在相关技术中,可以通过如下方式对进行语音处理:发送端获取待处理的语音,并对语音进行预处理,得到初始音频数据。发送端通过声码器的编码器对初始音频数据进行编码处理,得到目标音频数据。并向接收端发送目标音频数据,接收端的声码器将接收到的比特流形式的目标音频数据中解析出语音特征参数,合成语音信号。在上述过程中,由于声码器使用固定的参数和模型结构,声码器提取语音信号的特征参量。若语音包含复杂的语音情感、语气变化和上下文信息时,声码器解码合成的语音听起来不够清晰、自然,且可能存在明显的机械感。导致语音处理的效果较差。


技术实现思路

1、本申请实施例提供一种语音处理方法、装置及终端设备,用以解决语音处理的效果较差的问题。

2、第一方面,本申请实施例提供一种语音处理方法,包括:

3、对待处理的初始语音进行去噪处理,得到目标语音;

4、通过编码块对所述目标语音进行编码处理,得到中间音频数据,所述中间音频数据包括至少一个目标语义特征,所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块;

5、通过量化模型对所述中间音频数据进行量化处理,得到目标音频数据,所述目标音频数据包括每个目标语义特征对应的编码索引值。

6、在一种可能的实施方式中,所述编码块中各模块的排列顺序为:所述至少一个第一卷积块与所述至少一个第一残差单元交错排列,所述语义理解模块、所述第二卷积块;通过编码块对所述目标语音进行编码处理,得到中间音频数据,包括:

7、通过所述至少一个第一卷积块和所述至少一个第一残差单元对所述目标语音进行处理,得到所述目标语音对应的至少一个初始语义特征;

8、通过所述语义理解模块对所述至少一个初始语义特征进行上下文理解处理,得到所述至少一个初始语义特征对应的至少一个加强语义特征;

9、通过所述第二卷积块对所述至少一个加强语义特征进行处理,得到所述中间音频数据。

10、在一种可能的实施方式中,通过所述第二卷积块对所述至少一个加强语义特征进行处理,得到所述中间音频数据,包括:

11、获取所述目标语义特征的目标数量;

12、根据所述目标数量,通过所述第二卷积块对所述至少一个加强语义特征进行数量提取处理,得到所述中间音频数据,所述中间音频数据包括的目标语义特征的数量为所述目标数量。

13、在一种可能的实施方式中,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

14、获取编码索引表,所述编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值;

15、根据所述编码索引表,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据。

16、在一种可能的实施方式中,根据所述编码索引表,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

17、针对任意一个目标语义特征,确定所述目标语义特征与编码索引表的每个标准语义特征之间的第一相似度,得到多个第一相似度;

18、将所述第一相似度最大的标准语义特征确定为待选语义特征;

19、将所述待选语义特征对应的编码索引值确定为所述目标语义特征对应的编码索引值;

20、通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理,得到所述目标音频数据。

21、在一种可能的实施方式中,通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理,得到所述目标音频数据之后,还包括:

22、对所述目标音频数据进行熵编码处理,得到所述目标音频数据对应的目标压缩文件;

23、向预设设备发送所述目标压缩文件,或者存储所述目标压缩文件。

24、在一种可能的实施方式中,对待处理的初始语音进行去噪处理,得到目标语音,包括:

25、对所述初始语音进行预处理,得到中间语音,所述预处理至少包括降噪处理、预加重处理、帧化处理;

26、对所述中间语音进行划分处理,得到背景音、噪音以及第一语音,所述第一语音为所述中间语音中,除所述背景音和所述噪音之外的语音;

27、在所述中间语音中,对所述噪音进行去除处理、对所述背景音进行音量减少处理、以及对所述第一语音进行音量增强处理,得到所述目标语音。

28、在一种可能的实施方式中,所述方法还包括:

29、通过所述量化模型对所述目标音频数据进行反量化处理,得到所述中间音频数据;

30、通过所述解码块对所述中间音频数据进行解码处理,得到所述目标语音,并播放所述目标语音,所述解码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块,所述解码块中各模块的排列顺序为:所述第二卷积块、所述语义理解模块、所述至少一个第一卷积块与所述至少一个第一残差单元交错排列。

31、第二方面,本申请实施例提供一种语音处理装置,所述装置包括:

32、第一处理模块,用于对待处理的初始语音进行去噪处理,得到目标语音;

33、第二处理模块,用于通过编码块对所述目标语音进行编码处理,得到中间音频数据,所述中间音频数据包括至少一个目标语义特征,所述编码块包括至少一个第一卷积块、至少一个第一残差单元、语义理解模块、以及第二卷积块;

34、第三处理模块,用于通过量化模型对所述中间音频数据进行量化处理,得到目标音频数据,所述目标音频数据包括每个目标语义特征对应的编码索引值。

35、在一种可能的实施方式中,所述第二处理模块具体用于:

36、通过所述至少一个第一卷积块和所述至少一个第一残差单元对所述目标语音进行处理,得到所述目标语音对应的至少一个初始语义特征;

37、通过所述语义理解模块对所述至少一个初始语义特征进行上下文理解处理,得到所述至少一个初始语义特征对应的至少一个加强语义特征;

38、通过所述第二卷积块对所述至少一个加强语义特征进行处理,得到所述中间音频数据。

39、在一种可能的实施方式中,所述第二处理模块具体用于:

40、获取所述目标语义特征的目标数量;

41、根据所述目标数量,通过所述第二卷积块对所述至少一个加强语义特征进行数量提取处理,得到所述中间音频数据,所述中间音频数据包括的目标语义特征的数量为所述目标数量。

42、在一种可能的实施方式中,所述第三处理模块具体用于:

43、获取编码索引表,所述编码索引表包括多个标准语义特征、以及每个标准语义特征对应的编码索引值;...

【技术保护点】

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述编码块中各模块的排列顺序为:所述至少一个第一卷积块与所述至少一个第一残差单元交错排列,所述语义理解模块、所述第二卷积块;通过编码块对所述目标语音进行编码处理,得到中间音频数据,包括:

3.根据权利要求2所述的方法,其特征在于,通过所述第二卷积块对所述至少一个加强语义特征进行处理,得到所述中间音频数据,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述编码索引表,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

6.根据权利要求5所述的方法,其特征在于,通过所述量化模型对所述至少一个目标语义特征对应的编码索引值进行压缩处理,得到所述目标音频数据之后,还包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,对待处理的初始语音进行去噪处理,得到目标语音,包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

9.一种语音处理装置,其特征在于,所述装置包括:

10.一种终端设备,其特征在于,包括:

11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,其中,所述计算机指令用于使计算机执行根据权利要求1至8中任一项所述的方法。

12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种语音处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述编码块中各模块的排列顺序为:所述至少一个第一卷积块与所述至少一个第一残差单元交错排列,所述语义理解模块、所述第二卷积块;通过编码块对所述目标语音进行编码处理,得到中间音频数据,包括:

3.根据权利要求2所述的方法,其特征在于,通过所述第二卷积块对所述至少一个加强语义特征进行处理,得到所述中间音频数据,包括:

4.根据权利要求1-3任一项所述的方法,其特征在于,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述编码索引表,通过所述量化模型对所述中间音频数据进行量化处理,得到目标音频数据,包括:

6.根据权利要...

【专利技术属性】
技术研发人员:肖晓彭心怡
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1