一种语音信号处理方法、装置、存储介质及终端设备制造方法及图纸

技术编号:26973647 阅读:33 留言:0更新日期:2021-01-06 00:07
本发明专利技术公开了一种语音信号处理方法、装置、存储介质及终端设备,该方法包括:获取语音片段中的N个语音特征;对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征;将N个第一语音特征划分为K个语音特征块;其中,语音特征块包含若干个第一语音特征,N≥K>0;分别对每一个语音特征块中的第一语音特征进行调整处理,获得N个第二语音特征;其中,所述调整处理为从第k个语音特征块中截取部分第一语音特征,或者根据第k个语音特征块中的第一语音特征填充新的语音特征;其中,K≥k>0;将N个第二语音特征输入至预设的声码器中,合成变声后的语音信号;通过本发明专利技术难以从变声后的语音信号中识别出用户身份,加强用户的隐私保护。

【技术实现步骤摘要】
一种语音信号处理方法、装置、存储介质及终端设备
本专利技术涉及语音
,尤其涉及一种语音信号处理方法、装置、存储介质及终端设备。
技术介绍
在语音信号处理技术的快速发展和社交平台的流行推广下,语音变声成为语音信号处理领域中一个重要的研究方向,其可应用在保密通信,娱乐通信等多个领域,具有良好前景。现有技术中,通过以下四种方法来进行语音变声,第一种是通过改变音调实现语音变声,可通过改变声源的频率,频率越高,音调也越高,频率越低,音调也越低;也可通过改变播放频率,如将放音机的放音速度加快或放慢,使播放音乐的音调提高或降低,然而该方法音调虽提高了,但是放音时间也变短了。第二种是通过改变基频实现语音变声,基频是发浊音时声带振动的频率,基频的高低与说话人的性别直接相关,一般来说男声的基频比较低,女声的基频比较高。此外,年龄对于基频的高低也有一定影响,老年人的基频比年青人的基频低,年青人的基频要比儿童的基频低。所以通过改变基频,就能改变语音的效果,达到变声效果。第三种是通过改变共振峰实现语音变声,共振峰是指声门波在声道里的共鸣频率。共振峰与声道的长度有很大的相关性,声道越长共振峰的频率越高,反之亦然。相对来说,男子的声道比女子的声道要长一些,所以男声的共振峰频率比女声的共振峰频率相对也要高一些。因此通过改变共振峰,能够影响人对说话人的判断。对于修改共振峰的频率,大部分方法都是基于参数合成的算法,这些方法普遍存在的问题是运算量比较大,需要人工干预,合成的语音的自然度比较差。第四种是通过调节EQ均衡器实现语音变声,在听MP3格式的音乐文件时经常会使用EQ均衡器对数字声音的音效进行调节,EQ均衡器变音改变音效的原理是通过将数字声音信号分为多个频段,分别对所述多个频段不同频率的信号进行调节和增益,只能祈祷补偿扬声器和声场的缺陷,补偿和修饰各种声源及其它辅助作用,但是类似于花栗鼠、腹语、鬼音等特殊音效,现有通过调节EQ均衡器的变音方法就无法实现。然而上述四种方法都是从语音频率的角度进行语音变声,通过提升高音或降低低音的方式进行语音变声,容易被逆变回来,从而暴露说话人身份,不能起到隐私保护的效果。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种语音信号处理方法、装置、存储介质及终端设备,难以从变声后的语音信号中识别出用户身份,加强用户的隐私保护。为了解决上述技术问题,本专利技术实施例提供了一种语音信号处理方法,包括:获取语音片段中的N个语音特征;其中,N>0;对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征;将N个第一语音特征划分为K个语音特征块;其中,语音特征块包含若干个第一语音特征,N≥K>0;分别对每一个语音特征块中的第一语音特征进行调整处理,获得N个第二语音特征;其中,所述调整处理为从第k个语音特征块中截取部分第一语音特征,或者根据第k个语音特征块中的第一语音特征填充新的语音特征;其中,K≥k>0;将N个第二语音特征输入至预设的声码器中,合成变声后的语音信号。进一步地,任一语音特征包括基音频率、共振峰频谱包络、非周期激励信号;则,所述获取语音片段中的N个语音特征,具体包括:按照预设的帧长度对所述语音片段进行分帧,获得N个帧信号;基于DIO算法提取每一个帧信号中的基音频率,获得N个基音频率;基于CheapTrick算法提取每一个帧信号中的共振峰频谱包络,获得N个共振峰频谱包络;基于PLATINUM算法提取每一个帧信号中的非周期激励信号,获得N个非周期激励信号。进一步地,每一个第一语音特征包括第一基音频率、第一共振峰频谱包络、第一非周期激励信号,则,所述对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征,具体包括:对每一个基音频率进行平滑处理、非线性处理和调频处理,得到N个第一基音频率;对每一个共振峰频谱包络进行移动处理和平滑处理,得到N个第一共振峰频谱包络;对每一个非周期激励信号进行平滑处理和非线性处理,得到N个第一非周期激励信号。进一步地,所述对每一个基音频率进行平滑处理、非线性处理和调频处理,得到N个第一基音频率,具体包括:将每一个基音频率与该基音频率相邻的基音频率进行均值计算,得到N个平滑处理后的基音频率;基于三角函数算法或指数函数算法,对每一个平滑处理后的基音频率进行非线性处理,获得N个非线性处理后的基音频率;以预设的频率范围为参考,将每一个非线性处理后的基音频率映射到所述频率范围内,得到N个第一基音频率。进一步地,所述对每一个共振峰频谱包络进行移动处理和平滑处理,得到N个第一共振峰频谱包络,具体包括:将每一个共振峰频谱包络循环移动N个单位,获得N个移动处理后的共振峰频谱包络;对每一个移动处理后的共振峰频谱包络与该移动处理后的共振峰频谱包络相邻的移动处理后的共振峰频谱包络进行均值计算,得到N个第一共振峰频谱包络。进一步地,所述对每一个非周期激励信号进行平滑处理和非线性处理,得到N个第一非周期激励信号,具体包括:将每一个非周期激励信号与该非周期激励信号相邻的非周期激励信号进行均值计算,得到N个平滑处理后的非周期激励信号;基于三角函数算法或指数函数算法,对每一个平滑处理后的非周期激励信号进行非线性处理,获得N个第一非周期激励信号。相应地,本专利技术还提供了一种语音信号处理装置,包括:语音特征提取模块,用于获取语音片段中的N个语音特征;其中,N>0;变换处理模块,用于对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征;分块模块,用于将N个第一语音特征划分为K个语音特征块;其中,语音特征块包含若干个第一语音特征,N≥K>0;调整处理模块,用于分别对每一个语音特征块中的第一语音特征进行调整处理,获得N个第二语音特征;其中,所述调整处理为从第k个语音特征块中截取部分第一语音特征,或者根据第k个语音特征块中的第一语音特征填充新的语音特征;其中,K≥k>0;合成模块,用于将N个第二语音特征输入至预设的声码器中,合成变声后的语音信号。进一步地,所述语音特征提取模块,包括:分帧单元,用于按照预设的帧长度对所述语音片段进行分帧,获得N个帧信号;基音频率提取单元,用于基于DIO算法提取每一个帧信号中的基音频率,获得N个基音频率;共振峰频谱包络提取单元,用于基于CheapTrick算法提取每一个帧信号中的共振峰频谱包络,获得N个共振峰频谱包络;非周期激励信号提取单元,用于基于PLATINUM算法提取每一个帧信号中的非周期激励信号,获得N个非周期激励信号。相应地,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的语音信号处理方法。相应地,本专利技术还提供了一种终端设备,包括处理器、存储器以及存本文档来自技高网
...

【技术保护点】
1.一种语音信号处理方法,其特征在于,包括:/n获取语音片段中的N个语音特征;其中,N>0;/n对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征;/n将N个第一语音特征划分为K个语音特征块;其中,语音特征块包含若干个第一语音特征,N≥K>0;/n分别对每一个语音特征块中的第一语音特征进行调整处理,获得N个第二语音特征;其中,所述调整处理为从第k个语音特征块中截取部分第一语音特征,或者根据第k个语音特征块中的第一语音特征填充新的语音特征;其中,K≥k>0;/n将N个第二语音特征输入至预设的声码器中,合成变声后的语音信号。/n

【技术特征摘要】
1.一种语音信号处理方法,其特征在于,包括:
获取语音片段中的N个语音特征;其中,N>0;
对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征;
将N个第一语音特征划分为K个语音特征块;其中,语音特征块包含若干个第一语音特征,N≥K>0;
分别对每一个语音特征块中的第一语音特征进行调整处理,获得N个第二语音特征;其中,所述调整处理为从第k个语音特征块中截取部分第一语音特征,或者根据第k个语音特征块中的第一语音特征填充新的语音特征;其中,K≥k>0;
将N个第二语音特征输入至预设的声码器中,合成变声后的语音信号。


2.如权利要求1所述的语音信号处理方法,其特征在于,任一语音特征包括基音频率、共振峰频谱包络、非周期激励信号;则,所述获取语音片段中的N个语音特征,具体包括:
按照预设的帧长度对所述语音片段进行分帧,获得N个帧信号;
基于DIO算法提取每一个帧信号中的基音频率,获得N个基音频率;
基于CheapTrick算法提取每一个帧信号中的共振峰频谱包络,获得N个共振峰频谱包络;
基于PLATINUM算法提取每一个帧信号中的非周期激励信号,获得N个非周期激励信号。


3.如权利要求2所述的语音信号处理方法,其特征在于,每一个第一语音特征包括第一基音频率、第一共振峰频谱包络、第一非周期激励信号,则,所述对N个语音特征进行预设的不可逆变换处理,获得N个第一语音特征,具体包括:
对每一个基音频率进行平滑处理、非线性处理和调频处理,得到N个第一基音频率;
对每一个共振峰频谱包络进行移动处理和平滑处理,得到N个第一共振峰频谱包络;
对每一个非周期激励信号进行平滑处理和非线性处理,得到N个第一非周期激励信号。


4.如权利要求3所述的语音信号处理方法,其特征在于,所述对每一个基音频率进行平滑处理、非线性处理和调频处理,得到N个第一基音频率,具体包括:
将每一个基音频率与该基音频率相邻的基音频率进行均值计算,得到N个平滑处理后的基音频率;
基于三角函数算法或指数函数算法,对每一个平滑处理后的基音频率进行非线性处理,获得N个非线性处理后的基音频率;
以预设的频率范围为参考,将每一个非线性处理后的基音频率映射到所述频率范围内,得到N个第一基音频率。


5.如权利要求3所述的语音信号处理方法,其特征在于,所述对每一个共振峰频谱包络进行移动处理和平滑处理,得到N个第一共振峰频谱包络,具体包括:
将每一个共振峰频谱包络循环移...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广州多益网络股份有限公司广东利为网络科技有限公司多益网络有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1