语音消息处理方法及装置制造方法及图纸

技术编号:23432525 阅读:20 留言:0更新日期:2020-02-25 13:29
本发明专利技术公开一种语音消息处理方法及装置。在该方法中,获取语音消息;提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征,所述语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征;针对所述语音消息中的各个语音帧,将所提取的关于各个语音帧的语音特征提供给语音噪音判别模型,以由该语音噪音判别模型确定各个语音帧是属于有效语音帧还是属于噪音帧;针对所述语音消息中的有效语音帧执行语音增强操作。由此,利用机器学习模型技术,能够较精确地识别语音帧中的有效语音帧和噪音帧,实现语音增强的目的,保障了语音信号的输出质量。

Voice message processing method and device

【技术实现步骤摘要】
语音消息处理方法及装置
本专利技术属于互联网
,尤其涉及一种语音消息处理方法及装置。
技术介绍
语音信号处理是现代通信、多媒体应用和人工智能等领域的核心技术之一。在语音采集过程中,由于环境噪声、房间混响等影响,所获语音音质和清晰度会下降。语音增强作为一种前置处理方案,是一种有效的抑制干扰的方法。在低信噪比环境下,通常用多通道系统获得高质量的语音通信,与单通道系统相比,多通道可以获得显著的性能提升,并且通道数越多,干扰抑制能力越强。多通道信号处理方法包括基于空间、基于能量差、相位差的方法等。其中,基于能量差的方法利用不同麦克风接收到的近场目标语音能量有差异而接收到的远场干扰信号能量几乎相同的原理,设计滤波器进行增强,但是这一方法只在目标语音在近场的情形下有效,而无法适用于目标语音在远场的情形。另外,基于相位差的方法利用补偿目标语音到达不同麦克风之间的时延差设计相应的滤波器,此方法对时延差估计有极高的要求,并且基于相位差时延差的方法会带来非线性的语音失真的问题。针对上述问题,目前业界暂时并未提供较佳的解决方案。
技术实现思路
本专利技术实施例提供一种语音消息处理方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音消息处理方法,包括:获取语音消息;提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征,所述语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征;针对所述语音消息中的各个语音帧,将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型,以由该语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧;针对所述语音消息中有效语音帧执行语音增强操作。第二方面,本专利技术实施例提供一种语音消息处理装置,包括:语音消息获取单元,用于获取语音消息;语音特征提取单元,用于提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征,所述语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征;噪音帧识别单元,用于针对所述语音消息中的各个语音帧,将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型,以由该语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧;语音增强单元,用于针对所述语音消息中有效语音帧执行语音增强操作。第三方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术实施例的有益效果在于:在处理语音消息时,对语音消息的语音特征进行提取,并由语音噪音判别模型来判断各个语音帧是属于有效语音帧还是属于噪音帧,从而对语音消息中的有效语音帧执行语音增强操作。由此,利用机器学习模型技术,能够较精确地识别语音帧中的有效语音帧和噪音帧,实现语音增强的目的,保障了语音信号的输出质量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了根据本专利技术实施例的语音消息处理方法的一示例的流程图;图2示出了根据本专利技术实施例的对有效语音帧执行语音增强操作的一示例的流程图;图3示出了根据本专利技术实施例的对有效语音帧执行语音增强操作的另一示例的流程图;图4示出了根据本专利技术一实施例的语音消息处理装置的一示例的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本专利技术中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。图1示出了根据本专利技术实施例的语音消息处理方法的流程图,该方法的执行主体可以是各种语音处理设备,例如手机、音箱、电脑等等。通过实施本专利技术实施例的语音消息处理操作,至少可以实现语音增强功能,从而提升用户语音体验。如图1所示,本专利技术实施例的语音消息处理方法的流程。在步骤110中、获取待处理的语音消息,例如通过设备上的麦克风采集语音消息。接着,在步骤120中,提取与语音消息的至少一个语音帧分别相对应的至少一个语音特征,语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征(MFCC,MelFrequencyCepstralCoefficents)、巴克域频率倒谱系数特征(BFCC,BarkFrequencyCepstralCoefficients)和线性预测倒谱系数特征(LPCC,LinearPredictionCepstrumCoefficient)。应理解的是,语音消息可以具有多个语音帧,在对语音消息进行处理时,可以是针对语音消息中的各个语音帧分别进行处理。并且,一个语音帧所对应的语音特征的数量也可以是多个,其本文档来自技高网...

【技术保护点】
1.一种语音消息处理方法,包括:/n获取语音消息;/n提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征,所述语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征;/n针对所述语音消息中的各个语音帧,将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型,以由所述语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧;/n针对所述语音消息中的有效语音帧执行语音增强操作。/n

【技术特征摘要】
1.一种语音消息处理方法,包括:
获取语音消息;
提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征,所述语音特征包括以下中任意的一者或多者:梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征;
针对所述语音消息中的各个语音帧,将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型,以由所述语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧;
针对所述语音消息中的有效语音帧执行语音增强操作。


2.如权利要求1所述的方法,其中,针对所述语音消息中的有效语音帧执行语音增强操作包括:
基于所述语音消息中的有效语音帧集进行SVD处理操作,以确定所述语音消息所对应的导向矢量;
基于所述导向矢量与所述语音消息中的有效语音帧集和噪音帧集,确定MVDR滤波器系数;以及
基于配置有所述MVDR滤波器系数的空间滤波器,对所述语音消息进行MVDR增强处理。


3.如权利要求2所述的方法,其中,通过以下方式来确定所述MVDR滤波器系数:
coh_noise(k,f)=αcoh_noise(k-1,f)+(1-α)MIC(k,f)*MIC(k,f)H
coh_noisy(k,f)=βcoh_noisy(k-1,f)+(1-β)MIC(k,f)*MICH(k,f)
W_mvdr(k,f)=coh_noise(k,f)-1d(k,f)/(d(k,f)Hcoh_noise(k,f)-1d(k,f))
其中,k表示语音消息的第k个帧,f表示帧的第f个频点,d表示导向矢量,coh_noise表示噪音帧集所对应的噪声协方差矩阵,coh_noisy表示有效语音帧集所对应的语音协方差矩阵,α和β表示平滑因子,H表示共轭转置,MIC表示语音消息的原始帧向量,W_mvdr表示MVDR滤波器系数。


4.如权利要求1所述的方法,其中,针对所述语音消息中的有效语音帧执行语音增强操作包括:
基于预设定的P-MVDR参数和所述语音消息中的有效语音帧集和噪音帧集,确定P-MVDR滤波器系数...

【专利技术属性】
技术研发人员:邵雅婷沈小正周强
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1