语音消息处理方法及装置制造方法及图纸

技术编号：23432525 阅读：20 留言：0更新日期：2020-02-25 13:29

本发明专利技术公开一种语音消息处理方法及装置。在该方法中，获取语音消息；提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；针对所述语音消息中的各个语音帧，将所提取的关于各个语音帧的语音特征提供给语音噪音判别模型，以由该语音噪音判别模型确定各个语音帧是属于有效语音帧还是属于噪音帧；针对所述语音消息中的有效语音帧执行语音增强操作。由此，利用机器学习模型技术，能够较精确地识别语音帧中的有效语音帧和噪音帧，实现语音增强的目的，保障了语音信号的输出质量。

Voice message processing method and device

全部详细技术资料下载

【技术实现步骤摘要】
语音消息处理方法及装置
本专利技术属于互联网
，尤其涉及一种语音消息处理方法及装置。
技术介绍
语音信号处理是现代通信、多媒体应用和人工智能等领域的核心技术之一。在语音采集过程中，由于环境噪声、房间混响等影响，所获语音音质和清晰度会下降。语音增强作为一种前置处理方案，是一种有效的抑制干扰的方法。在低信噪比环境下，通常用多通道系统获得高质量的语音通信，与单通道系统相比，多通道可以获得显著的性能提升，并且通道数越多，干扰抑制能力越强。多通道信号处理方法包括基于空间、基于能量差、相位差的方法等。其中，基于能量差的方法利用不同麦克风接收到的近场目标语音能量有差异而接收到的远场干扰信号能量几乎相同的原理，设计滤波器进行增强，但是这一方法只在目标语音在近场的情形下有效，而无法适用于目标语音在远场的情形。另外，基于相位差的方法利用补偿目标语音到达不同麦克风之间的时延差设计相应的滤波器，此方法对时延差估计有极高的要求，并且基于相位差时延差的方法会带来非线性的语音失真的问题。针对上述问题，目前业界暂时并未提供较佳的解决方案。
技术实现思路
本专利技术实施例提供一种语音消息处理方法及装置，用于至少解决上述技术问题之一。第一方面，本专利技术实施例提供一种语音消息处理方法，包括：获取语音消息；提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；针对所述语音消息中的各个语音帧...

【技术保护点】
1.一种语音消息处理方法，包括：/n获取语音消息；/n提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；/n针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由所述语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；/n针对所述语音消息中的有效语音帧执行语音增强操作。/n

【技术特征摘要】
1.一种语音消息处理方法，包括：
获取语音消息；
提取与所述语音消息的至少一个语音帧分别相对应的至少一个语音特征，所述语音特征包括以下中任意的一者或多者：梅尔频率倒谱系数特征、巴克域频率倒谱系数特征和线性预测倒谱系数特征；
针对所述语音消息中的各个语音帧，将所提取的关于所述各个语音帧的语音特征提供给语音噪音判别模型，以由所述语音噪音判别模型确定所述各个语音帧是属于有效语音帧还是属于噪音帧；
针对所述语音消息中的有效语音帧执行语音增强操作。

2.如权利要求1所述的方法，其中，针对所述语音消息中的有效语音帧执行语音增强操作包括：
基于所述语音消息中的有效语音帧集进行SVD处理操作，以确定所述语音消息所对应的导向矢量；
基于所述导向矢量与所述语音消息中的有效语音帧集和噪音帧集，确定MVDR滤波器系数；以及
基于配置有所述MVDR滤波器系数的空间滤波器，对所述语音消息进行MVDR增强处理。

3.如权利要求2所述的方法，其中，通过以下方式来确定所述MVDR滤波器系数：
coh_noise(k,f)＝αcoh_noise(k-1,f)+(1-α)MIC(k,f)*MIC(k,f)H
coh_noisy(k,f)＝βcoh_noisy(k-1,f)+(1-β)MIC(k,f)*MICH(k,f)
W_mvdr(k,f)＝coh_noise(k,f)-1d(k,f)/(d(k,f)Hcoh_noise(k,f)-1d(k,f))
其中，k表示语音消息的第k个帧，f表示帧的第f个频点，d表示导向矢量，coh_noise表示噪音帧集所对应的噪声协方差矩阵，coh_noisy表示有效语音帧集所对应的语音协方差矩阵，α和β表示平滑因子，H表示共轭转置，MIC表示语音消息的原始帧向量，W_mvdr表示MVDR滤波器系数。

4.如权利要求1所述的方法，其中，针对所述语音消息中的有效语音帧执行语音增强操作包括：
基于预设定的P-MVDR参数和所述语音消息中的有效语音帧集和噪音帧集，确定P-MVDR滤波器系数...

【专利技术属性】
技术研发人员：邵雅婷，沈小正，周强，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人