【技术实现步骤摘要】
一种语音过滤方法和过滤系统
[0001]本专利技术涉及语音识别
,具体涉及一种语音过滤方法和过滤系统。
技术介绍
[0002]近些年,语音识别技术得到了显著进步,开始进入工业、家电、通信、医疗、汽车电子、家庭服务、消费电子产品等各个领域。在一些具有挑战性的应用场景,比如从环境嘈杂的噪声中识别出语音都有了很大进展,但在人群环境下识别出某个目标说话者的声音还是存在难度,识别效果不够理想。
[0003]为了解决这个问题,现阶段学者主要提出了以下两个方案:
[0004]一是将拥有N个说话人的语料过滤成N个对应的输出。但是,这个方法存在两个难点,一个是说话场景中人数的确定;另一个是只能对特定说话人的音频进行识别。针对这两个难点,目前已经有一些较好地解决方法被提出了,例如通过深度学习技术学习每个说话人的音频特征并训练形成语音识别模型,然后通过该语音识别模型识别出输入语料中某个特定说话人的声音以及语料中说话者的人数。但类似的解决方法需要进行大量的匹配运算,以匹配出最接近感兴趣的人的声音,耗时一般较长。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种语音过滤方法,其特征在于,具体步骤包括:1)给定目标说话者的参考音频,并将所述参考音频输入到声纹识别网络,输出所述目标说话者的声纹特征;2)将带噪声的多人对话音频转换为多人音频幅度谱;3)将所述声纹特征和所述多人音频幅度谱输入到声音过滤网络中,生成一谱掩码;4)将所述谱掩码和所述多人音频幅度谱相乘以生成一增强幅度谱;5)将所述多人对话音频的相位增加到所述增强幅度谱上,然后将所述增强幅度谱转换为增强音频,所述增强音频为从所述多人对话音频中过滤得到的具有所述目标说话者的声纹特征的说话音频。2.根据权利要求1所述的语音过滤方法,其特征在于,所述步骤1)中,所述声纹识别网络为LSTM长短期记忆网络,所述声纹识别网络的输入为所述目标说话者的音频Mel谱图,输出的所述声纹特征用音频特征向量表示,所述音频特征向量的宽度为256。3.根据权利要求2所述的语音过滤方法,其特征在于,所述音频特征向量的向量值的计算方法为:1.1)通过一大小为所述参考音频长度的50%的滑动窗口对所述参考音频进行声纹特征提取,输出至少3个所述声纹特征;1.2)对3个所述声纹特征分别进行L2正则化,并以3个L2正则化结果的平均值作为所述音频特征向量最终的向量值。4.根据权利要求1所述的语音过滤方法,其特征在于,所述步骤2)中,通过短时傅里叶变换法将所述多人对话音频变换为所述多人音频幅度谱。5.根据权利要求1所述的语音过滤方法,其特征在于,所述步骤3)中,所述声音过滤网络包括8个卷积层、一LSTM层和两个全连接层,第一至第八卷积层依序连接,所述多人音频幅度谱输入到第一卷积层,每一卷积层的输出作为下一卷积层的输入,所述第八卷积层的输出和所述声纹识别网络的输出同时作为所述LSTM层的输入,所述LSTM层的输出连接第一全连接层的输入,所述第一全连接层的输出连接第二全连接层的输入,所述第二全连接层输出所述谱掩码。6.一种语音过滤系统,可实现如权利要求1~5任意一项所述的语音过滤方法,其特征在于,包括:参考音频输入模块,用于提供给...
【专利技术属性】
技术研发人员:ꢀ五一IntClG一零L一七零零,
申请(专利权)人:北京中科深智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。