一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法技术

技术编号:26847583 阅读:53 留言:0更新日期:2020-12-25 13:12
本发明专利技术公开一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,包括:基于时滞细胞神经网络的语音片段特征提取、基于动态增长自组织映射神经网络的语音片段无监督自适应分类;基于粒子群优化算法语音分离模型自适应修正和基于二值掩蔽的语音重构。本方案结合无监督分类和有监督修正,更有利于提高说话人数目未知的混合语音分离的泛化性和准确性,为单信道多说话人语音分离这样一个迫切需要解决的实际问题,提供一个理论支撑而且实际可行的方案。

【技术实现步骤摘要】
一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法
本专利技术涉及语音信号处理领域,具体涉及一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法。
技术介绍
在复杂的声学环境下,目标说话人的语音信号经常会受到各种噪声的干扰,从而严重影响目标语音的识别性能。语音分离技术能够有效地去除实际环境中的噪音干扰,为后续的语音信号处理提供更加准确、可靠的信息。语音分离技术的应用场景非常广泛,例如在国防军事领域,在战争环境及会议监听等背景下,单纯利用声纹识别技术无法准确分析从敌方截获的会议录音中有无特定说话人,而语音分离技术可提高声纹识别的准确率。在公共安全领域,在嘈杂的多说话人场景下的街道上,利用语音分离技术能够更为准确地寻找特定词语,锁定具有危险意图的行人;在智能家居领域,通过语音指令控制智能设备时,其他家庭成员经常也在进行语言交流,因此需要语音分离技术准确地得到目标语音的指令,从而正确地执行其意图。语音分离作为语音识别和语音合成等技术的重要基础,是一项重要、关键的研究课题,得到了研究人员的重点关注。从应用角度层本文档来自技高网...

【技术保护点】
1.一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,包括以下步骤:/n步骤A、基于时滞细胞神经网络提取语音片段的特征;/n步骤A1、基于包络检波计算调制幅度谱和相位谱;/n步骤A2、基于时滞细胞神经网络提取调试幅度谱的特征;/n步骤A3、基于突变点检测方法生成语音片段窗口;/n步骤A4、基于多尺度空间金字塔池化统一语音片段特征维度;/n步骤B、基于动态增长自组织映射神经网络对经过步骤A获取的的语音片段进行无监督自适应分类;/n步骤C、基于粒子群优化算法自适应修正步骤A和B构建的语音分离模型的参数;/n步骤D、基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。/...

【技术特征摘要】
1.一种空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,包括以下步骤:
步骤A、基于时滞细胞神经网络提取语音片段的特征;
步骤A1、基于包络检波计算调制幅度谱和相位谱;
步骤A2、基于时滞细胞神经网络提取调试幅度谱的特征;
步骤A3、基于突变点检测方法生成语音片段窗口;
步骤A4、基于多尺度空间金字塔池化统一语音片段特征维度;
步骤B、基于动态增长自组织映射神经网络对经过步骤A获取的的语音片段进行无监督自适应分类;
步骤C、基于粒子群优化算法自适应修正步骤A和B构建的语音分离模型的参数;
步骤D、基于二值掩蔽对同一类的语音片段语音重构,获得目标语音。


2.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A1中通过包络检波计算调制幅度谱时,具体采用以下方式:
(1)采用Gammatone滤波器建立128个信道的滤波器组;
(2)利用基于非相干解调的Hilbert变换包络检波;
(3)通过1024个点的傅里叶变换获得调制幅度谱;
(4)通过低通滤波器对调制幅度谱平滑处理。


3.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A2中,对平滑处理后的调制幅度谱特征提取时采用以下方式:
构建128×1024二维结构的时滞细胞神经网络,网络的输出完全由反馈模板A、控制模板B、时滞反馈模板Aτ、时滞控制模板Bτ、阈值I和时滞τ决定。网络状态和输出的更新方式如下:



vyef(t)=tanh(vxef(t))
其中vx(t),vu(t)和vy(t)分别为细胞的状态、输入和输出;C(h,l)为第h行,l列的细胞;Nr(e,f)为第e行f列细胞的r邻域。


4.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于:所述步骤A3中,根据突变点检测方法生成语音片段窗口:
(1)计算每个信道中平滑的调制幅度谱的一阶导数获取候选的onset/offset突变点,其中onset对应极大值点,offset对应极小值点;通过设定阈值进一步筛选onset;保留所有的相邻的onset之间值最小的offset,并且删除其余的offset;
(2)将当前信道中所有的相邻的onset之间距离的平均值作为阈值;筛选与当前信道的onset距离小于阈值的相邻信道的onset集合,选择集合中距离最小的onset连接;对offset采用相同的筛选和连接方式;将跨度少于三个相邻信道的连线取消;
(3)针对个连续信道的onset的连线,选取onset右侧相邻的offset,构建大小为Z的offset集合;选择穿过offset集合中点数最多的一条offset连线,作为与onset连线最佳匹配的offset连线;当连续Z个信道的onset全部匹配成功则结束,否则对匹配失败的信道重复执行此流程;将匹配的onset和offset连线之间的区域作为语音片段;
(4)选取语音片段中的最大的矩形区域作为语音片段窗口,将语音片段窗口内的调制幅度谱特征作为语音片段特征。


5.根据权利要求1所述的空间结构性特征相关的无监督分类与有监督修正融合的语音分离方法,其特征在于,所述步骤A4中,利用多尺度空间金字塔池化方法统一语音片段特征的维度:
(1)使用10种不同尺度(30,20,15,10,8,6,4,3,2,1)的窗口对语音窗口进行划分,每一种尺度代表金字塔的一层...

【专利技术属性】
技术研发人员:赵振刘扬焦美凤姜明顺张雷张法业杜泽厚
申请(专利权)人:青岛科技大学日照市人防智能科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1