一种基于听觉调制机制和对比学习的单通道语音分离方法及装置制造方法及图纸

技术编号:43403774 阅读:28 留言:0更新日期:2024-11-22 17:43
本发明专利技术公开一种基于听觉调制机制和对比学习的单通道语音分离方法,方法包括:(1)使用麦克风采集若干说话人的语音原始数据,随机选取多个不同说话人的语音信号在不同信噪比下混合构建语音数据集,并划分为训练集、验证集和测试集;(2)采用包络检波计算调制幅度谱和相位谱;(3)基于突变点检测和匹配方法在调制幅度谱上生成语音片段;(4)随机选取语音片段构建三元组;(5)基于正负样本欧氏距离在线筛选硬/半硬三元组作为训练样本;(6)建立三重注意力对比学习网络模型,提取三元组中语音片段特征;(7)设计相似度损失函数,使用训练集更新三重注意力对比学习网络参数,并利用验证集选取网络最优超参数;(8)建立自适应神经结构演进网络以无监督的方式实现语音片段特征聚类;(9)基于聚类结果计算二值掩蔽,对不同说话人的语音重构获得分离后的语音;(10)将测试集中的混合语音信号输入训练好的模型得到分离后的语音。该方法结合听觉调制机制和对比学习方法,能够以语音信号作为输入实现在非接触状态下对说话人混合语音的精确分离。

【技术实现步骤摘要】

本专利技术涉及语音信号处理领域,具体涉及一种基于听觉调制机制和对比学习的单通道语音分离方法及装置


技术介绍

1、在复杂的声学环境下,目标说话人的语音信号经常会受到各种噪声的干扰,从而严重影响目标语音的识别性能。语音分离技术能够有效地去除实际环境中的噪音干扰,为后续的语音信号处理提供更加准确、可靠的信息。语音分离技术的应用场景非常广泛,例如在国防军事领域,在战争环境及会议监听等背景下,单纯利用声纹识别技术无法准确分析从敌方截获的会议录音中有无特定说话人,而语音分离技术可提高声纹识别的准确率。在公共安全领域,在嘈杂的多说话人场景下的街道上,利用语音分离技术能够更为准确地寻找特定词语,锁定具有危险意图的行人;在智能家居领域,通过语音指令控制智能设备时,其他家庭成员经常也在进行语言交流,因此需要语音分离技术准确地得到目标语音的指令,从而正确地执行其意图。

2、语音分离可看作说话者识别、语音识别、语音自动翻译和语音情感识别中基本的预处理环节,在整个语音信号处理领域中发挥着基础性的作用。从应用层面来看,单麦克风设备对部署的限制较少,并且不存在多麦克风系统本文档来自技高网...

【技术保护点】

1.一种基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤A中从数据集内随机选择不同说话者的语音混合,并通过以0dB和5dB之间的各种信噪比混合它们生成所需训练集、验证集以及测试集;训练集和验证集的语音信号音频采样频率为8kHz,采样长度为4s;其中语音长度不足4s的进行填充,语音长度大于4s的从语音开始截取4s。

3.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤B中通过包络检波计算调制幅度谱和相位谱时,...

【技术特征摘要】

1.一种基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤a中从数据集内随机选择不同说话者的语音混合,并通过以0db和5db之间的各种信噪比混合它们生成所需训练集、验证集以及测试集;训练集和验证集的语音信号音频采样频率为8khz,采样长度为4s;其中语音长度不足4s的进行填充,语音长度大于4s的从语音开始截取4s。

3.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤b中通过包络检波计算调制幅度谱和相位谱时,具体采用以下方式:

4.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤c1中,突变点检测方法具体包括:

5.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤c2中,选取每个连续信道的极大值点的连线,选取极大值点右侧相邻的极小值点,构建大小为z的极小值点集合;选择穿过极小值点集合中点数最多的一条极小值点连线,作为与极大值点连线最佳匹配的极小值点连线;当连续z个信道的极大值点全部匹配成功则结束,否则对匹配失败的信道重复执行此流程;将匹配的极大值点和极小值点连线之间的区域作为语音片段。

6.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤c2中,选取语音片段中的最大的矩形区域作为语音片段窗口;语音片段窗口计算方式如下:

7.根据权利要求1所述的基于听觉调制机制和对比学习的单通道语音分离方法,其特征在于:所述步骤d中,随机选取语音片段构建三元组,构建由基准样本,正样本和负样本组成的三元组训练样本,其中,基准样本为训练数据集中随机选取的语音段,正样本为与基准样本属于同一说话人的语音段,负样本为与基准样本属于不同说话人的语...

【专利技术属性】
技术研发人员:刘扬宋源赵振陈锌李亚荣
申请(专利权)人:青岛科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1