基于细粒度编码的语音分离方法、装置及存储介质制造方法及图纸

技术编号:32587962 阅读:25 留言:0更新日期:2022-03-09 17:21
本发明专利技术公开了一种基于细粒度编码的语音分离方法、装置及存储介质,该方法包括粗分离阶段和细分离阶段,粗分离阶段先在单阶隐域所定义的粗粒度编码空间中初步分离混合语音,细分离阶段利用细粒度编码机制,将已存在的单阶隐域分解为高阶隐域,构建一个细粒度的编码空间,从而对初步分离的结果实现更加细粒度的特征分离。本发明专利技术设计了一个逐步细化的语音分离框架,可提供更精细的语音分离。可提供更精细的语音分离。可提供更精细的语音分离。

【技术实现步骤摘要】
基于细粒度编码的语音分离方法、装置及存储介质


[0001]本专利技术涉及语音信号处理与分析领域,特别是涉及一种基于细粒度编码的语音分离方法、装置及存储介质。

技术介绍

[0002]语音分离,即语音处理领域的“鸡尾酒会”问题,旨在从多个说话人同时说话的混合语音中分离出属于每个说话人的干净语音,也称为说话人分离。语音分离技术,作为一种关键的语音预处理技术,通常结合语音识别技术和声纹识别技术,以满足日常生活中嘈杂环境下的语音交互需求,被广泛应用于如会议日志翻译、目标人声检索和家庭智能设备交互等场景。本专利技术针对于单通道条件下的说话人无关语音分离,即在单个声音通道条件下,不依赖于说话人身份的先验信息,实现语音分离。
[0003]现有的语音分离方法主要包括两种,分别是基于频域的方法和基于可学习隐域的方法。基于频域的方法利用短时傅里叶变换将语音信号转换到频域,得到频谱特征,然后在频域实现说话人分离。这类方法的主要有两个缺点:一方面,大部分方法只重建幅值谱,忽略了相位信息,然而相位信息也是语音的一个重要属性;另一方面,频域不一定是一个最佳的说话人可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于细粒度编码的语音分离方法,其特征在于,方法包括如下步骤:粗分离阶段:以混合语音为输入,使用卷积神经网络学习一个单阶隐域,得到一个粗粒度编码空间,在粗粒度编码空间得到混合语音的编码特征,利用特征分离器对编码特征序列学习时域依赖、估计特征掩码,得到在粗粒度编码空间中的粗分离特征;细分离阶段:以粗分离特征为输入,根据细粒度编码机制沿着已存在隐域的每一个基函数学习同一个新的隐域,已存在隐域和新学习的隐域共同构成一个高阶的隐域,得到一个细粒度编码空间,在细粒度编码空间中,使用共享参数的多分支网络结构,每个分支网络结构并行分离来自粗分离阶段得到的每个粗分离特征,将每个分支网络结构并行分离结果进行合并,得到在细粒度编码空间中的细分离特征,细分离特征解码后即为语音分离结果。2.根据权利要求1所述的语音分离方法,其特征在于,粗分离阶段实现包括粗编码器和粗分离器,粗编码器利用包含N
c
个滤波器的1

D卷积层结合非线性激活函数学习一个单阶隐域,得到混合语音在粗粒度编码空间的编码特征;粗分离器以编码特征为输入,学习编码特征序列的长时依赖、估计对应Q个说话人的Q个特征掩码。3.根据权利要求2所述的语音分离方法,其特征在于,粗分离器采用DPTNET分离器,根据双路径时域建模策略来学习编码特征序列的长时依赖,具体步骤包括:使用一个层规范化和一个线性层来调整编码特征的通道数量;将编码特征按照步长为的长度,划分为多个连续的长度为L的特征段;利用R个DPTNET块来实现时域建模,每一个DPTNET块包括了段内路径和段间路径,分别学习段内的局部时域信息和段与段之间的全局时域信息,在DPTNET中,段内路径和段间路径都由改进后的Transformer层组成,其中前馈网络的第一个线性层被替换为双向长短时记忆神经网络,用来学习时域上的顺序信息;经过时域建模后,利用一个非线性变换PReLU层和一个线性层将通道数扩张Q倍;利用重叠求和操作将特征段转化为特征序列,利用一个线性层和一个非线性激活函数估计得到最终的特征掩码。4.根据权利要求1所述的语音分离方法,其特征在于,在训练过程中,粗分离阶段实现还包括粗解码器,利用1

D转置卷积层将分离后的粗分离特征解码到时域上,得到属于每个说话人的语音信号。5.根据权利要求1所述的语音分离方法,其特征在于,细分离阶段实现包括精编码器、精分离器、精解码器,细分离阶段实现前,将已存在的隐域上N
c
个基函数划分为P组,利用精编码器并行作用于每一组粗分离特征,学习同一个新的隐域隐域和隐域共同构成了一个高阶隐域得到细粒度编码空...

【专利技术属性】
技术研发人员:卢光明姚增伟裴文杰李亚桐张伟彬陈东鹏
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1