当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法技术

技术编号:38646912 阅读:20 留言:0更新日期:2023-09-02 22:38
本发明专利技术提供了一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法。利用说话人分离网络估计出混合语音中的每个说话人的语音信号,对估计出的语音信号进行分段,对每段语音信号采用不同的SincNet滤波器提取各段的语音信号特征向量。聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成话语级特征,通过深度神经网络实现说话人的识别。利用估计语音与干净语音之间的尺度不变信噪比损失以及预测标签与真实标签之间的分类交叉熵损失,采用多任务学习算法联合优化整体网络,实现说话人的分离和识别。实现说话人的分离和识别。实现说话人的分离和识别。

【技术实现步骤摘要】
一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法


[0001]本专利技术属于语音处理
,涉及一种多说话人场景下的共信道说话人识别方法。

技术介绍

[0002]说话人分离指从观测混合信号中分离出所有的源信号,早期常用的方法有计算机场景分析、非负矩阵分解、阶乘隐马尔可夫模型,以及现阶段的基于深度学习的方法。之前的大多数语音分离方法都是用混合信号的时频(T

F,谱图)表示,用短时傅里叶变换(STFT)从波形中估计出来。在T

F域的语音分离方法旨在从混合谱图中近似出单个源的纯净谱图。另一种方法是时域音频分离网络(TasNet)。在TasNet中,混合波形采用卷积编码器

解码器体系结构建模,该体系结构由一个输出具有非负性约束的编码器和一个用于将编码器输出转换回声音波形的线性解码器组成。
[0003]说话人识别主要包括两个过程,即特征提取和模型建立。在特征提取方面,传统的基于底层声学特性的声学特征有梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知线性预测系数(本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法,其特征在于:利用说话人分离网络估计出混合语音中的每个说话人的语音信号,对估计出的语音信号进行分段,对每段语音信号采用不同的SincNet滤波器提取各段的语音信号特征向量;聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成话语级特征,通过深度神经网络实现说话人的识别;利用估计语音与干净语音之间的尺度不变信噪比损失以及预测标签与真实标签之间的分类交叉熵损失,采用多任务学习算法联合优化整体网络;所述共信道说话人识别方法的具体步骤如下:步骤一:利用1

D卷积提取混合语音的时域特征,得到时域特征矩阵,将这个特征矩阵分割构成一个3

D特征张量,传递给堆叠的双路径循环神经网络DPRNN块迭代应用块内和块间的方式建模,最后一层的输出通过重叠相加方法转换回输出序列,得到...

【专利技术属性】
技术研发人员:张烨冯克轩
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1