当前位置: 首页 > 专利查询>南昌大学专利>正文

一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法技术

技术编号:38646912 阅读:7 留言:0更新日期:2023-09-02 22:38
本发明专利技术提供了一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法。利用说话人分离网络估计出混合语音中的每个说话人的语音信号,对估计出的语音信号进行分段,对每段语音信号采用不同的SincNet滤波器提取各段的语音信号特征向量。聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成话语级特征,通过深度神经网络实现说话人的识别。利用估计语音与干净语音之间的尺度不变信噪比损失以及预测标签与真实标签之间的分类交叉熵损失,采用多任务学习算法联合优化整体网络,实现说话人的分离和识别。实现说话人的分离和识别。实现说话人的分离和识别。

【技术实现步骤摘要】
一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法


[0001]本专利技术属于语音处理
,涉及一种多说话人场景下的共信道说话人识别方法。

技术介绍

[0002]说话人分离指从观测混合信号中分离出所有的源信号,早期常用的方法有计算机场景分析、非负矩阵分解、阶乘隐马尔可夫模型,以及现阶段的基于深度学习的方法。之前的大多数语音分离方法都是用混合信号的时频(T

F,谱图)表示,用短时傅里叶变换(STFT)从波形中估计出来。在T

F域的语音分离方法旨在从混合谱图中近似出单个源的纯净谱图。另一种方法是时域音频分离网络(TasNet)。在TasNet中,混合波形采用卷积编码器

解码器体系结构建模,该体系结构由一个输出具有非负性约束的编码器和一个用于将编码器输出转换回声音波形的线性解码器组成。
[0003]说话人识别主要包括两个过程,即特征提取和模型建立。在特征提取方面,传统的基于底层声学特性的声学特征有梅尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知线性预测系数(PLP)等,以及基于深度神经网络(DNN)的更深层的瓶颈特征。在模型建立方面,最早期兴起的说话人模型有隐马尔可夫模型(HMM)、人工神经网络(ANN),随着技术的不断提升,联合因子分析(JFA)模型和i

vector模型也相继被提出。
[0004]目前,共信道说话人识别方法一般是将说话人分离网络和说话人识别网络依次使用,没有充分考虑两个网络潜在的联系,不能找到全局最优解。

技术实现思路

[0005]本专利技术的目的在于提供一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法,以解决上述
技术介绍
中提出的问题。
[0006]该方法首先利用说话人分离网络对混合语音进行处理,分离出多个说话人的估计语音;然后,每个估计语音依次通过说话人识别网络,实现共信道说话人识别。
[0007]上述共信道说话人识别方法的具体步骤如下:
[0008]步骤一:首先利用1

D卷积(卷积核大小为2,步长为1)提取混合语音的时域特征,其每个段的特征向量提取过程可表示为:
[0009][0010]上式中,表示长度为2的N个向量(基信号),表示卷积操作。将提取的所有段的特征向量构成特征矩阵,即
[0011]步骤二:将这个特征矩阵分割构成一个3

D特征张量,即
[0012]步骤三:将这个3

D张量M传递给堆叠的双路径循环神经网络(DPRNN)块迭代应用局部(块内)和全局(块间)的方式建模,块内处理表示为:
[0013]A1=g1(M1[:,:,i]),i=1,...,S(2)
[0014]其中是块内RNN的输出,g1(
·
)是块内RNN的映射函数,是第i块的定义。采用一个线性全连接(FC)层将A1的尺寸转换为与输入M1相同的尺寸,然后使用层归一化(LN)和残差连接得到块间处理表示为:
[0015][0016]其中是块间RNN的输出,h1(
·
)是块间RNN的映射函数,是所有块之间第i次运算的定义。类似于块内RNN,FC、LN和残差连接对块间RNN的输出进行处理。最后一层的输出通过重叠相加方法转换回输出序列,得到掩模矩阵
[0017][0018]步骤四:将掩模矩阵Q与混合语音的特征矩阵W进行点乘,得到估计语音的特征矩阵,通过1

D反卷积可以得到C个说话人的估计语音
[0019]步骤五:将每个说话人的估计语音分成J段,长度为F,步长为G,表示为:
[0020][0021]步骤六:采用多通道卷积神经网络架构,将依次通过J个SincNet滤波器,得到各段的语音信号特征向量。第一层CNN利用sinc函数实现带通滤波,运算后的结果为:
[0022][0023]其中f1和f2是学习到的低和高截止频率,
[0024]g[t,f1,f2]=[2f2sinc(2πf2t)

2f1sinc(2πf1t)]w(t),(6)
[0025]为了消除每段两端可能引起的信号不连续,使用窗函数w(t)。
[0026]步骤七:聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成长度为之前两倍的话语级特征向量。
[0027]步骤八:将每个说话人的话语级特征向量通过深度神经网络(DNN)去处理并映射到样本标记空间,最后,通过Softmax后,即可得到每个说话人的身份。
[0028]为了训练上述网络模型,利用每个说话人的估计语音和干净语音之间的尺度不变信噪比(SI

SNR)损失以及每个说话人的身份预测结果和真实的说话人身份标签之间的分类交叉熵(CCE)损失,采用多任务学习算法联合训练整个网络,总损失表示为:
[0029][0030]其中α是预先定义的常数。训练直至损失函数收敛,保存模型。利用保存好的模型,按照步骤一至步骤八实现共信道说话人识别。
[0031]本专利技术的有益效果是:
[0032]本专利技术采用多任务学习算法将说话人分离网络与说话人识别网络相结合,构成一个整体系统,两个网络相互促进,共同优化,可以得到全局最优解。利用多通道卷积神经网络,说话人识别网络不仅可以提取更具鲁棒性的特征,并且可以更好的将梯度回传至说话人分离网络,使说话人分离网络得到充分训练。
附图说明
[0033]图1为使用了本专利技术的共信道说话人识别整体系统。
[0034]图2为使用了本专利技术的共信道说话人识别整体系统中的说话人分离网络的框架,该框架将混合语音分离为多个说话人的估计语音。
[0035]图3为使用了本专利技术的共信道说话人识别整体系统中的说话人识别网络的框架,该框架通过依次处理每个说话人的估计语音得到多个说话人的身份信息。
具体实施方式
[0036]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。此处所描述的具体实施例仅用于解释本专利技术技术方案,并不限于本专利技术。
[0037]如图1所示,本专利技术提出了一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法。首先,预先训练说话人分离网络。然后,将混合语音输入至说话人分离网络,得到每个说话人的估计语音。最后,将每个说话人的估计语音依次通过说话人识别网络,得到混合语音中的多个说话人的身份信息。通过联合估计语音与干净语音之间的SI

SNR损失以及预测的身份标签与真实的身份标签之间的CCE损失去优化整体网络。
[0038]本专利技术将通过以下实施例作进一步说明。
[0039]如图2说话人分离网络所示,首先将混合语音截取为2s的语音,然后将其通过1

D卷积得到混合语音的时域特征,特征维数N设置为256。之后按长度为K,步长为K/2将其分为S个块,K本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多通道卷积神经网络和多任务学习的共信道说话人识别方法,其特征在于:利用说话人分离网络估计出混合语音中的每个说话人的语音信号,对估计出的语音信号进行分段,对每段语音信号采用不同的SincNet滤波器提取各段的语音信号特征向量;聚合所有段的特征向量,在时间维度上计算出其均值和标准差,合并构成话语级特征,通过深度神经网络实现说话人的识别;利用估计语音与干净语音之间的尺度不变信噪比损失以及预测标签与真实标签之间的分类交叉熵损失,采用多任务学习算法联合优化整体网络;所述共信道说话人识别方法的具体步骤如下:步骤一:利用1

D卷积提取混合语音的时域特征,得到时域特征矩阵,将这个特征矩阵分割构成一个3

D特征张量,传递给堆叠的双路径循环神经网络DPRNN块迭代应用块内和块间的方式建模,最后一层的输出通过重叠相加方法转换回输出序列,得到...

【专利技术属性】
技术研发人员:张烨冯克轩
申请(专利权)人:南昌大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1