基于通道注意力深度可分卷积网络的小样本话者辨认方法技术

技术编号:31503821 阅读:31 留言:0更新日期:2021-12-22 23:31
本发明专利技术公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明专利技术方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。者辨认结果。者辨认结果。

【技术实现步骤摘要】
基于通道注意力深度可分卷积网络的小样本话者辨认方法


[0001]本专利技术涉及小样本学习和语音信号处理领域,具体涉及一种基于通道注意力深度可分卷积网络的小样本话者辨认方法。

技术介绍

[0002]每个人的声音特征是不同的,利用各个话者(说话人)声音特性的差异,能够有效地对不同语音对应的话者进行分类与识别,这就是话者识别任务。话者识别包括话者确认和话者辨认两种任务。前者是一个二分类问题,旨在确认测试语音是否来自所声称的话者;后者是一个多分类问题,旨在辨认测试语音来自声纹库中的哪个话者。
[0003]近些年深度神经网络已经被广泛应用到图像、文本、语音领域中,并取得了显著的效果。深度神经网络之所以有如此优秀的性能表现,主要依赖于各类高性能计算设备的更新发展与各种大规模标注数据集的出现。但是在现实生活中,并不是所有任务都有大规模数据集的支持。一方面在特定任务下能够获取的数据资源是十分有限的,另一方面想要构建大规模数据集,标注工作所耗费的人力和物力成本是巨大的。因此想要构建特定任务下的大规模数据集显然是很困难的。没有大规模数据集的支持,深度神经网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述小样本话者辨认方法包括以下步骤:S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;S2、初始化通道注意力深度可分卷积网络,所述神经网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;S4、将注册语音的对数梅尔谱特征输入已训练的神经网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;S5、将测试语音的对数梅尔谱特征输入已训练网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。2.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S1中对数梅尔谱特征提取过程如下:S1.1、采用一阶高通滤波器对输入语音进行预加重处理,一阶高通滤波器的传递函数为H(z)=1

αz
‑1,其中0.9≤α≤1;S1.2、对预加重后的输入语音进行分帧处理,得到短时语音帧;S1.3、对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将窗函数与每帧语音相乘得到加窗后的短时语音帧;S1.4、对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱。3.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元,所述深度可分卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,所述通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;所述逐点卷积采用1
×
1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;所述批标准化单元用于依次完成近似白化预处理和变换重构操作,其中,所述近似白化预处理的公式如下:所述变换重构的公式如下:其中,E[x
(i)
]、分别表示第i个语音样本对应特征矢量x
(i)
的均值与标准差,是近似白化预处理后的结果,y
(i)
是重构后的特征向量,γ
(i)
、β
(i)
是可调节的重构参数;
所述第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系。4.根据权利要求3所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述3个深度可分卷积模块中通道卷积所用卷积核大小均为3
×
3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1
×
1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为该话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类。5.根据权利要求4所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述通道注意力模块包括顺序连接的池化单元、全...

【专利技术属性】
技术研发人员:李艳雄陈昊曹文昌黄启晟江钟杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1