一种基于SincNet的短语音说话人识别方法技术

技术编号：40424193 阅读：24 留言：0更新日期：2024-02-20 22:44

本发明专利技术提出了一种基于SincNet的短语音说话人识别方法，在测试语音长度较短的真实场景中，达到较高的说话人识别性能。为了提升说话人身份特征的提取能力，采用Sinc函数实现带通滤波器来替换传统卷积神经网络的卷积层，用不同窗口大小的Sinc滤波器组提取多分辨率的特征，并结合注意力机制增强相关特征；再将特征图输入到SEResNet中得到更高层的特征，通过空洞空间金字塔池化进行多尺度特征融合，最后通过全连接层获得语音分类得分。在TIMIT语料库上进行实验，在0.5s的测试语音条件下分类错误率降低到了7.72％，高于传统CNN等对比方法。本发明专利技术可以用于金融证券认证身份，用于司法刑事提供刑罚判处佐证等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基于生物特征的身份认证方式中的声纹识别问题，尤其是涉及一种基于sincnet的短语音说话人识别方法。

技术介绍

1、声纹确认是基于音频信号进行身份认证的生物识别技术。目前声纹确认技术在测试语音足够长的环境下已经达到了较高的水平，但在大规模的实际应用场景中，由于例如通信质量差语音断断续续、多说话人问题中语音重叠等，这必然导致得到的有效测试语音较短，所以在真实的短语音环境下，如何有效提高说话人识别系统的性能是极具研究价值和实用意义的。

2、声纹确认系统的性能主要取决于特征和模型两个方面。在特征方面，尽可能提取更多的、可以区分不同说话人的独一无二特征；在模型方面，要增强模型对有关说话人身份特征的提取能力和不同说话人的区分特征能力。

3、目前大多数性能良好的说话人识别系统就是从以上两个角度入手：提取过程模拟人耳听觉特性的特征能对噪声环境保持更好的相对稳定；多特征融合则可以更全面地考虑多个角度的信息，以获得更可靠的说话人识别测试结果。在网络模型上，目前集中在基于深度学习的端到端说话人识别结构，改进模型以学习更...

【技术保护点】

1.一种基于SincNet的说话人识别方法用于测试语音长度较短的环境中的说话人身份识别与认证，其特征在于包括以下步骤：

2.根据权利要求1所述的方法，其特征在于步骤(1)中构建Sinc卷积层，构建方法如下：

3.根据权利要求1所述的方法，其特征在于步骤(2)中使用不同卷积核大小的Sinc滤波器组实现多分辨率特征提取，具体步骤如下，使用了三组不同窗口大小的Sinc滤波器，即三种不同尺寸的1D卷积核(L＝63,125,251)，并且每组Sinc滤波器设置为120个卷积核(K＝120)，并把Sinc卷积核提取的特征通过批标准化将偏离的分布拉回标准化的分布，消除特征分布差...

【技术特征摘要】

1.一种基于sincnet的说话人识别方法用于测试语音长度较短的环境中的说话人身份识别与认证，其特征在于包括以下步骤：

2.根据权利要求1所述的方法，其特征在于步骤(1)中构建sinc卷积层，构建方法如下：

3.根据权利要求1所述的方法，其特征在于步骤(2)中使用不同卷积核大小的sinc滤波器组实现多分辨率特征提取，具体步骤如下，使用了三组不同窗口大小的sinc滤波器，即三种不同尺寸的1d卷积核(l＝63,125,251)，并且每组sinc滤波器设置为120个卷积核(k＝120)，并把sinc卷积核提取的特征通过批标准化将偏离的分布拉回标准化的分布，消除特征分布差异，并防止在后续的激活函数中产生梯度消失或梯度爆炸的问题，批标准化操作后再采用修正线性单元(rectified linear unit,relu)激活函数对提取的特征进行非线性映射，进一步增强特征的区分度，然后，通过自适应平均池化得到统一长度的紧凑特征向量(512维)，最终把三个通道上的二维特征表示进行拼接得到三通道的特征图(3×120×512)。

4.根据权利要求1所述的方法，其特征在于步骤(3)对步骤(2)提取的三...

【专利技术属性】
技术研发人员：何小海，黄明浩，周欣，王正勇，熊淑华，卿粼波，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人