基于多任务自注意力机制的语言学习者声纹识别方法技术

技术编号:28736933 阅读:74 留言:0更新日期:2021-06-06 11:45
本发明专利技术提供的是一种基于多任务自注意力机制的语言学习者声纹识别方法。包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建多任务自注意力网络(Multi

【技术实现步骤摘要】
基于多任务自注意力机制的语言学习者声纹识别方法


[0001]本专利技术涉及的是声纹识别
声纹识别分为说话人辨认和说话人验证,本专利技术主要研究说话人辨认,具体来说是一种针对语言学习者的多任务说话人辨认方法。

技术介绍

[0002]语音作为语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人语种、性别、年龄、情感、生理、心理等多种丰富的副语言语音属性信息。声纹识别作为生物识别的一种,是根据说话人的声波特性进行身份辨识,由于声纹作为一种行为特征,具有唯一性和独特性,以及在安全性、成本、便捷性等方面的应用优势,使得声纹识别被广泛应用于金融安全、国防安全、智能家居等领域。近年来,国内外学者对声纹识别进行了深入的分析研究,其中在已有的文献中最著名和效果最好的声纹识别方法主要包括:1.基于概率线性鉴别分析模型的文本无关声纹识别:2017年Khosravani A,Homayounpour M.A PLDA approach for language and text independent speaker recognition.Computer Speech&Language,2017,45(5):457

474.提出利用来自双语使用者的多语种数据训练概率线性鉴别分析模型,实现文本无关的多语言声纹识别,取得了较高的识别正确率。2.基于i

Vector概率线性鉴别分析模型的非并行语音转换研究:2017年Tomi Kinnunen,Lauri Juvela,Paavo Alku,Junichi Yamagishi.Nonparallel Voice Conversion Using i

Vector PLDA:Towards Unifying Speaker Verification and Transformation[C]//2017IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),New Orleans,United States,2017:5535

5539.提出采用i

vector方法进行语音转换,将说话人验证和转换相统一,在任何阶段无需并行语段或时间对齐处理,其性能优于基于HMM

GMM的方法。3.基于质心深度度量学习的说话人识别方法:2019年Jixuan Wang,Kuan

Chieh Wang,Marc T.Law,Frank Rudzicz,Michael Brudno.Centroid

based Deep Metric Learning for Speaker Recognition[C]//2019IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Brighton,England,2019:3652

3656.提出使用原型网络损耗优化说话人嵌入模型,在说话人验证和识别任务中取得了相对较好的效果。4.一种基于自动语音识别的数据增强方法:2019年Daniel S.Park,William Chan,Yu Zhang,Chung

Cheng Chiu,Barret Zoph,Ekin D.Cubuk,Quoc V.Le.Specaugment:A simple data augmentation method for automatic speech recognition[C]//2019Interspeech,Graz,Austria,2019:2613

2617.提出在语音识别任务中对数据采用变形功能,频道屏蔽块和时间步长屏蔽块的增强策略。该方法在LibriSpeech和Switchboard等识别任务上大幅提升了语音识别率。5.基于新特征提取方法的非对称双向长短时记忆网络的说话人识别模型:2020年Xingmei Wang,Fuzhao Xue,Wei Wang,Anhua Liu.A network model of speaker identification with new feature extraction methods and asymmetric BLSTM.Neurocomputing,2020,403:167

181.提出将梅尔谱图和耳蜗图结合产生两个新特征,在短时间内获得更丰富的声纹功能,在此基础
上,提出一种非对称的双向长短时记忆网络,提高了说话人识别的正确率。
[0003]多任务学习是一种归纳迁移机制,主要是利用隐含在多个相关任务训练信号中的特定领域信息提高泛化能力,通过使用共享表示并行训练多个任务,并专注于将解决一个问题的知识应用到相关的问题中,从而提高学习的效率。因此,多任务学习作为提高神经网络学习能力的方法在越来越多的领域中广泛应用,其在已有的文献中最著名的多任务学习方法主要包括:1.基于多线性关系网络的多任务学习方法:2017年Mingsheng Long,Zhangjie Cao,Jianmin Wang,Philip S.Yu.Learning multiple tasks with multilinear relationship networks.Advances in neural information processing systems,2017,30:1594

1603.提出多线性关系网络,它是基于一种新的张量正态先验来提取任务关系,通过共同学习可转移特征和任务与特征的多线性关系,有效缓解了特征层负转移和分类器层转移不足的问题。提出的多线性关系网络在Office

Caltech,Office

Home,ImageCLEF

DA三个多任务学习数据集上取得了较好的效果。2.基于不确定性加权损失的几何与语义场景中多任务学习方法:2018年Alex Kendall,Yarin Gal,Roberto Cipolla.Multi

task learning using uncertainty to weigh losses for scene geometry and semantics[C]//2018Proceedings of the IEEE conference on computer vision and pattern recognition,Utah,United States,2018:7482

7491.提出一种新的多任务深度学习损失权重计算方法,利用同方差不确定性同时学习不同数量和单元的分类和回归损失,并建立统一的组合语义分割、定位分割和深度回归体系结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多任务自注意力机制的语言学习者声纹识别方法,其特征在于:包括如下步骤:步骤(1)对原始语音信号进行预处理:对原始语音信号利用梅尔滤波器组提取功率谱声纹特征;对声纹特征进行归一化处理;步骤(2)提出构建MT

SANet模型:分别构建多个自注意力网络模块,使每个模块在不同的表示子空间里同时获取全局与局部信息的联系,合并所有自注意力网络模块构成多头自注意力网络,进行多任务学习以获取任务之间的相关性知识;步骤(3)将学习语言过程中的不同学习阶段纳入辅助任务;步骤(4)完成基于多任务自注意力机制的语言学习者声纹识别:语言学习者的学习阶段特征向量,与其他辅助任务特征向量经初始化后共同嵌入声纹特征首部,并与位置信息编码融合后,将融合特征矩阵作为MT

SANet模型的输入;提取多任务特征向量,利用多任务分类器对不同任务进行处理,最终完成语言学习者声纹识别。2.根据权利要求1所述的基于多任务自注意力机制的语言学习者声纹识别方法,其特征在于:在步骤(1)中对原始语音信号进行预加重、分帧、加窗、快傅里叶变换后,利用梅尔滤波器组滤波并取对数,提取功率谱作为原始语音的声纹特征;所述步骤(1)中对声纹特征进行去均值操作,并对其长度进行裁剪,分段成标准长度,将小于标准长度的片段进行填充,完成归一化处理。3.根据权利要求1或2所述的基于多任务自注意力机制的语言学习者声纹识别方法,其特征在于:在步骤(2)中根据语音信号数据的特点,提出构建的MT

SANet模型包括3个隐藏层,每层的多头自注意力网络包含8个自注意力网络模块,其隐藏层由多头自注意力网络和前馈神经网络合并组成;将MT

SANet模型的输入分别乘以权重矩阵W
Q
、W
K
和W
V
得到Query矩阵Q,Key矩阵K和Value矩阵V,并根据注意力机制运算规则构建多个自注意力网络模块,使得每个模块在不同的表示子空间里获取全局与局部信息的联系,其中d
k
表示矩阵K的维度;根据多个独立计算的自注意力网络模块,合并构成多头自注意力网络,MultiHead(Q,K,V)=Concat(head1,
...

【专利技术属性】
技术研发人员:王兴梅王涵汪进利赵中华
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1