基于多任务自注意力机制的语言学习者声纹识别方法技术

技术编号：28736933 阅读：74 留言：0更新日期：2021-06-06 11:45

本发明专利技术提供的是一种基于多任务自注意力机制的语言学习者声纹识别方法。包括如下步骤：(1)对原始语音信号进行预处理；(2)提出构建多任务自注意力网络(Multi

全部详细技术资料下载

【技术实现步骤摘要】
基于多任务自注意力机制的语言学习者声纹识别方法

[0001]本专利技术涉及的是声纹识别
声纹识别分为说话人辨认和说话人验证，本专利技术主要研究说话人辨认，具体来说是一种针对语言学习者的多任务说话人辨认方法。

技术介绍

[0002]语音作为语言的声音表现形式，不仅包含了语言语义信息，同时也传达了说话人语种、性别、年龄、情感、生理、心理等多种丰富的副语言语音属性信息。声纹识别作为生物识别的一种，是根据说话人的声波特性进行身份辨识，由于声纹作为一种行为特征，具有唯一性和独特性，以及在安全性、成本、便捷性等方面的应用优势，使得声纹识别被广泛应用于金融安全、国防安全、智能家居等领域。近年来，国内外学者对声纹识别进行了深入的分析研究，其中在已有的文献中最著名和效果最好的声纹识别方法主要包括：1.基于概率线性鉴别分析模型的文本无关声纹识别：2017年Khosravani A,Homayounpour M.A PLDA approach for language and text independent speaker recognition.Computer Speech&Language,2017,45(5):457
‑
474.提出利用来自双语使用者的多语种数据训练概率线性鉴别分析模型，实现文本无关的多语言声纹识别，取得了较高的识别正确率。2.基于i
‑
Vector概率线性鉴别分析模型的非并行语音转换研究：2017年Tomi Kinnunen,Lauri Juvela,...

【技术保护点】

【技术特征摘要】
1.基于多任务自注意力机制的语言学习者声纹识别方法，其特征在于：包括如下步骤：步骤(1)对原始语音信号进行预处理：对原始语音信号利用梅尔滤波器组提取功率谱声纹特征；对声纹特征进行归一化处理；步骤(2)提出构建MT
‑
SANet模型：分别构建多个自注意力网络模块，使每个模块在不同的表示子空间里同时获取全局与局部信息的联系，合并所有自注意力网络模块构成多头自注意力网络，进行多任务学习以获取任务之间的相关性知识；步骤(3)将学习语言过程中的不同学习阶段纳入辅助任务；步骤(4)完成基于多任务自注意力机制的语言学习者声纹识别：语言学习者的学习阶段特征向量，与其他辅助任务特征向量经初始化后共同嵌入声纹特征首部，并与位置信息编码融合后，将融合特征矩阵作为MT
‑
SANet模型的输入；提取多任务特征向量，利用多任务分类器对不同任务进行处理，最终完成语言学习者声纹识别。2.根据权利要求1所述的基于多任务自注意力机制的语言学习者声纹识别方法，其特征在于：在步骤(1)中对原始语音信号进行预加重、分帧、加窗、快傅里叶变换后，利用梅尔滤波器组滤波并取对数，提取功率谱作为原始语音的声纹特征；所述步骤(1)中对声纹特征进行去均值操作，并对其长度进行裁剪，分段成标准长度，将小于标准长度的片段进行填充，完成归一化处理。3.根据权利要求1或2所述的基于多任务自注意力机制的语言学习者声纹识别方法，其特征在于：在步骤(2)中根据语音信号数据的特点，提出构建的MT
‑
SANet模型包括3个隐藏层，每层的多头自注意力网络包含8个自注意力网络模块，其隐藏层由多头自注意力网络和前馈神经网络合并组成；将MT
‑
SANet模型的输入分别乘以权重矩阵W
Q
、W
K
和W
V
得到Query矩阵Q，Key矩阵K和Value矩阵V，并根据注意力机制运算规则构建多个自注意力网络模块，使得每个模块在不同的表示子空间里获取全局与局部信息的联系，其中d
k
表示矩阵K的维度；根据多个独立计算的自注意力网络模块，合并构成多头自注意力网络，MultiHead(Q,K,V)＝Concat(head1,
...

【专利技术属性】
技术研发人员：王兴梅，王涵，汪进利，赵中华，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人