基于并行分支结构的捕捉局部和全局特征说话人确认方法技术

技术编号:38266472 阅读:25 留言:0更新日期:2023-07-27 10:23
本发明专利技术公开了一种基于并行分支结构的捕捉局部和全局特征说话人确认方法,采用Branch模块来构建两个并行分支结构,分别捕获ASV任务中说话人的局部和全局特征信息;其中,一个分支采用多头自注意力机制来捕捉长范围依赖关系,另一个分支利用SE

【技术实现步骤摘要】
基于并行分支结构的捕捉局部和全局特征说话人确认方法


[0001]本专利技术属于模式识别
,具体涉及一种说话人确认方法。

技术介绍

[0002]自动说话人确认(Automatic Speaker Verification,ASV)是一项用于判断一段语音是否由特定说话人发出的任务。近年来,ASV得到了显著发展,广泛应用于智能住宅系统、基于语音的身份验证、银行交易和远程支付等真实世界的应用场景中。一般来说,该领域的研究主要集中在两个方面。第一个方面是说话人嵌入(speaker embedding)提取器,其目的是从可变长度的话语中提取具有固定维度的说话人向量,以表示说话人的声学特征,目前基于深度学习的嵌入提取器已经成为主流技术。另一个方面是后端评分模型,其目的是计算说话人嵌入向量之间的相似度,其中简单的余弦距离度量通常用于评分判断,此外还可以训练更为复杂的后端评分模型,如概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)。
[0003]目前,基于卷积神经网络的模型已经在AS本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于并行分支结构的捕捉局部和全局特征说话人确认方法,其特征在于,包括如下步骤:步骤1:构建Branch

ECAPA

TDNN框架:所述Branch

ECAPA

TDNN框架中,首先输入特征经过一维卷积层、ReLU非线性层和批归一化BN层;其次经过三个Branch模块,将每个Branch模块的输出通过残差连接合并为该阶段的输出,该输出通过一个一维卷积层和ReLU非线性层得到帧级别的说话人特征,再经过一个基于自注意力机制的统计池化层得到句子级别的说话人特征,最终通过一个全连接层FC和批归一化BN层得到说话人嵌入,并采用AAM

Softmax损失函数进行训练;步骤2:构建Branch模块;所述Branch模块包括两个分支:全局特征建模分支和局部特征建模分支,从这两个分支中分别提取全局和局部特征信息;步骤2

1:全局特征建模分支:所述全局特征建模分支是多头自注意力模块,用于提取全局说话人特征,具体计算过程如下:在多头自注意力中,表示输入,其中T和D分别表示特征的时间帧数和声学特征维度;假设自注意力的注意头数是h,对于每个注意头,输入特征X被投影到维度为E的查询Q、键K和值V子空间中,具体如下:在上述公式中,Q
i
、K
i
和V
i
均在空间上,分别表示第i个注意力头的查询、键和值的嵌入;K,V是线性投影参数,且其中d
k
=E/h;计算查询和所有键的点积,将结果除以并应用softmax函数以获得注意力矩阵并应用softmax函数以获得注意力矩阵最后,将所有的自注意力头的输出在子空间中进行拼接,然后通过以下变换重新变回原始大小:Y
A
=concat[Z1,Z2,...,Z
h
]W
O
.(3)其中是投影层的一个参数矩阵;步骤2

2:局部特征建模分支:局部特征建模分支是一个SE

Res2Block模块,它集成了Res2Net模块和Squeeze

and

Excitation块,用于进一步表示具有各种细粒度的多尺度局部特征;首先,对于Res2Net模块,将由1
×
1卷积生成的特征映射分成s个子集其中所有通道具有相同的空间大小,每个通道都是输入特征映射通道的1/s,其中s被称为尺度;Res2Net模块的输出{m1,m2,...,m
s
}表示如下:<...

【专利技术属性】
技术研发人员:张晓雷姚嘉迪景瑞昊
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1