说话人验证方法及系统技术方案

技术编号:32587191 阅读:22 留言:0更新日期:2022-03-09 17:20
本发明专利技术实施例提供一种说话人验证方法。该方法包括:将待验证语音转化为音频序列;将音频序列输入至基于transformer的固定窗口大小的自注意力块,使待验证语音中各帧的自注意力的可视范围限制在各帧语音的相邻帧,得到局部自注意力的说话人特征;将局部自注意力的说话人特征输入至前馈网络,得到说话人验证结果。本发明专利技术实施例还提供一种说话人验证系统。本发明专利技术实施例提出了三种改进的自我注意方法,包括局部自注意力、高斯自注意力和卷积自注意力。前两种方法通过限制注意的大小来实现目标,后一种方法通过结合卷积来获得性能增益,总的提升说话人验证效果。升说话人验证效果。升说话人验证效果。

【技术实现步骤摘要】
说话人验证方法及系统


[0001]本专利技术涉及智能语音领域,尤其涉及一种说话人验证方法及系统。

技术介绍

[0002]说话人验证是一种利用所发出的语音来验证说话人身份的任务。对于两个话语,典型的说话人验证系统可以提取说话人嵌入,自动判断两个话语是否属于同一个说话人。一般来说,一个典型的说话人验证系统包括两部分。第一种是嵌入提取,用于从话语中提取定长说话人表示。另一种是后端判断模型,其目的是计算说话者嵌入向量之间的相似性。
[0003]随着深度学习方法在其他领域的广泛应用,深度神经网络的有效性得到了广泛的证明。由于transformer强大的建模和并行计算能力,它已成为自然语言处理和自动语音识别领域最流行的方法。例如由transformer作为主要架构的说话人验证系统S

vector,可以进行说话人验证。
[0004]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0005]基于自注意力的S

vector,往往注重建模全局信息,忽略局部信息,然而说话人信息往往本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种说话人验证方法,包括:将待验证语音转化为音频序列;将所述音频序列输入至基于transformer的固定窗口大小的自注意力块,使所述待验证语音中各帧的自注意力的可视范围限制在所述各帧语音的相邻帧,得到局部自注意力的说话人特征;将所述局部自注意力的说话人特征输入至前馈网络,得到说话人验证结果。2.根据权利要求1所述的方法,其中,所述将所述音频序列输入至基于transformer的固定窗口大小的自注意力块包括:通过所述自注意力块生成说话人特征的偏差矩阵;利用高斯分布优化所述偏差矩阵中每帧语音的权重,得到增强局部的高斯自注意力的说话人特征。3.根据权利要求1所述的方法,其中,所述自注意力块包括:多个一维卷积层,用于强化对局部上下文的建模能力。4.根据权利要求3所述的方法,其中,所述方法还包括:利用线性整流函数激活的双层卷积一维网络替代所述前馈网络的全连接层,以确定待验证语音的卷积自注意力的说话人特征。5.一种说话人验证系统,包括:音频序列转化程序模块,用于将待验证语音转化为音频序列;特征限制程序模块,用于将所述音频序列输入至基于transformer的固定窗口大小的自注意力块,使所述待验证语音中各帧的自注意力的可视范围...

【专利技术属性】
技术研发人员:钱彦旻韩冰陈正阳
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1