一种基于多尺度多层级模型的声纹识别系统及方法技术方案

技术编号:32777125 阅读:33 留言:0更新日期:2022-03-23 19:33
本发明专利技术涉及声纹识别技术领域,为了提高声纹识别的准确率,提供了一种基于多尺度多层级模型的声纹识别方法,包括:步骤1、获取带说话人标注的语音数据;步骤2、将所述语音数据依据不同尺度划分为特征片段,每种划分尺度对应一个层级;步骤3、构建并训练与数据划分方式对应的多尺度多层级模型;步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。一种基于多尺度多层级模型的声纹识别系统,包括:数据获取单元、数据划分单元、模型构建单元、模型训练单元及声纹识别单元。采用上述方式,提高了声纹识别模型的准确性。提高了声纹识别模型的准确性。提高了声纹识别模型的准确性。

【技术实现步骤摘要】
一种基于多尺度多层级模型的声纹识别系统及方法


[0001]本专利技术涉及声纹识别
,具体是一种基于多尺度多层级模型的声纹识别系统及方法。

技术介绍

[0002]随着人工智能技术的快速发展,越来越多融合了人工智能技术的产品出现在人们的日常生活中。其中,声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用,特别是在安防领域和智能设备产品上。
[0003]然而,一条语音数据上蕴含的身份信息并不是均匀分布在语音信号上的,即同一条语音信号的不同位置表现出的对于说话人的区分性是不同的。因此,对于语音信号所有位置的信息都给予同样重视度的方法会影响识别准确率。其次,由于语音数据的长短不一致,当训练数据的长度和测试语音信号的长度相差较大时,可能会造成模型性能下降。类似地,用户注册时语音信号的长度和验证时语音信号长度相差较大时,也会一定程度影响声纹识别系统的准确率。
[0004]目前大多数声纹系统隐式地利用注意力机制或者基于VLAD的算法来考虑语音信号中不同帧的语音信号对说话人身份本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度多层级模型的声纹识别方法,其特征在于,包括:步骤1、获取带说话人标注的语音数据;步骤2、将所述语音数据依据不同尺度划分为特征片段,每种划分尺度对应一个层级;步骤3、构建并训练与数据划分方式对应的多尺度多层级模型;步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。2.根据权利要求1所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述步骤1还包括对语音数据进行增广操作。3.根据权利要求2所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述增广操作包括对数据进行拼接、截断、反转、在原数据上叠加噪音和/或混响。4.根据权利要求1

3任意一项所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述步骤1还包括对语音数据提取特征表示。5.根据权利要求4所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述特征表示为基于频谱特征的表示或基于神经网络提取的嵌入表示。6.根据权利要求4所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,将所述语音数据依据不同尺度划分为特征片段的具体步骤为:预设一个固定的层级数N,并且每个层级采用不同的一个固定步长对语音数据进行划分;或者根据发音规律对语音数据进行多次划分。7.根据权...

【专利技术属性】
技术研发人员:汪欣谢川展华益
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1