【技术实现步骤摘要】
一种基于多尺度多层级模型的声纹识别系统及方法
[0001]本专利技术涉及声纹识别
,具体是一种基于多尺度多层级模型的声纹识别系统及方法。
技术介绍
[0002]随着人工智能技术的快速发展,越来越多融合了人工智能技术的产品出现在人们的日常生活中。其中,声纹信息作为重要的生物特征,是用户身份验证的有效途径之一。声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用,特别是在安防领域和智能设备产品上。
[0003]然而,一条语音数据上蕴含的身份信息并不是均匀分布在语音信号上的,即同一条语音信号的不同位置表现出的对于说话人的区分性是不同的。因此,对于语音信号所有位置的信息都给予同样重视度的方法会影响识别准确率。其次,由于语音数据的长短不一致,当训练数据的长度和测试语音信号的长度相差较大时,可能会造成模型性能下降。类似地,用户注册时语音信号的长度和验证时语音信号长度相差较大时,也会一定程度影响声纹识别系统的准确率。
[0004]目前大多数声纹系统隐式地利用注意力机制或者基于VLAD的算法来考虑语音信号中不同帧的 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度多层级模型的声纹识别方法,其特征在于,包括:步骤1、获取带说话人标注的语音数据;步骤2、将所述语音数据依据不同尺度划分为特征片段,每种划分尺度对应一个层级;步骤3、构建并训练与数据划分方式对应的多尺度多层级模型;步骤4、将待识别语音数据输入步骤3训练得到的多尺度多层级模型中进行声纹识别。2.根据权利要求1所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述步骤1还包括对语音数据进行增广操作。3.根据权利要求2所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述增广操作包括对数据进行拼接、截断、反转、在原数据上叠加噪音和/或混响。4.根据权利要求1
‑
3任意一项所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述步骤1还包括对语音数据提取特征表示。5.根据权利要求4所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,所述特征表示为基于频谱特征的表示或基于神经网络提取的嵌入表示。6.根据权利要求4所述的一种基于多尺度多层级模型的声纹识别方法,其特征在于,将所述语音数据依据不同尺度划分为特征片段的具体步骤为:预设一个固定的层级数N,并且每个层级采用不同的一个固定步长对语音数据进行划分;或者根据发音规律对语音数据进行多次划分。7.根据权...
【专利技术属性】
技术研发人员:汪欣,谢川,展华益,
申请(专利权)人:四川启睿克科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。