一种说话人识别方法技术

技术编号:34954322 阅读:7 留言:0更新日期:2022-09-17 12:32
本发明专利技术公开了一种说话人识别方法,是一种使用人们语音特征进行身份验证的技术,又称声纹识别。该方法通过Fbank提取说话人的特征参数作为网络结构的输入,在DenseNet的基础上不仅引入多尺度思想,来降低模型训练过程中信息的丢失量,而且结合SE

【技术实现步骤摘要】
一种说话人识别方法


[0001]本专利技术涉及一种说话人识别方法,是一种使用人们语音特征进行身份 验证的生物识别技术。

技术介绍

[0002]说话人识别是生物识别和语音识别领域中的一个主要课题,由于声音中 蕴含着丰富的信息,人们可以通过语音感知说话人的年龄、说话时的心情、性 别以及说话人的身份等,从而可以凭借声音进行身份识别验证。从特征采集的 成本的角度还是在使用时便捷性的角度考虑,说话人识别技术都有着显而易见 的优势,该技术可用于反电信诈骗和走失儿童的找寻、线上客服身份核验、金 融防欺诈、对来电客户进行身份识别、线上金融业务办理、多终端验证身份、 享受智能化的家居生活体验、智能汽车和许多其他应用。常用的传统输入特 征有:倒谱、线性预测系数(LPC)和线性预测倒谱系数(LPCC)、 梅尔频率倒谱系数(MFCC)、Fbank特征,其中Fbank特征是在MFCC 的基础上演变出而来,与MFCC不同的是它没有通过MFCC步骤中的DCT 处理,也就是将取对数运算后的倒谱特征进行离散余弦变换,从而可以保 留更多的生物个性特征,所以随着深度学习的兴起和在说话人识别领域的 应用,相比较MFCC,Fbank更受研究人员的偏爱。
[0003]近年来,为了提高说话人识别的准确率,使其广泛地适用于市场和各 类服务领域,科研人员提出了许多识别方法有:矢量量化VQ模型、动态时间规 整法DTW模型、高斯混合模型GMM、隐马尔可夫模型HMM,在说话人识别 领域中,深度学习已经是人们研究的重点之一,并逐渐取代诸如GMM等传统的 人识别模型有:人工神经网络(ANN),深度学习(DL)、卷积神经网络(CNN)、 卷积神经网络残差网络等,但是现有深度学习网络也有着自身的不足:在完 成网络模型的训练的过程中需要计算的相关参数十分庞大且耗费时间,只适 合大数据集下的情形,在实用性方面,神经网络训练过程中对设备的要求较 高,存在一定的局限性;随着网络结构的加深可以使其具备更强的拟合能 力,但是会导致出现误差梯度的消失的问题,随着卷积的深入,会不可 避免的丢失掉一部分特征信息,最终影响实验结果。
[0004]有鉴于此,确有必要提出一种基于DenseNet

SE block说话人识别方法, 以解决上述问题。

技术实现思路

[0005]本专利技术的目的在于提供一种说话人识别方法,该方法基于DenseNet
‑ꢀ
SE block有针对性地减轻梯度消失问题,且该方法能有效的加强特征的传 输,降低样本中噪声信息的干扰,减少训练过程中网络参数的数目,且 可以很好的增强网络模型的非线性表达能力,最终提高整体的识别效果。
[0006]为实现上述目的,本专利技术提供一种基于DenseNet

SE block说话人识别 方法,用于对说话人进行识别,所述说话人识别方法包括以下步骤:
[0007]步骤1、获取音频数据及音频数据标记,音频数据划分为训练集数据和 测试集数
据;
[0008]步骤2、对训练集数据进行数据增强,使用数据增强方法Mixup;
[0009]步骤3、对音频数据进行预处理,然后再对音频数据做傅立叶变换并 计算通过滤波器的能量,以获取Fbank特征数据;
[0010]步骤4、定义DenseNet

SEblock模型的结构以及DenseNet

SEblock模型的 训练参数;
[0011]步骤5、使用增强的训练集数据对DenseNet

SEblock模型进行训练;
[0012]步骤6、将测试集数据特征信息输入到训练完成的DenseNet

SEblock模 型中进行判决,得出识别结果;
[0013]步骤7、得到输入测试集数据的模型的概率矩阵、识别率;
[0014]作为本专利技术的进一步改进,步骤1中的音频数据为北京数据堂科技股 份有限公司制作并开源的Aidatatang

200zh开源语音数据库中,抽取的150个 说话人,单个说话人总时长为五分钟至十分钟之间,每个说话人包含60个 音频样本,其中50个样本作为训练集,10个样本作为测试集,总时长达到 50小时,作为实验中的样本库。所有音频文件都编码为单通道,并以16位 精度以16kHz采样。数据标记具体为:将读取到的音频按照不同的标签保存, 即train_sound,train_label,test_sound,test_label分别代表训练集和测试集 的音频数据和对应的说话人标签。
[0015]作为本专利技术的进一步改进,步骤2中的数据增强方法Mixup以线性插 值的方式来构建新的训练样本和标签,增强了训练样本之间的线性表达, 改进当前的神经网络架构的泛化能力,从而减少对错误标签的记忆、增加 对抗样本的鲁棒性。其表达式为:
[0016][0017][0018]其中(x
i
,y
i
)和(x
j
,y
j
)为训练数据中随机抽取的两个样本,λ为服从B分布 的参数。
[0019]作为本专利技术的进一步改进,步骤3中的预处理包括预加重、分帧处理 和加窗函数、端点检测,预加重的滤波器设为:,其中a预加重滤波器的系 数参数,通常取值范围为0.9~1;分帧处理将一段比较长的非平稳语音信号 的分析,转变成一个个平稳语音帧,一般一帧的帧长为10~30ms,帧移与帧 长的比值为0~0.5;加窗通过使用滑动窗口对原始语音序列进行等间隔分割 实现,即将每一帧乘以汉明窗,通过窗函数的音频信号为:s
W
(n)=s(n)w(n), 其中s(n)为原始语音信号序列,w(n)为汉明窗函数,计算公式为: 其中N为帧长;端点检测的双门 限法算法用于从原始音频信号中识别出语音段和非语音段,有效的减少原始 音频中无意义的部分。具体实现为设定一个较高的短时能量门限,一般取 所有帧的短时能量平均值,设定一个较低的短时能量门限T1和短时过零率 的阈值Z
s
,将低于T1门限的内容判决为静音段,高于T1并低于T2的内容进 行阈值的判定。计算公式为:
[0020][0021][0022][0023]其中E
n
为短时能量,Z
n
为短时过零率,sgn[]为符号函数;
[0024]利用傅立叶变换并计算通过滤波器的能量取对数来获取Fbank特征数据。 的计算公式为:
[0025]X
m
(w)=FFT(X
m
(n));
[0026][0027][0028][0029]其中,x
m
(n)为音频信号时域采样序列,x
m
(w)为对应频域的功率谱,m 是指帧的序列,H
m
(k)为梅尔滤波器组函数,满足f(m)为三 角滤波器中第m滤波器的中心频率,m是指滤波器的数量,通常取20~40, Mel(f)是梅本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人识别方法,用于辨析声音生物特征的特性进而验证说话人身份,其特征在于,基于DenseNet

SE block技术,包括以下步骤:步骤1、获取音频数据及音频数据标记,音频数据划分为训练集数据和测试集数据;步骤2、对训练集数据进行数据增强,使用数据增强方法Mixup;步骤3、对音频数据进行预处理,然后再对音频数据做傅立叶变换并计算通过滤波器的能量,以获取Fbank特征数据;步骤4、定义DenseNet

SE block模型的结构以及DenseNet

SE block模型的训练参数;步骤5、使用增强的训练集数据对DenseNet

SE block模型进行训练;步骤6、将测试集数据特征信息输入到训练完成的DenseNet

SE block模型中进行判决,得出识别结果;步骤7、得到输入测试集数据的模型的概率矩阵、识别率。2.根据权利要求1所述的说话人识别方法,其特征在于:所述步骤1中的所述音频数据从数据库中,抽取的150个说话人,单个说话人总时长为五分钟至十分钟之间,每个说话人包含60个音频样本,其中50个样本作为训练集,10个样本作为测试集,总时长50小时,作为样本库;所有音频数据都编码为单通道,并以16位精度以16kHz采样;将读取到的音频按照不同的标签保存,即train_sound,train_label,test_sound,test_label分别代表训练集和测试集的音频数据和对应的说话人标签。3.根据权利要求1所述的说话人识别方法,其特征在于:所述步骤2中的数据增强方法Mixup以线性插值的方式来构建新的训练样本和标签,其表达式为:其表达式为:其中(x
i
,y
i
)和(x
j
,y
j
)为训练数据中随机抽取的两个样本,λ为服从B分布的参数。4.根据权利要求1所述的说话人识别方法,其特征在于:所述步骤3中的预处理包括预加重、分帧处理和加窗函数、端点检测,所述预加重的滤波器设为:H(z)=1

az
‑1,其中a预加重滤波器的系数参数,取值范围为0.9~1;所述分帧处理将一段非平稳语音信号的分析,转变成若干个平稳语音帧,一帧的帧长为10~30ms,帧移与帧长的比值为0~0.5;所述加窗通过使用滑动窗口对原始语音序列进行等间隔分割实现,即将每一帧乘以汉明窗,通过窗函数的音频信号为:s
W
(n)=s(n)w(n),其中s(n)为原始语音信号序列,w(n)为汉明窗函数,计算公式为:其中N为帧长;所述端点检测的双门限法算法用于从原始音频信号中识别出语音段和非语音段,设定高的短时能量门限,取所有帧的短时能量平均值,设定低的短时能量门限T1和短时过零率的阈值Z
s
,将低于T1门限的内容判决为静音段,高于T1并低于T2的内容进行阈值的判定,计算公式为:计算公式为:
其中E
n
为短时能量,Z
n
为短时过零率,sgn[]为符号函数;利用傅立叶变换并计算通过滤波器的能量取对数来获取Fbank特征数据,计算公式为:X
m
(w)=FFT(X
m
(n));(n));(n));其中,x
m
(n)为音频信号时域采样序列,x
m
(w)为对应频域的功率谱,m是指帧的序列,H
m
(k)为梅尔滤波器组函数,满足f(m)为三角滤波器中第m个滤波器的中心频率,m是指滤波器的数量,取20~40,Mel(f)是梅尔频率,f为实际语音信号频率。5.根据权利要求1所述的说话人识别方法,其特征在于:所述步骤4中DenseNet

SE block模型的结构包含输入层、四个DenseBlock模块和三个Transition模块组成,...

【专利技术属性】
技术研发人员:邓立新周琪孙明铭
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1