一种说话人识别方法技术

技术编号：34954322 阅读：7 留言：0更新日期：2022-09-17 12:32

本发明专利技术公开了一种说话人识别方法，是一种使用人们语音特征进行身份验证的技术，又称声纹识别。该方法通过Fbank提取说话人的特征参数作为网络结构的输入，在DenseNet的基础上不仅引入多尺度思想，来降低模型训练过程中信息的丢失量，而且结合SE

全部详细技术资料下载

【技术实现步骤摘要】
一种说话人识别方法

[0001]本专利技术涉及一种说话人识别方法，是一种使用人们语音特征进行身份验证的生物识别技术。

技术介绍

[0002]说话人识别是生物识别和语音识别领域中的一个主要课题，由于声音中蕴含着丰富的信息，人们可以通过语音感知说话人的年龄、说话时的心情、性别以及说话人的身份等，从而可以凭借声音进行身份识别验证。从特征采集的成本的角度还是在使用时便捷性的角度考虑，说话人识别技术都有着显而易见的优势，该技术可用于反电信诈骗和走失儿童的找寻、线上客服身份核验、金融防欺诈、对来电客户进行身份识别、线上金融业务办理、多终端验证身份、享受智能化的家居生活体验、智能汽车和许多其他应用。常用的传统输入特征有：倒谱、线性预测系数(LPC)和线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、Fbank特征，其中Fbank特征是在MFCC 的基础上演变出而来，与MFCC不同的是它没有通过MFCC步骤中的DCT 处理，也就是将取对数运算后的倒谱特征进行离散余弦变换，从而可以保留更多的生物个性特征，所以随着深度学习的兴起和在说话人识别领域的应用，相比较MFCC，Fbank更受研究人员的偏爱。
[0003]近年来，为了提高说话人识别的准确率，使其广泛地适用于市场和各类服务领域，科研人员提出了许多识别方法有：矢量量化VQ模型、动态时间规整法DTW模型、高斯混合模型GMM、隐马尔可夫模型HMM，在说话人识别领域中，深度学习已经是人们研究的重点之一，并逐渐取代诸如GMM等传统的人识别模型有...

【技术保护点】

【技术特征摘要】
1.一种说话人识别方法，用于辨析声音生物特征的特性进而验证说话人身份，其特征在于，基于DenseNet
‑
SE block技术，包括以下步骤：步骤1、获取音频数据及音频数据标记，音频数据划分为训练集数据和测试集数据；步骤2、对训练集数据进行数据增强，使用数据增强方法Mixup；步骤3、对音频数据进行预处理，然后再对音频数据做傅立叶变换并计算通过滤波器的能量，以获取Fbank特征数据；步骤4、定义DenseNet
‑
SE block模型的结构以及DenseNet
‑
SE block模型的训练参数；步骤5、使用增强的训练集数据对DenseNet
‑
SE block模型进行训练；步骤6、将测试集数据特征信息输入到训练完成的DenseNet
‑
SE block模型中进行判决，得出识别结果；步骤7、得到输入测试集数据的模型的概率矩阵、识别率。2.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤1中的所述音频数据从数据库中，抽取的150个说话人，单个说话人总时长为五分钟至十分钟之间，每个说话人包含60个音频样本，其中50个样本作为训练集，10个样本作为测试集，总时长50小时，作为样本库；所有音频数据都编码为单通道，并以16位精度以16kHz采样；将读取到的音频按照不同的标签保存，即train_sound，train_label，test_sound，test_label分别代表训练集和测试集的音频数据和对应的说话人标签。3.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤2中的数据增强方法Mixup以线性插值的方式来构建新的训练样本和标签，其表达式为：其表达式为：其中(x
i
,y
i
)和(x
j
,y
j
)为训练数据中随机抽取的两个样本，λ为服从B分布的参数。4.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤3中的预处理包括预加重、分帧处理和加窗函数、端点检测，所述预加重的滤波器设为：H(z)＝1
‑
az
‑1，其中a预加重滤波器的系数参数，取值范围为0.9～1；所述分帧处理将一段非平稳语音信号的分析，转变成若干个平稳语音帧，一帧的帧长为10～30ms，帧移与帧长的比值为0～0.5；所述加窗通过使用滑动窗口对原始语音序列进行等间隔分割实现，即将每一帧乘以汉明窗，通过窗函数的音频信号为：s
W
(n)＝s(n)w(n)，其中s(n)为原始语音信号序列，w(n)为汉明窗函数，计算公式为：其中N为帧长；所述端点检测的双门限法算法用于从原始音频信号中识别出语音段和非语音段，设定高的短时能量门限，取所有帧的短时能量平均值，设定低的短时能量门限T1和短时过零率的阈值Z
s
，将低于T1门限的内容判决为静音段，高于T1并低于T2的内容进行阈值的判定，计算公式为：计算公式为：
其中E
n
为短时能量，Z
n
为短时过零率，sgn[]为符号函数；利用傅立叶变换并计算通过滤波器的能量取对数来获取Fbank特征数据，计算公式为：X
m
(w)＝FFT(X
m
(n))；(n))；(n))；其中，x
m
(n)为音频信号时域采样序列，x
m
(w)为对应频域的功率谱，m是指帧的序列，H
m
(k)为梅尔滤波器组函数，满足f(m)为三角滤波器中第m个滤波器的中心频率，m是指滤波器的数量，取20～40，Mel(f)是梅尔频率，f为实际语音信号频率。5.根据权利要求1所述的说话人识别方法，其特征在于：所述步骤4中DenseNet
‑
SE block模型的结构包含输入层、四个DenseBlock模块和三个Transition模块组成，...

【专利技术属性】
技术研发人员：邓立新，周琪，孙明铭，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人