本发明专利技术提供一种声纹识别方法及嵌入式装置,方法包括以下步骤:S1:获取语音数据集并提取特征矩阵,划分为训练数据集和测试数据集;S2:随机抽取若干语音数据生成子数据集;S3:优化声纹识别模型,得到优化后的声纹识别模型;S4:训练优化后的声纹识别模型,得到训练好的声纹识别模型;S5:对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;提取声纹特征,计算声纹特征和对比声纹特征之间的余弦相似度;S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。本发明专利技术提供一种声纹识别方法及嵌入式装置,解决了目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的问题。较高的识别准确度的问题。较高的识别准确度的问题。
【技术实现步骤摘要】
一种声纹识别方法及嵌入式装置
[0001]本专利技术涉及声纹识别
,更具体的,涉及一种声纹识别方法及嵌入式装置。
技术介绍
[0002]声纹识别技术是一种借助于声音完成对用户身份信息确认的技术,是语音识别领域的重点研究方向之一。伴随着科学技术的不断进步及人工智能领域的蓬勃发展,声纹识别近年来得到了很大的发展,又由于通过声纹识别技术进行身份验证,对比于人脸识别和指纹识别,在准确性和安全性上都有所提升,且方便快捷,使其已然成为一种高效的身份识别方法,广泛应用于公安、银行、智能家居行业。
[0003]嵌入式人工智能,是一种将人工智能算法应用于终端设备上的技术概念,使各种设备能够在不联网的情况下完成环境感知、人机交互等功能。采用深度神经网络模型提取声纹特征逐渐成为当前声纹识别的主流技术。随着声纹识别技术的广泛应用,在嵌入式设备上进行声纹识别正成为声纹识别技术的主流趋势,嵌入式设备逐渐成为声纹识别技术的主要载体。
[0004]但目前用于嵌入式设备的声纹识别技术对计算能力和资源都有非常高的要求,使用成本极高,难以在资源受限的嵌入式设备取得较高的识别准确度。
技术实现思路
[0005]本专利技术为克服目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的技术缺陷,提供一种声纹识别方法及嵌入式装置。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]一种声纹识别方法,包括以下步骤:
[0008]S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;
[0009]S2:从训练数据集中随机抽取若干语音数据,生成子数据集;
[0010]S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;
[0011]S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;
[0012]S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;
[0013]利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;
[0014]S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。
[0015]上述方案中,通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整,以得到适应于当前数据的最佳模型,即可以根据嵌入式设备采集的数据重新训练出更加合适的模型,降低资源需求,在资源受限的嵌入式设备中实现声纹识别;同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值,根据
余弦相似度和最佳声纹识别阈值得到声纹识别结果,模拟真实场景,进一步提高了在未知场景下的识别准确性。
[0016]优选的,测试数据集中的人物标签与训练数据集中的人物标签不同。
[0017]上述方案中,通过根据人物标签对语音数据集进行划分,避免训练数据集中出现测试数据集中的人物语音特征,降低无关数据对声纹识别模型的影响,提高在真实环境中对未知声纹识别的准确性。
[0018]优选的,提取语音数据的特征矩阵包括以下步骤:
[0019]S1.1:通过语音活性检测去除语音数据中的静默音;
[0020]S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。
[0021]优选的,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。
[0022]优选的,所述群体智能优化算法为粒子群优化算法。
[0023]优选的,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。
[0024]优选的,通过以下步骤得到最佳声纹识别阈值:
[0025]利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征,设置声纹识别阈值从0到1,且以步长s进行以下迭代:
[0026]计算测试数据集中两两声纹特征之间的余弦相似度,并与当前的声纹识别阈值进行比较;
[0027]若两个声纹特征间的余弦相似度大于当前的声纹识别阈值,则识别对应的两个语音数据属于同一人物,即为正样本,在正样本中,若两个语音数据的人物标签相同则表示识别正确,否则识别错误;
[0028]若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值,则识别对应的两个语音数据属于不同人物,即为负样本,在负样本中,若两个语音数据的人物标签相同则表示识别错误,否则识别正确;
[0029]得到当前的声纹识别阈值下正负样本的识别准确率;
[0030]判断当前的声纹识别阈值是否为1,若是,迭代结束,若否,令当前的声纹识别阈值增加一个步长后继续迭代;
[0031]迭代结束后,将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。
[0032]优选的,所述声纹识别为声纹对比;
[0033]若余弦相似度大于最佳声纹识别阈值,则得到声纹识别结果为同一人物;若余弦相似度小于或等于最佳声纹识别阈值,则得到声纹识别结果为不同人物。
[0034]优选的,所述声纹识别为声纹辨认;
[0035]将与待识别语音数据的声纹特征的余弦相似度最高的对比声纹特征的人物标签作为声纹识别结果。
[0036]本专利技术基于所述的一种声纹识别方法,还提出了一种声纹识别嵌入式装置,包括:
[0037]采集模块,用于采集待识别语音数据;
[0038]处理模块,用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征,
从声纹库获取对比声纹特征,计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果;
[0039]声纹库,用于存储对比声纹特征及其人物标签。
[0040]与现有技术相比,本专利技术技术方案的有益效果是:
[0041]本专利技术提供了一种声纹识别方法及嵌入式装置,通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整,以得到适应于当前数据的最佳模型,即可以根据嵌入式设备采集的数据重新训练出更加合适的模型,降低资源需求,在资源受限的嵌入式设备中实现声纹识别;同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值,根据余弦相似度和最佳声纹识别阈值得到声纹识别结果,模拟真实场景,进一步提高了在未知场景下的识别准确性。
附图说明
[0042]图1为本专利技术的技术方案实施步骤流程图;
[0043]图2为本专利技术中声纹识别嵌入式装置的工作流程图。
具体实施方式
[0044]附图仅用于示例性说明,不能理解为对本专利的限制;
[0045]为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0046本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种声纹识别方法,其特征在于,包括以下步骤:S1:获取带人物标签的语音数据集,并提取其中语音数据的特征矩阵,根据人物标签划分为训练数据集和测试数据集;S2:从训练数据集中随机抽取若干语音数据,生成子数据集;S3:通过群体智能优化算法利用子数据集优化预构建的声纹识别模型,得到优化后的声纹识别模型;S4:利用训练数据集训练优化后的声纹识别模型,得到训练好的声纹识别模型;S5:利用测试数据集对训练好的声纹识别模型进行测试,得到最佳声纹识别阈值;利用训练好的声纹识别模型提取待识别语音数据的声纹特征,计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度;S6:根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。2.根据权利要求1所述的一种声纹识别方法,其特征在于,测试数据集中的人物标签与训练数据集中的人物标签不同。3.根据权利要求1所述的一种声纹识别方法,其特征在于,提取语音数据的特征矩阵包括以下步骤:S1.1:通过语音活性检测去除语音数据中的静默音;S1.2:通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。4.根据权利要求1所述的一种声纹识别方法,其特征在于,在步骤S1中,还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。5.根据权利要求1所述的一种声纹识别方法,其特征在于,所述群体智能优化算法为粒子群优化算法。6.根据权利要求1所述的一种声纹识别方法,其特征在于,采用余弦退火算法训练优化后的声纹识别模型;采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。7.根据权利要求1所述的一种声纹识别方法,其特征在于,通过以下步骤得到最佳声纹识别阈值:利用训练好的声纹识别模型提取测试数据集中...
【专利技术属性】
技术研发人员:李广明,张红良,陈倩,陈毅轩,陈林豪,余晨晖,
申请(专利权)人:典瑞智能东莞科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。