一种复杂声音场景下的声纹识别家电控制方法和装置制造方法及图纸

技术编号:35553674 阅读:33 留言:0更新日期:2022-11-12 15:34
本发明专利技术提出了一种复杂声音场景下的声纹识别家电控制方法和装置,涉及家电控制领域。模板音频充分考虑了复杂声音场景下的多种情况,具有较好的代表性,为提升复杂声音场景下的声纹识别精度奠定了基础。利用基于模板音频的相似性检测模型、基于SVM模型的声纹识别决策模型、基于卷积神经网络的声纹识别模型依次进行判断,提升了声纹识别的精度。模型由简单到复杂,容易判断的音频利用简单模型即可得到结果,难以判断的音频信号再用复杂模型得到结果,降低了计算资源消耗。降低了计算资源消耗。降低了计算资源消耗。

【技术实现步骤摘要】
一种复杂声音场景下的声纹识别家电控制方法和装置


[0001]本专利技术涉及家电控制领域,具体而言,涉及一种复杂声音场景下的声纹识别家电控制方法和装置。

技术介绍

[0002]随着科技的进步,越来越多的现代化家电被消费者广泛应用。作为重要的身份识别技术,声纹识别可以对家庭成员的身份进行识别,从而让家电接受特定家庭成员的指令,防止无关人员的指令干扰。通常情况下,普通的声纹识别技术已经可以保证较高的识别精准度,从而实现特定家庭成员对家电的精准控制。
[0003]然而,在利用声纹识别技术对家电进行控制的过程中,往往伴随着复杂的声音场景,极大地降低了声纹识别技术的识别精度。随着识别精度的显著降低,基于声纹识别控制方法的家电应用价值也显著下降。因此,如何设计一种复杂声音场景下的声纹识别家电控制方法,在复杂声音场景下也能保证声纹识别的精准度有非常重要的应用价值。

技术实现思路

[0004]为了克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供一种复杂声音场景下的声纹识别家电控制方法和装置。
[0005]本专利技术的实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种复杂声音场景下的声纹识别家电控制方法,其特征在于,包括:在多个声音场景下,分别录入特定家庭成员的多段音频;对多段音频进行编码;编码之后,计算每位家庭成员的音频两两之间的相似性,保留一段相似度大于预设值的音频,并将保留下的所有音频认定为模板音频;将所有模板音频作为正训练样本,并收集多个非特定家庭成员的音频作为负训练样本,利用机器学习模型进行训练,得到声纹识别决策模型;当家电使用人输出一段音频,计算该段音频和模板音频的相似性,若该段音频和任意模板音频的相似性大于预设相似度,直接识别为特定家庭成员的音频;若该段音频和任意模板音频的相似性均小于预设相似度,则进行下一步;利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频。2.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法,其特征在于,所述机器学习模型为SVM模型。3.根据权利要求2所述的一种复杂声音场景下的声纹识别家电控制方法,其特征在于,所述利用声纹识别决策模型对家电使用人的输出音频进行判断是否为特定家庭成员的音频的步骤包括:若基于SVM模型的声纹识别决策结果得分大于第一预设分数,直接识别为特定家庭成员的音频,若基于SVM模型的声纹识别决策结果得分小于第二预设分数,直接识别为非特定家庭成员的音频,若基于SVM模型的声纹识别决策结果得分在第一预设分数与第二预设分数之间,则进行下一步;利用基于卷积神经网络的声纹识别模型对家电使用人的输出音频进行最终判定,判断是否为特定家庭成员的音频。4.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法,其特征在于,所述当家电使用人输出一段音频,计算该段音频和模板音频的相似性的步骤包括:对该段音频和模板音频进行:音频滤波、计算音频信号短时能量、截取音频信号有效数据;计算该段音频和模板音频的余弦距离。5.根据权利要求1所述的一种复杂声音场景下的声纹识别家电控制方法,其特征在于,所述在多个声音场景下,分...

【专利技术属性】
技术研发人员:张林焘吴昊别荣芳
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1