复合生理特征识别中智能语音门禁训练文本的生成方法及系统技术方案

技术编号:39280958 阅读:6 留言:0更新日期:2023-11-07 10:55
本发明专利技术提供了复合生理特征识别中智能语音门禁训练文本的生成方法及系统,从而解决公共噪声环境下,相关应用中语音文本语料采集困难、语音识别率低问题,同时提升了系统安全性和可靠性。该方法包括:设备语音识别数据采集、设备语音识别准确率个体和群体判别、设备采集语音特征分类识别、训练语料动态生成和更新决策。本发明专利技术通过手机采集人员语音,结合设备现场动态采集和生成人员带噪声训练语音,不但解决了语音识别设备现场采集语音的操作不便,同时也解决语音采集设备和识别设备不一致时,造成识别率不高的问题。成识别率不高的问题。成识别率不高的问题。

【技术实现步骤摘要】
复合生理特征识别中智能语音门禁训练文本的生成方法及系统


[0001]本专利技术涉及智能语音
,尤其涉及复合生理特征识别中智能语音门禁训练文本的生成方法及系统。

技术介绍

[0002]语音识别门禁,如果安装在公共区域(如小区、办公楼),由于环境噪音影响,造成识别率低,使其应用推广受到很大制约,在研究界和行业界都引起了极大关注。
[0003]语音门禁训练文本的采集困难,在实际应用中如果让所有用户都到设备安装现场进行训练语音采集,不但现场工作人员工作量大,而且用户接受度和配合度也很低,无法有效采集训练文本;如果通过手机或其它便携设备采集,又会碰到采集设备与现场使用的语音比对设备(门禁)不一致,导致语音识别率低。现场门禁语音训练文本采集后,标注不方便,而且由于受限于现场条件,即使标注,也很容易出错。
[0004]在实现本专利技术过程中,专利技术人发现在语音识别门禁相关技术中至少存在如下问题:训练语音文本的采集最好通过现场语音比对设备采集,但用户一般觉得现场采集语音不方便,接受度低。另外,由于现场采集人员所处角度、距离设备远近等因素都会影响采集语音清晰度。现场训练语音样本的标注也缺乏高效自动化的处理方式。现场采集的训练语音文本单纯进行降噪处理,而不考虑现场各种背景声的影响,可能使现场实际使用的识别效果变差。
[0005]由于是公共区域门禁,多人共用。如果单纯考虑到某些人的识别效果不好,增加相关人员样本,可能出现样本不平衡的情况,导致个别人员识别准确率提升的同时,降低了整体用户的识别准确率。如何合理使用多人的不同训练文本也是问题。
[0006]门禁使用必须考虑到用户体验,安全性。如果为每个人设定统一的比对语音密码不安全,而且识别准确率也不一定好。如何选择语音密码长度和比对策略行业中也没有有效的方法。
[0007]基于以上原因,本专利技术设计了复合生理特征识别中智能语音门禁训练文本的生成方法及系统,从而选择最佳语音密码,并快速有效优化语音预训练模型,从而提高噪声环境下,公共场所语音门禁识别准确度。

技术实现思路

[0008]本专利技术的目的是克服现有技术的不足,提供复合生理特征识别中智能语音门禁训练文本的生成方法及系统,从而选择最佳语音密码,并快速有效优化语音预训练模型,从而提高噪声环境下,公共场所语音门禁识别准确度。
[0009]为了达到上述目的,本专利技术提供复合生理特征识别中智能语音门禁训练文本的生成方法,包括以下步骤:
采集用户现场语音,作为语音ASR(Automatic Speech Recognition)识别以及VPR(Voice Print Recognition)识别的语音对象,并经过筛选后,可能成为语音VPR训练模块的训练文本;采用RNN作为ASR语音识别模型,通过对模型训练,获得模型参数,并将模型参数发给语音ASR识别模块;采用语音ASR识别技术判断用户所说语音密码是否正确;采用多门禁、多社区语音ASR识别结果数据融合技术,动态决策门禁密码长度,并生成相应长度备选密码供用户选择;采用CNN卷积神经网络ResNet模型作为VPR语音识别模型,通过对模型训练,获得模型参数,并将型参数发给语音VPR识别模块;采用语音VPR识别技术判断语音密码是否为用户本人所说,结合其它生理特征识别结果,判断语音VPR识别结果是否正确;采用反馈方式,基于提升语音VPR识别率,对用户提交手机语音、现场采集语音进行动态混合,生成VPR识别语音训练文本,从而优化VPR语音参数。
[0010]方法还包括将ASR、VPR识别相结合,具体为:用户从多个备选语音密码中选择个人语音密码,利用ASR语音识别方式判断用户对门禁所说密码是否正确;利用VPR声纹识别方式判断密码陈述人是否为用户本人,双重验证提升安全性。
[0011]方法还包括采用多个社区、不同长度的备选语音密码的整体ASR识别率来评估密码识别情况,由此为密码更新时密码选择、密码长度设定提供依据。
[0012]对采用多个社区、不同长度的备选语音密码的整体ASR识别率数据进行融合,根据融合结果筛选出训练文本数据包括:分别获取每个社区,每种长度密码整体识别率,对识别率进行加权平均后求得最佳密码长度;根据最佳密码长度,选择达到目标识别率阈值、字长为最佳密码长度的密码作为用户推荐备选密码,并达到要求的最少备选密码个数,如果个数不够,通过ASR训练模型训练更多该字长的密码备选;最佳密码长度codeLength公式如下:j代表密码序号,、、分别代表第j个4字、5字、6字密码识别率,相应、、分别代表第j个4字、5字、6字密码在所有社区正确识别总人数;
[0013][0014];备选密码选择方式:待选密码满足:或或>acc_threshold
[0015][0016]。
[0017]VPR语音识别模型采用ResNet

50结构,输出采用一个平均池化层、一个全连接层,在全连接层中使用dropout训练神经网络训练模型,以预防过度拟合。
[0018]结合其它生理特征识别结果,判断语音VPR识别结果,具体为:在门禁安装社区的关键出入口安装多生理特征识别门禁,支持语音、人脸、指纹识别方式,采集语音VPR识别不通过情况,比对其它生理特征识别的结果,对VPR识别失败人员做标记,并保存识别失败的现场语音文本,供VPR模型优化训练选用。
[0019]对用户提交手机语音的处理为:用户利用手机应用,可以从多个不同内容、不同长度的备选密码文本中选择自己的门禁密码,并且通过手机录音3次提交该文本的语音,作为VPR识别预训练模型的训练语音样本。
[0020]对用户提交手机语音、现场采集语音进行动态混合,生成VPR识别语音训练文本,从而优化VPR语音参数,具体为:根据比对其它生理特征识别结果,可知某用户的VPR识别率,当识别率低于阈值,需要对手机语音训练的VPR预训练进行优化;为增加训练样本的有效性,减少样本数量,提高训练速度,减少过拟合现象,选择雷声、风声、雨声、机动车、环境背景语音作为常见的五种语音噪声,对保存的识别失败的现场语音文本进行识别;根据VPR识别准确率vprAcci的取值,按照下式计算i用户训练样本增加的百分比:
[0021]采用MFCC、1D CNN、LSTM相结合的方式,利用分类方法,区分五种语音噪声,并将含有这些噪声的现场语音作为VPR模型的添加训练样本,进行再训练,优化模型参数。
[0022]复合生理特征识别中智能语音门禁训练文本的生成系统,包括:门禁语音采集模块,用于采集用户现场语音,作为语音ASR识别以及VPR识别的语音对象,并经过筛选后,可能成为语音VPR训练模块的训练文本,用于调优VPR语音识别模型;其它生理特征标识模块,用于配合语音识别做用户身份标识,从而知道特定用户语音识别是否正确;语音ASR识别模块,用于判断用户所说语音密码是否正确;语音密码生成模块,用于动态生成、保存可供用户选择的密码;语音ASR训练模块,用于完成语音ASR模型训练,获得模型参数,并将模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,包括以下步骤:采集用户现场语音,作为语音ASR识别以及VPR识别的语音对象,并经过筛选后,可能成为语音VPR训练模块的训练文本;采用RNN作为ASR语音识别模型,通过对模型训练,获得模型参数,并将模型参数发给语音ASR识别模块;采用语音ASR识别技术判断用户所说语音密码是否正确;采用多门禁、多社区语音ASR识别结果数据融合技术,动态决策门禁密码长度,并生成相应长度备选密码供用户选择;采用CNN卷积神经网络ResNet模型作为VPR语音识别模型,通过对模型训练,获得模型参数,并将型参数发给语音VPR识别模块;采用语音VPR识别技术判断语音密码是否为用户本人所说,结合其它生理特征识别结果,判断语音VPR识别结果是否正确;采用反馈方式,基于提升语音VPR识别率,对用户提交手机语音、现场采集语音进行动态混合,生成VPR识别语音训练文本,从而优化VPR语音参数。2.根据权利要求1所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,所述方法还包括将ASR、VPR识别相结合,具体为:用户从多个备选语音密码中选择个人语音密码,利用ASR语音识别方式判断用户对门禁所说密码是否正确;利用VPR声纹识别方式判断密码陈述人是否为用户本人,双重验证提升安全性。3.根据权利要求2所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,所述方法还包括采用多个社区、不同长度的备选语音密码的整体ASR识别率来评估密码识别情况,由此为密码更新时密码选择、密码长度设定提供依据。4.根据权利要求3所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,对所述采用多个社区、不同长度的备选语音密码的整体ASR识别率数据进行融合,根据融合结果筛选出训练文本数据包括:分别获取每个社区,每种长度密码整体识别率,对识别率进行加权平均后求得最佳密码长度;根据所述最佳密码长度,选择达到目标识别率阈值、字长为最佳密码长度的密码作为用户推荐备选密码,并达到要求的最少备选密码个数,如果个数不够,通过ASR训练模型训练更多该字长的密码备选;最佳密码长度codeLength公式如下:j代表密码序号,acc4
j
、acc5
j
、acc6
j
分别代表第j个4字、5字、6字密码识别率,相应n4
j
、n5
j
、n6
j
分别代表第j个4字、5字、6字密码在所有社区正确识别总人数;6字密码在所有社区正确识别总人数;codeLength=int(codeLength+0.5),int代表取整,且取值范围4、5、6;
备选密码选择方式:待选密码满足:acc4
j
或acc5
j
或acc6
j
>acc_threshold#ean=avg(acc5
j
)其中:avg为计算平均值;σ=+ig#a(acc5
j
)其中:s...

【专利技术属性】
技术研发人员:竺春何敏
申请(专利权)人:桑田智能技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1