【技术实现步骤摘要】
复合生理特征识别中智能语音门禁训练文本的生成方法及系统
[0001]本专利技术涉及智能语音
,尤其涉及复合生理特征识别中智能语音门禁训练文本的生成方法及系统。
技术介绍
[0002]语音识别门禁,如果安装在公共区域(如小区、办公楼),由于环境噪音影响,造成识别率低,使其应用推广受到很大制约,在研究界和行业界都引起了极大关注。
[0003]语音门禁训练文本的采集困难,在实际应用中如果让所有用户都到设备安装现场进行训练语音采集,不但现场工作人员工作量大,而且用户接受度和配合度也很低,无法有效采集训练文本;如果通过手机或其它便携设备采集,又会碰到采集设备与现场使用的语音比对设备(门禁)不一致,导致语音识别率低。现场门禁语音训练文本采集后,标注不方便,而且由于受限于现场条件,即使标注,也很容易出错。
[0004]在实现本专利技术过程中,专利技术人发现在语音识别门禁相关技术中至少存在如下问题:训练语音文本的采集最好通过现场语音比对设备采集,但用户一般觉得现场采集语音不方便,接受度低。另外,由于现场采集人员所处角度、距离设备远近等因素都会影响采集语音清晰度。现场训练语音样本的标注也缺乏高效自动化的处理方式。现场采集的训练语音文本单纯进行降噪处理,而不考虑现场各种背景声的影响,可能使现场实际使用的识别效果变差。
[0005]由于是公共区域门禁,多人共用。如果单纯考虑到某些人的识别效果不好,增加相关人员样本,可能出现样本不平衡的情况,导致个别人员识别准确率提升的同时,降低了整体用户的识别准确率。如何合理 ...
【技术保护点】
【技术特征摘要】
1.复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,包括以下步骤:采集用户现场语音,作为语音ASR识别以及VPR识别的语音对象,并经过筛选后,可能成为语音VPR训练模块的训练文本;采用RNN作为ASR语音识别模型,通过对模型训练,获得模型参数,并将模型参数发给语音ASR识别模块;采用语音ASR识别技术判断用户所说语音密码是否正确;采用多门禁、多社区语音ASR识别结果数据融合技术,动态决策门禁密码长度,并生成相应长度备选密码供用户选择;采用CNN卷积神经网络ResNet模型作为VPR语音识别模型,通过对模型训练,获得模型参数,并将型参数发给语音VPR识别模块;采用语音VPR识别技术判断语音密码是否为用户本人所说,结合其它生理特征识别结果,判断语音VPR识别结果是否正确;采用反馈方式,基于提升语音VPR识别率,对用户提交手机语音、现场采集语音进行动态混合,生成VPR识别语音训练文本,从而优化VPR语音参数。2.根据权利要求1所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,所述方法还包括将ASR、VPR识别相结合,具体为:用户从多个备选语音密码中选择个人语音密码,利用ASR语音识别方式判断用户对门禁所说密码是否正确;利用VPR声纹识别方式判断密码陈述人是否为用户本人,双重验证提升安全性。3.根据权利要求2所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,所述方法还包括采用多个社区、不同长度的备选语音密码的整体ASR识别率来评估密码识别情况,由此为密码更新时密码选择、密码长度设定提供依据。4.根据权利要求3所述的复合生理特征识别中智能语音门禁训练文本的生成方法,其特征在于,对所述采用多个社区、不同长度的备选语音密码的整体ASR识别率数据进行融合,根据融合结果筛选出训练文本数据包括:分别获取每个社区,每种长度密码整体识别率,对识别率进行加权平均后求得最佳密码长度;根据所述最佳密码长度,选择达到目标识别率阈值、字长为最佳密码长度的密码作为用户推荐备选密码,并达到要求的最少备选密码个数,如果个数不够,通过ASR训练模型训练更多该字长的密码备选;最佳密码长度codeLength公式如下:j代表密码序号,acc4
j
、acc5
j
、acc6
j
分别代表第j个4字、5字、6字密码识别率,相应n4
j
、n5
j
、n6
j
分别代表第j个4字、5字、6字密码在所有社区正确识别总人数;6字密码在所有社区正确识别总人数;codeLength=int(codeLength+0.5),int代表取整,且取值范围4、5、6;
备选密码选择方式:待选密码满足:acc4
j
或acc5
j
或acc6
j
>acc_threshold#ean=avg(acc5
j
)其中:avg为计算平均值;σ=+ig#a(acc5
j
)其中:s...
【专利技术属性】
技术研发人员:竺春,何敏,
申请(专利权)人:桑田智能技术上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。