一种自适应端点检测的语音识别方法与系统、智能设备技术方案

技术编号:26036840 阅读:30 留言:0更新日期:2020-10-23 21:15
本发明专利技术涉及一种自适应端点检测的语音识别方法与系统、智能设备,其中,语音识别方法包括,构建不同强度等级的环境声音;在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,进行端点检测;根据每个测试音频数据的端点检测阈值‑端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值,汇总得到环境声音强度与端点检测阈值的映射表;获取环境声音强度;根据获取的环境声音强度,从映射表中,得到对应的端点检测阈值;对音频数据进行端点检测,然后进行语音识别。可以较好的适应当前的环境噪声,使得端点检测更加准确,语音识别的准确率较高且不受环境噪声的影响。

【技术实现步骤摘要】
一种自适应端点检测的语音识别方法与系统、智能设备
本专利技术涉及人工智能领域,特别是涉及一种自适应端点检测的语音识别方法与系统、智能设备。
技术介绍
随着语音识别技术的不断发展,语音识别技术在越来越多的场景中得到了应用。比如,在银行、通信运营商营业厅、行政服务大厅、商场等的网点/场所内,或者电话会议系统等场景下,需要根据音频信息,来进行相应的操控,例如,排队取号、办理具体业务、确定发言人等等。在进行语音识别时,对于采集得到的音频数据,一般需要先进行端点检测,以识别出说话的片段,再交给处理器或者语音识别引擎进行语音识别。如此,可以避免无效声音数据对存储空间、处理器等资源的占用,避免了资源的浪费,降低了系统开销。传统的语音端点检测技术,主要是基于特征提取的方案,首先从音频信号中提取一个特征参数,比如短时能量值、过零率等时域/频域上的相关特征参数;然后与预设设置的阈值进行比较,如果超过阈值,则判断为语音。这些特征参数的阈值一般会被设定为固定值。如果特征参数的阈值设置得过低,就可能会有很多无效的音频数据被用于后续的语音识别,影响语音识别效率、准确率;并且,因为处理了额外的、无效的音频数据,增大了系统开销。如果特征参数的阈值设置得过高,可能会滤除部分有效的音频数据,降低了语音识别准确率。因此,现有端点检测的方案,不能有效的匹配录音设备所在的环境,导致在不同环境噪音下的语音识别结果相差比较大,语音识别的准确率不稳定,尤其是在非平稳和复杂噪音环境下,语音识别准确率较低。
技术实现思路
<br>基于此,有必要针对现有端点检测方案存在的不同环境噪音下的语音识别结果相差比较大,语音识别的准确率不稳定的问题,提供一种自适应端点检测的语音识别方法与系统、智能设备。本申请一实施例提供了一种自适应端点检测的语音识别方法,包括:构建不同强度等级的环境声音;在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,每个测试音频数据对应一个强度等级的环境声音,每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据;对每个测试音频数据进行端点检测,得到该测试音频数据的端点检测阈值-端点检测结果的曲线;获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值;汇总所有强度等级的环境声音下的端点检测值,得到环境声音强度与端点检测阈值的映射表;获取环境声音强度;根据获取的环境声音强度,从环境声音强度与端点检测阈值的映射表中,得到对应的端点检测阈值;获取音频数据,利用得到的端点检测阈值,对音频数据进行端点检测;对端点检测后的音频数据,进行语音识别。在一些实施例中,所述获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值步骤,具体包括:获取端点检测结果的参考值,根据端点检测结果的参考值,构建端点检测结果参考区域;根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果参考区域的交叉区域,确定对应强度等级的环境声音下的端点检测阈值。在一些实施例中,所述获取环境声音强度步骤,具体包括:定时获取预设时间段内的环境声音强度;对预设时间段内的环境声音强度进行统计,得到环境声音强度。在一些实施例中,所述端点检测结果的参考值通过测试确定,具体为:采集慢速、正常语速和快速三种语速下的对话音频;统计其中无对话内容的时间段,并按照正态分布的形式,计算出3倍标准差位置的时间段的最小值,根据该时间段的最小值与端点检测的最小时间间隔的比值,确定端点检测结果的参考值。在一些实施例中,在所述获取环境声音强度步骤之前,还包括:判断是否有用户,当判断有用户时,才获取环境声音强度。在一些实施例中,所述端点检测阈值为音量阈值。本申请另一实施例提供了一种自适应端点检测的语音识别系统,包括:环境声音构建模块,用于构建不同强度等级的环境声音;测试音频数据获取模块,用于在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,每个测试音频数据对应一个强度等级的环境声音,每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据;第一端点检测模块,用于对每个测试音频数据进行端点检测,得到该测试音频数据的端点检测阈值-端点检测结果的曲线;阈值计算模块,用于获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值;阈值映射表模块,用于汇总所有强度等级的环境声音下的端点检测值,得到环境声音强度与端点检测阈值的映射表;环境声音检测模块,用于获取环境声音强度;端点检测阈值确定模块,用于根据获取的环境声音强度,从环境声音强度与端点检测阈值的映射表中,得到对应的端点检测阈值;第二端点检测模块,用于获取音频数据,利用得到的端点检测阈值,对音频数据进行端点检测;语音识别模块,用于对端点检测后的音频数据,进行语音识别。在一些实施例中,还可以包括用户检测模块,用于判断是否有用户,当判断有用户时,触发环境声音检测模块获取环境声音强度。本申请一实施例还提供了一种智能设备,包含前述任一项实施例所述的自适应端点检测的语音识别系统。本申请另一实施例还提供了一种机器可读存储介质,其上存储有计算机程序,所述计算机程序在由处理器执行时实现前述任一项实施例所述的自适应端点检测的语音识别方法。本申请实施例提供的自适应端点检测的语音识别方案,可以根据当前的环境声音强度,自动匹配出对应的端点检测阈值,由此可以较好的适应当前的环境噪声,使得端点检测更加准确,语音识别的准确率较高且不受环境噪声的影响,即使在非平稳和复杂噪音环境下也可以得到相同准确率的语音识别结果。附图说明图1为本申请一实施例的语音识别方法的流程示意图;图2为本申请另一实施例的语音识别方法的流程示意图;图3为本申请一实施例中一个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果参考区域的示意图;图4本申请一实施例的语音识别系统的框架结构示意图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施方式及实施方式中的特征可以相互组合。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本专利技术。如图1所示,本申请一实施例公开了一种自适应端点检测的语音识别方法,包括:本文档来自技高网
...

【技术保护点】
1.一种自适应端点检测的语音识别方法,其特征在于,包括:/n构建不同强度等级的环境声音;/n在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,每个测试音频数据对应一个强度等级的环境声音,每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据;/n对每个测试音频数据进行端点检测,得到该测试音频数据的端点检测阈值-端点检测结果的曲线;/n获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值;/n汇总所有强度等级的环境声音下的端点检测值,得到环境声音强度与端点检测阈值的映射表;/n获取环境声音强度;/n根据获取的环境声音强度,从环境声音强度与端点检测阈值的映射表中,得到对应的端点检测阈值;/n获取音频数据,利用得到的端点检测阈值,对音频数据进行端点检测;/n对端点检测后的音频数据,进行语音识别。/n

【技术特征摘要】
1.一种自适应端点检测的语音识别方法,其特征在于,包括:
构建不同强度等级的环境声音;
在每个强度等级的环境声音下,播放测试声源,采集得到测试音频数据,每个测试音频数据对应一个强度等级的环境声音,每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据;
对每个测试音频数据进行端点检测,得到该测试音频数据的端点检测阈值-端点检测结果的曲线;
获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值;
汇总所有强度等级的环境声音下的端点检测值,得到环境声音强度与端点检测阈值的映射表;
获取环境声音强度;
根据获取的环境声音强度,从环境声音强度与端点检测阈值的映射表中,得到对应的端点检测阈值;
获取音频数据,利用得到的端点检测阈值,对音频数据进行端点检测;
对端点检测后的音频数据,进行语音识别。


2.根据权利要求1所述的自适应端点检测的语音识别方法,其特征在于,所述获取端点检测结果的参考值,根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值,确定对应强度等级的环境声音下的端点检测阈值步骤,具体包括:
获取端点检测结果的参考值,根据端点检测结果的参考值,构建端点检测结果参考区域;
根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果参考区域的交叉区域,确定对应强度等级的环境声音下的端点检测阈值。


3.根据权利要求1所述的自适应端点检测的语音识别方法,其特征在于,所述获取环境声音强度步骤,具体包括:定时获取预设时间段内的环境声音强度;对预设时间段内的环境声音强度进行统计,得到环境声音强度。


4.根据权利要求1所述的自适应端点检测的语音识别方法,其特征在于,所述端点检测结果的参考值通过测试确定,具体为:采集慢速、正常语速和快速三种语速下的对话音频;统计其中无对话内容的时间段,并按照正态分布的形式,计算出3倍标准差位置的时间段的最小值,根据该时间段的最小值与端点检测的最小时间间隔的比值,确定端...

【专利技术属性】
技术研发人员:肖积涛耿士顶孙非凡
申请(专利权)人:南京奥拓电子科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1