一种自适应端点检测的语音识别方法与系统、智能设备技术方案

技术编号：26036840 阅读：30 留言：0更新日期：2020-10-23 21:15

本发明专利技术涉及一种自适应端点检测的语音识别方法与系统、智能设备，其中，语音识别方法包括，构建不同强度等级的环境声音；在每个强度等级的环境声音下，播放测试声源，采集得到测试音频数据，进行端点检测；根据每个测试音频数据的端点检测阈值‑端点检测结果的曲线与端点检测结果的参考值，确定对应强度等级的环境声音下的端点检测阈值，汇总得到环境声音强度与端点检测阈值的映射表；获取环境声音强度；根据获取的环境声音强度，从映射表中，得到对应的端点检测阈值；对音频数据进行端点检测，然后进行语音识别。可以较好的适应当前的环境噪声，使得端点检测更加准确，语音识别的准确率较高且不受环境噪声的影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种自适应端点检测的语音识别方法与系统、智能设备
本专利技术涉及人工智能领域，特别是涉及一种自适应端点检测的语音识别方法与系统、智能设备。
技术介绍
随着语音识别技术的不断发展，语音识别技术在越来越多的场景中得到了应用。比如，在银行、通信运营商营业厅、行政服务大厅、商场等的网点/场所内，或者电话会议系统等场景下，需要根据音频信息，来进行相应的操控，例如，排队取号、办理具体业务、确定发言人等等。在进行语音识别时，对于采集得到的音频数据，一般需要先进行端点检测，以识别出说话的片段，再交给处理器或者语音识别引擎进行语音识别。如此，可以避免无效声音数据对存储空间、处理器等资源的占用，避免了资源的浪费，降低了系统开销。传统的语音端点检测技术，主要是基于特征提取的方案，首先从音频信号中提取一个特征参数，比如短时能量值、过零率等时域/频域上的相关特征参数；然后与预设设置的阈值进行比较，如果超过阈值，则判断为语音。这些特征参数的阈值一般会被设定为固定值。如果特征参数的阈值设置得过低，就可能会有很多无效的音频数据被用于后续的语音识别，影响语音识别效率、准确率；并且，因为处理了额外的、无效的音频数据，增大了系统开销。如果特征参数的阈值设置得过高，可能会滤除部分有效的音频数据，降低了语音识别准确率。因此，现有端点检测的方案，不能有效的匹配录音设备所在的环境，导致在不同环境噪音下的语音识别结果相差比较大，语音识别的准确率不稳定，尤其是在非平稳和复杂噪音环境下，语音识别准确率较低。
技术实现思路
<...

【技术保护点】
1.一种自适应端点检测的语音识别方法，其特征在于，包括：/n构建不同强度等级的环境声音；/n在每个强度等级的环境声音下，播放测试声源，采集得到测试音频数据，每个测试音频数据对应一个强度等级的环境声音，每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据；/n对每个测试音频数据进行端点检测，得到该测试音频数据的端点检测阈值-端点检测结果的曲线；/n获取端点检测结果的参考值，根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值，确定对应强度等级的环境声音下的端点检测阈值；/n汇总所有强度等级的环境声音下的端点检测值，得到环境声音强度与端点检测阈值的映射表；/n获取环境声音强度；/n根据获取的环境声音强度，从环境声音强度与端点检测阈值的映射表中，得到对应的端点检测阈值；/n获取音频数据，利用得到的端点检测阈值，对音频数据进行端点检测；/n对端点检测后的音频数据，进行语音识别。/n

【技术特征摘要】
1.一种自适应端点检测的语音识别方法，其特征在于，包括：
构建不同强度等级的环境声音；
在每个强度等级的环境声音下，播放测试声源，采集得到测试音频数据，每个测试音频数据对应一个强度等级的环境声音，每个测试音频数据包括定向增强角度下采集的定向音频数据和非定向增强角度下采集的非定向音频数据；
对每个测试音频数据进行端点检测，得到该测试音频数据的端点检测阈值-端点检测结果的曲线；
获取端点检测结果的参考值，根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值，确定对应强度等级的环境声音下的端点检测阈值；
汇总所有强度等级的环境声音下的端点检测值，得到环境声音强度与端点检测阈值的映射表；
获取环境声音强度；
根据获取的环境声音强度，从环境声音强度与端点检测阈值的映射表中，得到对应的端点检测阈值；
获取音频数据，利用得到的端点检测阈值，对音频数据进行端点检测；
对端点检测后的音频数据，进行语音识别。

2.根据权利要求1所述的自适应端点检测的语音识别方法，其特征在于，所述获取端点检测结果的参考值，根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果的参考值，确定对应强度等级的环境声音下的端点检测阈值步骤，具体包括：
获取端点检测结果的参考值，根据端点检测结果的参考值，构建端点检测结果参考区域；
根据每个测试音频数据的端点检测阈值-端点检测结果的曲线与端点检测结果参考区域的交叉区域，确定对应强度等级的环境声音下的端点检测阈值。

3.根据权利要求1所述的自适应端点检测的语音识别方法，其特征在于，所述获取环境声音强度步骤，具体包括：定时获取预设时间段内的环境声音强度；对预设时间段内的环境声音强度进行统计，得到环境声音强度。

4.根据权利要求1所述的自适应端点检测的语音识别方法，其特征在于，所述端点检测结果的参考值通过测试确定，具体为：采集慢速、正常语速和快速三种语速下的对话音频；统计其中无对话内容的时间段，并按照正态分布的形式，计算出3倍标准差位置的时间段的最小值，根据该时间段的最小值与端点检测的最小时间间隔的比值，确定端...

【专利技术属性】
技术研发人员：肖积涛，耿士顶，孙非凡，
申请(专利权)人：南京奥拓电子科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人