一种语音识别方法、装置、存储介质及设备制造方法及图纸

技术编号：37438763 阅读：18 留言：0更新日期：2023-05-06 09:10

本申请公开了一种语音识别方法、装置、存储介质及设备，该方法包括：首先获取待识别的目标语音，然后通过实时语音活动端点检测的方式，检测其开始帧和结束帧，并根据开始帧和结束帧，确定目标语音中的有效音频段；接着提取有效音频段的音频特征；并根据音频特征对目标语音进行解码，得到初步识别结果；进而根据初步识别结果，自适应动态调整预设的裁剪阈值；并根据调整后的裁剪阈值，对目标语音和初步识别结果进行裁剪，得到目标语音对应的最终识别结果。可见，本申请是先通过实时语音活动端点检测的方式，更为准确的检测出目标语音的开始帧和结束帧，再通过自适应动态调整预设的裁剪阈值，降低噪声裁剪的误触发，从而提高了识别结果的准确率。结果的准确率。结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、存储介质及设备

[0001]本申请涉及语音处理
，尤其涉及一种语音识别方法、装置、存储介质及设备。

技术介绍

[0002]随着人工智能技术的不断突破和各种智能终端设备的日益普及，人机交互在人们日常工作、生活中出现的频率越来越高。语音交互作为下一代人机交互方式，能够为人们的生活带来极大的便利，其中比较重要的是进行语音识别的技术。
[0003]传统的语音识别方法通常是采用语音端点检测(Voice Activity Detection,简称Vad)来检测音频的开始帧和结束帧，再经过神经网络的特征提取后，计算音频声学的帧平均有效状态数，并在解码中根据预先设置的阈值，如果帧平均有效状态数大于设定的搞阈值，则直接拒识不再进行解码，将解码路径MaxPath置为空，表示噪声音频的识别结果为空。但这种语音识别方法存在两个问题：一是通过Vad检测的音频开始帧和结束帧会带有外边距(margin)，不能反映音频真正的开始和结束帧位置；二是在解码过程中帧平均有效状态数的阈值是固定的，不能动态进行调整，导致一部分音频会被当做噪声误裁剪掉。进而会造成语音识别的最终结果不够准确。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种语音识别方法、装置、存储介质及设备，能够在进行语音识别时，有效提高识别结果的准确率。
[0005]本申请实施例提供了一种语音识别方法，包括：
[0006]获取待识别的目标语音；
[0007]通过实时语音活动端点检测的方式，检测所述目标语...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别的目标语音；通过实时语音活动端点检测的方式，检测所述目标语音的开始帧和结束帧，并根据所述开始帧和结束帧，确定所述目标语音中的有效音频段；提取所述目标语音中有效音频段的音频特征；并根据所述音频特征对所述目标语音进行解码，得到初步识别结果；根据所述初步识别结果，自适应动态调整预设的裁剪阈值；并根据调整后的裁剪阈值，对所述目标语音和所述初步识别结果进行裁剪，得到所述目标语音对应的最终识别结果。2.根据权利要求1所述的方法，其特征在于，所述提取所述目标语音中有效音频段的音频特征，包括：将所述目标语音中的有效音频段输入预设的神经网络，以提取所述目标语音中有效音频段的音频特征。3.根据权利要求1所述的方法，其特征在于，所述预设的裁剪阈值包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值；所述第一预设裁剪阈值大于所述第二预设裁剪阈值；所述第二预设裁剪阈值大于所述第三预设裁剪阈值。4.根据权利要求3所述的方法，其特征在于，所述根据所述初步识别结果，自适应动态调整预设的裁剪阈值；并根据调整后的裁剪阈值，对所述目标语音和所述初步解码结果进行裁剪，得到所述目标语音对应的最终识别结果，包括：判断所述初步识别结果中是否包含预设白名单中的词汇；若是，则将所述预设的裁剪阈值调整为所述第一预设裁剪阈值；计算所述目标语音中的有效音频段的帧平均有效状态数，并将不小于所述第一预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪，得到所述目标语音对应的最终识别结果。5.根据权利要求3所述的方法，其特征在于，所述根据所述初步识别结果，自适应动态调整预设的裁剪阈值；并根据调整后的裁剪阈值，对所述目标语音和所述初步解码结果进行裁剪，得到所述目标语音对应的最终识别结果，包括：判断所述初步识别结果中是否包含预设黑名单中的词汇；若是，则将所述预设的裁剪阈值调整为所述第三预设裁剪阈值；计算所述目标语音中的有效音频段的帧平均有效状态数，并将不小于所述第三预设裁剪阈值的帧平均有效状态数对应的有...

【专利技术属性】
技术研发人员：杨省，魏冲洲，付中华，
申请(专利权)人：西安讯飞超脑信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人