语音识别方法及相关装置、电子设备和存储介质制造方法及图纸

技术编号：39430841 阅读：11 留言：0更新日期：2023-11-19 16:15

本申请公开了一种语音识别方法及相关装置、电子设备和存储介质，其中，语音识别方法包括：提取待识别音频段的音频特征，并基于音频特征进行识别，得到各时间步的后验概率分布；其中，每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值，且待识别音频段的识别文本由各时间步的后验概率分布得到；再获取后验概率分布的平滑度，并基于平滑度，确定拒识待识别音频段或输出识别文本。上述方案，能够增强对噪声的拒识能力，以尽可能提升语音识别的准确性。以尽可能提升语音识别的准确性。以尽可能提升语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法及相关装置、电子设备和存储介质

[0001]本申请涉及音频数据处理
，特别是涉及一种语音识别方法及相关装置、电子设备和存储介质。

技术介绍

[0002]如今，语音识别技术已经被广泛应用于各种人机交互场景，如语音助手、语音搜索、语音输入法等。而相较于传统语音识别，端到端语音识别框架，逐渐成为一种趋势，即直接将音频序列转化为文本序列。
[0003]然而，说话过程中通常并非全程均是有效语音，还可能存在诸如噪声等无效音频。然而，现有技术在识别过程中，不仅对有效语音进行识别并输出，也会误识别噪音等无效音频并输出，对噪声的拒识能力较低，导致语音识别结果的准确性难以保障。有鉴于此，如何增强对噪声的拒识能力，以尽可能提升语音识别的准确性，成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备和存储介质，能够增强对噪声的拒识能力，以尽可能提升语音识别的准确性。
[0005]为了解决上述技术问题，本申请第一方面提供了一种语音识别方法，包括：提取待识别音频段的音频特征；基于音频特征进行识别，得到各时间步的后验概率分布；其中，每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值，且待识别音频段的识别文本由各时间步的后验概率分布得到；获取后验概率分布的平滑度；基于平滑度，确定拒识待识别音频段或输出识别文本。
[0006]为了解决上述技术问题，本申请第二方面提供了一种语音识别装置，包括提取模块、识别...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：提取待识别音频段的音频特征；基于所述音频特征进行识别，得到各时间步的后验概率分布；其中，每个所述时间步的后验概率分布包括对应所述时间步的识别字词属于预设词典中各个预设字词的概率值，且所述待识别音频段的识别文本由所述各时间步的后验概率分布得到；获取所述后验概率分布的平滑度；基于所述平滑度，确定拒识所述待识别音频段或输出所述识别文本。2.根据权利要求1所述的方法，其特征在于，在所述提取待识别音频段的音频特征之前，所述方法还包括：获取目标音频数据的识别结果；其中，所述识别结果表征所述目标音频数据为语音数据的后验概率；基于所述识别结果对所述目标音频数据进行筛选，得到所述待识别音频段。3.根据权利要求1所述的方法，其特征在于，所述获取所述后验概率分布的平滑度，包括：对于每个所述时间步，获取对应所述时间步的后验概率分布中最高所述概率值作为第一概率值，以及所述第一概率值以外按由大到小排序之后位于前预设序位的概率值分别作为第二概率值，并获取所述第一概率值分别与各个所述第二概率值的概率差值；基于所述各个时间步的概率差值，得到所述平滑度。4.根据权利要求3所述的方法，其特征在于，所述基于所述各个时间步的概率差值，得到所述平滑度，包括以下任一者：获取每个所述时间步中所述概率差值的总和值，并获取所述各个时间步各自所述总和值的平均值或所述平均值的平方值，作为所述平滑度；获取所述概率差值的平方值，并获取每个所述时间步中所述平方值的总和值，并获取所述各个时间步各自所述总和值的平均值，作为所述平滑度。5.根据权利要求1所述的方法，其特征在于，在所述基于所述平滑度，确定拒识所述待识别音频段或输出所述识别文本之前，所述方法还包括：获取用于确定是否拒识的判断阈值；所述基于所述平滑度，确定拒识所述待识别音频段或输出所述识别文本，...

【专利技术属性】
技术研发人员：胡今朝，欧阳鹏翔，吴重亮，马志强，李永超，
申请(专利权)人：安徽讯飞寰语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人