语音识别方法及相关装置、电子设备和存储介质制造方法及图纸

技术编号:39430841 阅读:11 留言:0更新日期:2023-11-19 16:15
本申请公开了一种语音识别方法及相关装置、电子设备和存储介质,其中,语音识别方法包括:提取待识别音频段的音频特征,并基于音频特征进行识别,得到各时间步的后验概率分布;其中,每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值,且待识别音频段的识别文本由各时间步的后验概率分布得到;再获取后验概率分布的平滑度,并基于平滑度,确定拒识待识别音频段或输出识别文本。上述方案,能够增强对噪声的拒识能力,以尽可能提升语音识别的准确性。以尽可能提升语音识别的准确性。以尽可能提升语音识别的准确性。

【技术实现步骤摘要】
语音识别方法及相关装置、电子设备和存储介质


[0001]本申请涉及音频数据处理
,特别是涉及一种语音识别方法及相关装置、电子设备和存储介质。

技术介绍

[0002]如今,语音识别技术已经被广泛应用于各种人机交互场景,如语音助手、语音搜索、语音输入法等。而相较于传统语音识别,端到端语音识别框架,逐渐成为一种趋势,即直接将音频序列转化为文本序列。
[0003]然而,说话过程中通常并非全程均是有效语音,还可能存在诸如噪声等无效音频。然而,现有技术在识别过程中,不仅对有效语音进行识别并输出,也会误识别噪音等无效音频并输出,对噪声的拒识能力较低,导致语音识别结果的准确性难以保障。有鉴于此,如何增强对噪声的拒识能力,以尽可能提升语音识别的准确性,成为亟待解决的问题。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备和存储介质,能够增强对噪声的拒识能力,以尽可能提升语音识别的准确性。
[0005]为了解决上述技术问题,本申请第一方面提供了一种语音识别方法,包括:提取待识别音频段的音频特征;基于音频特征进行识别,得到各时间步的后验概率分布;其中,每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值,且待识别音频段的识别文本由各时间步的后验概率分布得到;获取后验概率分布的平滑度;基于平滑度,确定拒识待识别音频段或输出识别文本。
[0006]为了解决上述技术问题,本申请第二方面提供了一种语音识别装置,包括提取模块、识别模块、获取模块和确定模块。其中,提取模块用于提取待识别音频段的音频特征;识别模块用于基于音频特征进行识别,得到各时间步的后验概率分布;其中,每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值,且待识别音频段的识别文本由各时间步的后验概率分布得到;获取模块用于获取后验概率分布的平滑度;确定模块用于基于平滑度,确定拒识待识别音频段或输出识别文本。
[0007]为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音识别方法。
[0008]为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的语音识别方法。
[0009]上述方案,通过提取待识别音频段的音频特征,并基于音频特征进行识别,得到各时间步的后验概率分布,每个时间步的后验概率分布包括对应时间步的识别字词属于预设词典中各个预设字词的概率值,且待识别音频段的识别文本由各时间步的后验概率分布得到,再获取后验概率分布的平滑度,基于平滑度,确定拒识待识别音频段或输出识别文本,
一方面基于平滑度,可以在待识别音频段为无效音频的情况下,确定拒识待识别音频,进而尽可能地增强对噪声的拒识能力,另一方面基于平滑度,在确定待识别音频段为有效音频的情况下,再输出待识别音频段的识别文本,进而尽可能地提升语音识别的准确性。此外,相较于在语音识别过程中对音频内容进行识别直接输出识别文本,通过后验概率分布的平滑度,先确定是否拒识待识别音频段,在确定无需进行拒识之后,再输出识别文本,尽可能地增强对噪声的拒识能力,节省资源并提高用户的使用体验。故此,能够增强对噪声的拒识能力,以尽可能提升语音识别的准确性。
[0010]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
[0011]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0012]图1是本申请语音识别方法一实施例的流程示意图;
[0013]图2是音频特征识别过程中一实施例的示意图
[0014]图3(a)是噪声数据一实施例的平滑度分布示意图;
[0015]图3(b)是有效语音数据一实施例的平滑度分布示意图;
[0016]图4(a)是噪声数据另一实施例的平滑度分布示意图;
[0017]图4(b)是有效语音数据另一实施例的平滑度分布示意图;
[0018]图5(a)是噪声数据又一实施例的平滑度分布示意图;
[0019]图5(b)是有效语音数据又一实施例的平滑度分布示意图;
[0020]图6是本申请语音识别装置一实施例的框架示意图;
[0021]图7是本申请电子设备一实施例的框架示意图;
[0022]图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0023]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0024]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0025]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。“若干”表示至少一个。本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0026]请参阅图1,图1是本申请语音识别方法一实施例的流程示意图。
[0027]具体而言,可以包括如下步骤:
[0028]步骤S11:提取待识别音频段的音频特征。
[0029]在一个实施场景中,在提取待识别音频段的音频特征之前,可以先获取待识别音频段,作为一种可能的实施方式,待识别音频段可以通过对目标音频数据进行分段得到,例如,对于目标音频数据可以按照帧长为25ms,帧移为10ms进行分帧,进而得到待识别音频段。具体地,可以基于目标音频数据的能量进行分段,即通过计算相邻两帧之间的能量差值,判断是否发生了突变,从而将目标音频数据分段;或者,可以基于目标音频数据的过零率进行分段,即通过计算相邻两帧之间的过零率,判断是否发生了突变,从而将目标音频数据分段;或者,可以基于目标音频数据的帧能量进行分段,即可以将目标音频数据分成若干个帧,然后计算每一帧的能量,通过比较帧能量与预设阈值的关系,将目标音频数据分段;或者,还可以基于谱减法对目标音频数据进行分段,即先对目标音频数据进行谱减法处理,然后通过比较处理后的目标音频数据与预设阈值的关系,将目标音频数据分段。区别于前述实施方式,可以先获取目标音频数据的识别结果,识别结果表征目标音频数据为语音数据的后验概率,再基于识别结果对目标音频数据进行筛选,得到待识别音频段,具体地,可以基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:提取待识别音频段的音频特征;基于所述音频特征进行识别,得到各时间步的后验概率分布;其中,每个所述时间步的后验概率分布包括对应所述时间步的识别字词属于预设词典中各个预设字词的概率值,且所述待识别音频段的识别文本由所述各时间步的后验概率分布得到;获取所述后验概率分布的平滑度;基于所述平滑度,确定拒识所述待识别音频段或输出所述识别文本。2.根据权利要求1所述的方法,其特征在于,在所述提取待识别音频段的音频特征之前,所述方法还包括:获取目标音频数据的识别结果;其中,所述识别结果表征所述目标音频数据为语音数据的后验概率;基于所述识别结果对所述目标音频数据进行筛选,得到所述待识别音频段。3.根据权利要求1所述的方法,其特征在于,所述获取所述后验概率分布的平滑度,包括:对于每个所述时间步,获取对应所述时间步的后验概率分布中最高所述概率值作为第一概率值,以及所述第一概率值以外按由大到小排序之后位于前预设序位的概率值分别作为第二概率值,并获取所述第一概率值分别与各个所述第二概率值的概率差值;基于所述各个时间步的概率差值,得到所述平滑度。4.根据权利要求3所述的方法,其特征在于,所述基于所述各个时间步的概率差值,得到所述平滑度,包括以下任一者:获取每个所述时间步中所述概率差值的总和值,并获取所述各个时间步各自所述总和值的平均值或所述平均值的平方值,作为所述平滑度;获取所述概率差值的平方值,并获取每个所述时间步中所述平方值的总和值,并获取所述各个时间步各自所述总和值的平均值,作为所述平滑度。5.根据权利要求1所述的方法,其特征在于,在所述基于所述平滑度,确定拒识所述待识别音频段或输出所述识别文本之前,所述方法还包括:获取用于确定是否拒识的判断阈值;所述基于所述平滑度,确定拒识所述待识别音频段或输出所述识别文本,...

【专利技术属性】
技术研发人员:胡今朝欧阳鹏翔吴重亮马志强李永超
申请(专利权)人:安徽讯飞寰语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1