语音识别方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:34328365 阅读:20 留言:0更新日期:2022-07-31 01:35
本申请公开了一种语音识别方法、装置、电子设备和可读存储介质,属于人工智能技术领域。其中,所述方法包括:对目标音频进行分频处理,得到目标帧;获取目标帧的采样点的最大值;在连续a1个目标帧的采样点的最大值均小于第一阈值的情况下,将连续a1个目标帧确定为一个间隙帧子序列,连续的N1个间隙帧子序列为一个间隙帧序列,a1、N1均为正整数;在连续a2个目标帧中,至少有一个目标帧的采样点的最大值大于或者等于第一阈值的情况下,将连续a2个目标帧确定为一个语音帧子序列,a2、N2均为正整数,连续的N2个语音帧子序列为一个语音帧序列;根据静音段、间隙帧序列和语音帧序列,确定截断位置;识别与截断位置相关联的目标帧。识别与截断位置相关联的目标帧。识别与截断位置相关联的目标帧。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和可读存储介质


[0001]本申请属于人工智能
,具体涉及一种语音识别方法、装置、电子设备和可读存储介质。

技术介绍

[0002]目前,语音识别分为流式识别和非流式识别,流式识别是指:在用户说话的时候便进行语音识别;非流式识别是指:用户说完一句话或者一段话之后再进行识别。流式识别因为其延迟低的特点,能够给用户带来更好的体验,应用也更为广泛。
[0003]流式识别过程为:对于一条音频“某国崛起”,用户在说“某国”的时候,音频段达到预设值(如500ms),识别到的结果是“某国”;重新计时,当用户继续说“崛”的时候,音频段再次达到500ms,识别到的结果是“崛”;以此类推,直至完成整段音频的识别。在流式识别的过程中,是以固定时长作为识别单位来依次完成多次识别的,因此,很有可能出现的现象为:用户所说的某个字刚好出现在两个固定时长的边界处,如第一个500ms的结束处,以及第二个500ms的开始处,从而使得这个字的音频被拆分,进而导致无法准确识别这个字。
[0004]可见,现有技术中的流式语音识别的准确率较低。

技术实现思路

[0005]本申请实施例的目的是提供一种语音识别方法,能够解决现有技术中的流式语音识别的准确率较低的问题。
[0006]第一方面,本申请实施例提供了一种语音识别方法,该方法包括:对目标音频进行分频处理,得到目标帧;获取所述目标帧的采样点的最大值;在连续a1个目标帧的采样点的最大值均小于第一阈值的情况下,将所述连续a1个目标帧确定为一个间隙帧子序列,连续的N1个间隙帧子序列为一个间隙帧序列,a1、N1均为正整数;在连续a2个目标帧中,至少有一个目标帧的采样点的最大值大于或者等于所述第一阈值的情况下,将所述连续a2个目标帧确定为一个语音帧子序列,a2、N2均为正整数,连续的N2个语音帧子序列为一个语音帧序列;根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置;识别与所述截断位置相关联的目标帧。
[0007]第二方面,本申请实施例提供了一种语音识别装置,该装置包括:分帧模块,用于对目标音频进行分频处理,得到目标帧;获取模块,用于获取所述目标帧的采样点的最大值;第一确定模块,用于在连续a1个目标帧的采样点的最大值均小于第一阈值的情况下,将所述连续a1个目标帧确定为一个间隙帧子序列,连续的N1个间隙帧子序列为一个间隙帧序列,a1、N1均为正整数;第二确定模块,用于在连续a2个目标帧中,至少有一个目标帧的采样点的最大值大于或者等于所述第一阈值的情况下,将所述连续a2个目标帧确定为一个语音帧子序列,a2、N2均为正整数,连续的N2个语音帧子序列为一个语音帧序列;第三确定模块,用于根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置;识别模块,用于识别与所述截断位置相关联的目标帧。
[0008]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0009]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0010]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0011]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0012]这样,在本申请的实施例中,在接收到目标音频的情况下,实时地对接收到音频数据进行分帧处理,以得到连续的目标帧。进一步地,将连续的多个目标帧作为一个判断单位,以判断多个目标帧的采样点的最大值是否均小于第一阈值,若满足判断条件,则将多个(a1个)目标帧作为一个间隙帧子序列;可以基于上述判断方法,将连续出现的N1个间隙帧子序列作为一个间隙帧序列,用于表示用户说话时的换气动作。反之,将连续的多个目标帧作为一个判断单位,以判断多个目标帧的采样点的最大值是否有大于或者等于第一阈值的,若满足判断条件,则将多个(a2个)目标帧作为一个语音帧子序列;可以基于上述判断方法,将连续出现的N2个语音帧子序列作为一个语音帧序列,用于表示用户所说的语音信号。从而,在进行实时音频识别时,在已知间隙帧序列、语音帧序列和静音段的基础上确定截断位置,并对截断位置之前的目标帧进行识别,可以使得截断位置避开语音帧序列的区间,从而确保不会将一个字的发音被拆分在两次识别中。可见,基于本申请的实施例,在流式识别过程中,可以提高语音识别的准确率。
附图说明
[0013]图1是本申请实施例的语音识别方法的流程图;
[0014]图2至图5是本申请实施例的目标音频的波形图;
[0015]图6是本申请实施例的语音识别装置的框图;
[0016]图7是本申请实施例的电子设备的硬件结构示意图之一;
[0017]图8是本申请实施例的电子设备的硬件结构示意图之二。
具体实施方式
[0018]下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0019]本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,
一般表示前后关联对象是一种“或”的关系。
[0020]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音识别方法进行详细地说明。
[0021]图1示出了本申请一个实施例的语音识别方法的流程图,该方法应用于电子设备,包括:
[0022]步骤110:对目标音频进行分频处理,得到目标帧。
[0023]在该步骤之前,还包括步骤:接收输入,响应于该输入,接收目标音频。
[0024]应用场景如,用户长按设备上的语音识别按钮,开始接收目标音频。
[0025]可选地,由麦克风接收目标音频。
[0026]在该步骤中,实时对接收到音频数据进行分帧处理,以得到目标帧。
[0027]需要说明的是,本申请适用于流式语音识别,对应地,目标音频用于指示当前接收到音频。其中,随着接收到音频数据逐渐增多,待处理的音频数据随之更新,得到的目标帧也逐渐增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:对目标音频进行分频处理,得到目标帧;获取所述目标帧的采样点的最大值;在连续a1个目标帧的采样点的最大值均小于第一阈值的情况下,将所述连续a1个目标帧确定为一个间隙帧子序列,连续的N1个间隙帧子序列为一个间隙帧序列,a1、N1均为正整数;在连续a2个目标帧中,至少有一个目标帧的采样点的最大值大于或者等于所述第一阈值的情况下,将所述连续a2个目标帧确定为一个语音帧子序列,a2、N2均为正整数,连续的N2个语音帧子序列为一个语音帧序列;根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置;识别与所述截断位置相关联的目标帧。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置,包括:在检测到的语音帧序列的个数满足第二阈值的情况下,在最后一个语音帧序列相邻的下一个间隙帧序列所在区间确定截断位置;其中,与所述截断位置相关联的目标帧包括:所述检测到连续的语音帧序列中的目标帧,以及,所述检测到连续的语音帧序列之间间隔的间隙帧序列中的目标帧。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置,包括:在依次检测到第一语音帧序列、第一静音段的情况下,在所述第一静音段所在区间确定截断位置;其中,与所述截断位置相关联的目标帧包括:第一语音段中的目标帧,所述第一语音段包括所述第一语音帧序列。4.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频的静音段、所述目标音频的间隙帧序列和所述目标音频的语音帧序列,确定截断位置,包括:在第二语音帧序列的下一时刻检测到目标输入的情况下,在所述第二语音帧序列的下一时刻对应区间确定截断位置,所述目标输入用于停止接收所述目标音频;其中,与所述截断位置相关联的目标帧包括:所述第二语音段中的目标帧,所述第二语音段包括所述第二语音帧序列。5.一种语音识别装置,其特征在于,所述装置包括:分频模块,用于对目标音频进行分频处理,得到目标帧;获取模块,用于获取所述目标帧的采样点的最...

【专利技术属性】
技术研发人员:李祥鹏
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1