语音识别的方法及装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:28627727 阅读:15 留言:0更新日期:2021-05-28 16:24
本公开的实施例提供了语音识别的方法及装置、计算机可读存储介质和电子设备。该方法包括:获取语音数据的原始音频特征序列;根据预设的跳帧数,对所述原始音频特征序列进行跳帧处理,得到跳帧后的特征序列;将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果;其中,所述神经网络中包括音频特征的池化操作。本公开技术方案能够实现加块识别效率,在减少计算量的基础上,保持识别准确率不下降。

【技术实现步骤摘要】
语音识别的方法及装置、电子设备和计算机可读存储介质
本公开涉及计算机
,特别涉及语音识别的方法及装置、电子设备和计算机可读存储介质。
技术介绍
目前,语音识别的场景越来越多,而且场景对语音识别的速度要求也越来越高。其中,当前加速语音识别系统(automaticspeechrecognition,ASR)中神经网络模型的推理,一般采用以下方式:在神经网络计算的过程中,采用跳帧的方法,舍弃部分音频特征,减少输入音频特征序列的长度,神经网络模型计算量自然随之下降,达到加速推理目的。但是,跳帧的方法对于跳帧数量,即舍弃音频特征的比例有着敏感的限制。一般以音素为建模单元的语音识别系统,跳帧数量上限为3。以字为建模单元的,跳帧数量上限不超过5。更高的跳帧数量,会导致识别准确率急剧下降。所以,目前语音加速推理的方案存在以下缺点:加速推理的效果不明显,加速上限较低;对神经网络本身改动较大,否则可能造成准确率损失,普适性较差。
技术实现思路
本公开的目的在于提供一种语音识别的方法及装置、电子设备和计算机可读存储介质,进而至少在一定程度上加速了语音的识别,以及减少计算量的基础上,保持识别准确率不下降。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的第一方面,提供语音识别的方法,包括:获取语音数据的原始音频特征序列;根据预设的跳帧数,对所述原始音频特征序列进行跳帧处理,得到跳帧后的特征序列;将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果;其中,所述神经网络中包括音频特征的池化操作。在本公开的示例性实施例中,将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果,包括:将所述跳帧后的特征序列输入神经网络的第一部分神经网络隐层(包括多层神经网络),得到中间态特征序列;对所述中间态特征序列进行池化操作,得到池化后的特征序列;将所述池化后的特征序列输入所述神经网络的第二部分神经网络隐层(包括多层神经网络),以得到语音识别的结果。在本公开的示例性实施例中,对所述中间态特征序列进行池化操作,得到池化后的特征序列,包括:确定池化操作的参数以及池化操作算法,所述参数至少包括尺寸和步长,所述池化操作算法包括平均池化和最大值池化;根据所述参数以及池化操作算法,对所述中间态特征序列进行时间维度上的池化操作,得到池化后的特征序列。在本公开的示例性实施例中,将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果,还包括:根据所述预设的跳帧数和/或所述池化操作的参数,确定所述神经网络的输出层的维度;根据所述输出层的维度,得到所述语音识别的结果。在本公开的示例性实施例中,所述第二部分神经网络隐层的数量与所述第一部分神经网络隐层的数量相同。根据本公开的第二方面,提供语音识别的装置,包括:获取模块,用于获取语音数据的原始音频特征序列;跳帧模块,用于根据预设的跳帧数,对所述原始音频特征序列进行跳帧处理,得到跳帧后的特征序列;计算模块,用于将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果;其中,所述神经网络中包括音频特征的池化操作。在本公开的示例性实施例中,所述计算模块还用于,将所述跳帧后的特征序列输入神经网络的第一部分神经网络隐层,得到中间态特征序列;对所述中间态特征序列进行池化操作,得到池化后的特征序列;将所述池化后的特征序列输入所述神经网络的第二部分神经网络隐层,以得到语音识别的结果。在本公开的示例性实施例中,所述计算模块还用于,确定池化操作的参数以及池化操作算法,所述参数至少包括尺寸和步长,所述池化操作算法包括平均池化和最大值池化;根据所述参数以及池化操作算法,对所述中间态特征序列进行时间维度上的池化操作,得到池化后的特征序列。在本公开的示例性实施例中,所述计算模块还用于,根据所述预设的跳帧数和/或所述池化操作的参数,确定所述神经网络的输出层的维度;根据所述输出层的维度,得到所述语音识别的结果。在本公开的示例性实施例中,所述第二部分神经网络隐层的数量与所述第一部分神经网络隐层的数量相同。根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的核保信息处理方法。根据本公开的第四方面,提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的语音识别的法。由上述技术方案可知,本公开示例性实施例中的信息处理方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果:本公开实施例中的语音识别的方法首先通过对原始音频特征序列进行跳帧处理,接着通过池化操作,将由于跳帧处理损失的信息进行了信息的保留和补充。以及,跳帧处理是在神经网络输入前进行,池化操作是在神经网络的中间层进行,进而池化操作可以在跳帧的基础上进行,进一步加速模型推理。另一方面,在神经网络中间层输出上进行池化操作,不仅后续层的计算量将减少,而且能够保持识别准确率不下降。本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了可以应用本公开实施例的语音识别的示例性系统架构的示意图;图2示出本公开示例性实施例中语音识别的方法的流程示意图;图3示出本公开示例性实施例中语音识别的深度神经网络结构的示意图;图4示出本公开示例性实施例中语音识别的装置的框图;图5示出本公开示例性实施例中语音识别的方法的流程示意图。具体实施方式现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,其特征在于,包括:/n获取语音数据的原始音频特征序列;/n根据预设的跳帧数,对所述原始音频特征序列进行跳帧处理,得到跳帧后的特征序列;/n将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果;其中,所述神经网络中包括音频特征的池化操作。/n

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:
获取语音数据的原始音频特征序列;
根据预设的跳帧数,对所述原始音频特征序列进行跳帧处理,得到跳帧后的特征序列;
将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果;其中,所述神经网络中包括音频特征的池化操作。


2.根据权利要求1所述的方法,其特征在于,将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果,包括:
将所述跳帧后的特征序列输入神经网络的第一部分神经网络隐层,得到中间态特征序列;
对所述中间态特征序列进行池化操作,得到池化后的特征序列;
将所述池化后的特征序列输入所述神经网络的第二部分神经网络隐层,以得到语音识别的结果。


3.根据权利要求2所述的方法,其特征在于,对所述中间态特征序列进行池化操作,得到池化后的特征序列,包括:
确定池化操作的参数以及池化操作算法,所述参数至少包括尺寸和步长,所述池化操作算法包括平均池化和最大值池化;
根据所述参数以及池化操作算法,对所述中间态特征序列进行时间维度上的池化操作,得到池化后的特征序列。


4.根据权利要求3所述的方法,其特征在于,将所述跳帧后的特征序列输入神经网络,以得到语音识别的结果,还包括:
根据所述预设的跳帧数和/或所述池化操作的参数,确定所述神经网络的输出层的维度;
根据所述输出层的维度,得到所述语音识别的结果。


5.根据权利要求2-4任一项所述的方法,其特征在于,所述第二部分神经网络隐层的数量与所述第一部分神经网络隐层的数量相同。


6.一种语音识别的装置,其特征在于,包括:
获取模块,用于获取语音数据的原始音频特征序列;
跳帧模块,用...

【专利技术属性】
技术研发人员:李旭
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1