离线语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27591533 阅读:26 留言:0更新日期:2021-03-10 10:09
本公开公开了离线语音识别方法、装置、电子设备及存储介质,涉及语音识别、自然语言处理及深度学习等人工智能领域,其中的方法可包括:将待识别的语音数据解码为音节识别结果;将所述音节识别结果转换为对应的文字,将所述文字作为待识别的语音数据的语音识别结果。应用本公开所述方案,可提升语音识别结果的准确性等。性等。性等。

【技术实现步骤摘要】
离线语音识别方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及语音识别、自然语言处理及深度学习等领域,具体为离线语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,语音识别已经广泛应用于语音输入、语音拨号、车载导航等各种场景中。
[0003]语音识别方式主要分为在线语音识别和离线语音识别。其中,在线语音识别通常需要将语音数据通过网络上传到服务器中进行解码,语音识别的性能严重受到网络质量的影响,而且由于需要上传语音数据,因此很容易引起个人信息的泄露等。也就是说,在线语音识别无法满足可靠性以及私密性等方面的要求。
[0004]离线语音识别不需要将语音数据上传到服务器,直接在设备本地进行解码,从而满足了可靠性以及私密性等方面的要求。但由于设备端的计算和存储资源等比较有限,因此通常需要对识别模型体积进行限制,从而导致语音识别结果的准确性较低等。

技术实现思路

[0005]本公开提供了离线语音识别方法、装置、电子设备及存储介质。
[0006]一种离线语音识别方法,包括:
[0007]将待识别的语音数据解码为音节识别结果;
[0008]将所述音节识别结果转换为对应的文字,将所述文字作为所述语音数据的语音识别结果。
[0009]一种离线语音识别装置,包括:离线解码模块以及音节转换模块;
[0010]所述离线解码模块,用于将待识别的语音数据解码为音节识别结果;
[0011]所述音节转换模块,用于将所述音节识别结果转换为对应的文字,将所述文字作为所述语音数据的语音识别结果。
[0012]一种电子设备,包括:
[0013]至少一个处理器;以及
[0014]与所述至少一个处理器通信连接的存储器;其中,
[0015]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0016]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0017]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0018]上述公开中的一个实施例具有如下优点或有益效果:提出了一种基于音节的两段式离线语音识别方式,将离线语音识别过程拆分为两个阶段,首先将与上下文无关的音节作为基本的声学建模单元,对待识别的语音数据进行解码,得到音节识别结果,之后,为了
满足识别结果的可读性,将音节识别结果转换为对应的文字,从而得到所需的语音识别结果,该方式既不会增大对于计算及存储资源等的占用,而且确保了语音识别结果的准确性等。
[0019]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0021]图1为本公开所述离线语音识别方法实施例的流程图;
[0022]图2为现有的离线语音识别方式示意图;
[0023]图3为本公开所述基于音节的端到端SMLTA模型的结构示意图;
[0024]图4为本公开所述基于音节的LSTM语言模型的结构示意图;
[0025]图5为本公开所述流式的Transformer模型的结构示意图;
[0026]图6为本公开所述离线语音识别的实现过程示意图;
[0027]图7为本公开所述离线语音识别装置70实施例的组成结构示意图;
[0028]图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0031]图1为本公开所述离线语音识别方法实施例的流程图。如图1所示,包括以下具体实现方式。
[0032]在步骤101中,将待识别的语音数据解码为音节识别结果。
[0033]在步骤102中,将音节识别结果转换为对应的文字,将得到的文字作为语音数据的语音识别结果。
[0034]可以看出,本公开方法实施例所述方案中,提出了一种基于音节的两段式离线语音识别方式,将离线语音识别过程拆分为两个阶段,首先将与上下文无关的音节(syllable)作为基本的声学建模单元,对待识别的语音数据进行解码,得到音节识别结果,之后,为了满足识别结果的可读性,将音节识别结果转换为对应的文字,从而得到所需的语音识别结果,该方式既不会增大对于计算及存储资源等的占用,而且确保了语音识别结果的准确性等。
[0035]在将待识别的语音数据解码为音节识别结果时,具体地,可利用音节解码器对语音数据进行解码,从而得到音节识别结果,其中,音节解码器用于结合基于音节的声学模型以及基于音节的语言模型来对语音数据进行解码。
[0036]优选地,声学模型可为端到端的流式多层截断注意力(SMLTA,Streaming Multi

Layer Trancated Attention)模型,和/或,语言模型可为长短期记忆网络(LSTM,Long Short Term Memory)语言模型。
[0037]现有的离线语音识别系统通常由声学模型、语言模型以及解码器等三部分组成。如图2所示,图2为现有的离线语音识别方式示意图,可利用解码器对输入的语音数据根据语言模型和声学模型进行解码,从而得到语音识别结果,考虑到设备端的计算和存储资源有限,可采用基于相对熵(relative entropy)的方法等对语言模型进行裁剪,得到n元语言模型,通常n元语言模型的体积会控制在几十M左右,相比于在线语言识别中的服务器端的语言模型体积减少了约1000倍,大幅裁剪语言模型的体积会导致语音识别结果的准确性大大降低,而且,利用n元语言模型进行识别时需要对解码的路径进行扩展,由于相同的发音存在多个可能对应的文字,为了满足嵌入式设备计算资源的要求,需要对识别的候选结果进行裁剪,而正确的识别结果很容易被提前裁剪掉,从而造成识别错误,进而进一步降低了语音识别结果的准确性等。
[0038]而本公开所述离线语音识别方式中,利用基于音节的神经网络语言模型代替了n元语言模型,在有效减少了模型体积的同时,避免了裁剪等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种离线语音识别方法,包括:将待识别的语音数据解码为音节识别结果;将所述音节识别结果转换为对应的文字,将所述文字作为所述语音数据的语音识别结果。2.根据权利要求1所述的方法,其中,所述将待识别的语音数据解码为音节识别结果包括:利用音节解码器对所述语音数据进行解码,得到所述音节识别结果;其中,所述音节解码器用于结合基于音节的声学模型以及基于音节的语言模型对所述语音数据进行解码。3.根据权利要求2所述的方法,其中,所述声学模型包括:端到端的流式多层截断注意力SMLTA模型;和/或,所述语言模型包括:长短期记忆网络LSTM语言模型。4.根据权利要求3所述的方法,还包括:采用4

比特量化方法对所述LSTM语言模型的模型体积进行压缩。5.根据权利要求1所述的方法,其中,所述将所述音节识别结果转换为对应的文字包括:利用流式的转换器Transformer模型,将所述音节识别结果转换为对应的文字。6.根据权利要求5所述的方法,其中,所述利用流式的Transformer模型,将所述音节识别结果转换为对应的文字包括:在所述Transformer模型中的各注意力结构中分别增加时间掩码操作,利用所述时间掩码操作实现流式的音节转换。7.一种离线语音识别装置,包括:离线解码模块以及音节转换模块;所述离线解码模块,用于将待识别的语音数据解码为音节识别结果;所述音节转换模块,用于将所述音节识别结果转换为对应的文字,将所述文字作为所述语音数据的语音识别结果。8.根据权利要求7所述的装置,其中,所述离线解码模块利用音节解...

【专利技术属性】
技术研发人员:付晓寅梁鸣心陈志杰臧启光蒋正翔张辽张奇贾磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1