离线语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：27591533 阅读：26 留言：0更新日期：2021-03-10 10:09

本公开公开了离线语音识别方法、装置、电子设备及存储介质，涉及语音识别、自然语言处理及深度学习等人工智能领域，其中的方法可包括：将待识别的语音数据解码为音节识别结果；将所述音节识别结果转换为对应的文字，将所述文字作为待识别的语音数据的语音识别结果。应用本公开所述方案，可提升语音识别结果的准确性等。性等。性等。

全部详细技术资料下载

【技术实现步骤摘要】
离线语音识别方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，特别涉及语音识别、自然语言处理及深度学习等领域，具体为离线语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，语音识别已经广泛应用于语音输入、语音拨号、车载导航等各种场景中。
[0003]语音识别方式主要分为在线语音识别和离线语音识别。其中，在线语音识别通常需要将语音数据通过网络上传到服务器中进行解码，语音识别的性能严重受到网络质量的影响，而且由于需要上传语音数据，因此很容易引起个人信息的泄露等。也就是说，在线语音识别无法满足可靠性以及私密性等方面的要求。
[0004]离线语音识别不需要将语音数据上传到服务器，直接在设备本地进行解码，从而满足了可靠性以及私密性等方面的要求。但由于设备端的计算和存储资源等比较有限，因此通常需要对识别模型体积进行限制，从而导致语音识别结果的准确性较低等。

技术实现思路

[0005]本公开提供了离线语音识别方法、装置、电子设备及存储介质。
[0006]一种离线语音识别方法，包括：
[0007]将待识别的语音数据解码为音节识别结果；
[0008]将所述音节识别结果转换为对应的文字，将所述文字作为所述语音数据的语音识别结果。
[0009]一种离线语音识别装置，包括：离线解码模块以及音节转换模块；
[0010]所述离线解码模块，用于将待识别的语音数据解码为音节识别结果；
[0011]所述音节转换模块，用于将所述音节识...

【技术保护点】

【技术特征摘要】
1.一种离线语音识别方法，包括：将待识别的语音数据解码为音节识别结果；将所述音节识别结果转换为对应的文字，将所述文字作为所述语音数据的语音识别结果。2.根据权利要求1所述的方法，其中，所述将待识别的语音数据解码为音节识别结果包括：利用音节解码器对所述语音数据进行解码，得到所述音节识别结果；其中，所述音节解码器用于结合基于音节的声学模型以及基于音节的语言模型对所述语音数据进行解码。3.根据权利要求2所述的方法，其中，所述声学模型包括：端到端的流式多层截断注意力SMLTA模型；和/或，所述语言模型包括：长短期记忆网络LSTM语言模型。4.根据权利要求3所述的方法，还包括：采用4
‑
比特量化方法对所述LSTM语言模型的模型体积进行压缩。5.根据权利要求1所述的方法，其中，所述将所述音节识别结果转换为对应的文字包括：利用流式的转换器Transformer模型，将所述音节识别结果转换为对应的文字。6.根据权利要求5所述的方法，其中，所述利用流式的Transformer模型，将所述音节识别结果转换为对应的文字包括：在所述Transformer模型中的各注意力结构中分别增加时间掩码操作，利用所述时间掩码操作实现流式的音节转换。7.一种离线语音识别装置，包括：离线解码模块以及音节转换模块；所述离线解码模块，用于将待识别的语音数据解码为音节识别结果；所述音节转换模块，用于将所述音节识别结果转换为对应的文字，将所述文字作为所述语音数据的语音识别结果。8.根据权利要求7所述的装置，其中，所述离线解码模块利用音节解...

【专利技术属性】
技术研发人员：付晓寅，梁鸣心，陈志杰，臧启光，蒋正翔，张辽，张奇，贾磊，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人