语音识别方法和装置、电子设备和存储介质制造方法及图纸

技术编号：25640015 阅读：40 留言：0更新日期：2020-09-15 21:31

本申请公开了语音识别方法和装置、电子设备和存储介质，涉及自然语言处理技术领域。具体实现方案为：获取待识别的音频数据；对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及对所述第一编码信息进行解码，以获取所述待转字对应的文字，从而在保证准确性的情况下有效提高音转字的效率，无需待转字语音的整句输入。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法和装置、电子设备和存储介质
本申请涉及语音处理
，尤其涉及自然语言处理
，具体涉及一种语音识别方法和装置、电子设备和存储介质。
技术介绍
随着科技的发展，自然语言处理NLP(NaturalLanguageProcessing)是人机交互中的重要手段，而其中的注意力机制由于可以有效捕获词在上下文语境中的重要程度，并提高自然语言理解任务的有效性而受到了人们的普遍关注。但是，相关技术中采用注意力机制进行语音识别时识别准确率依赖于句子的完整性，因此，随着句子长度的增加识别中的计算量会呈现爆炸式增长，严重影响识别速度。
技术实现思路
本公开提供了一种语音识别方法和装置、电子设备和存储介质。根据本公开的一方面，提供了一种语音识别方法，包括：获取待识别的音频数据；对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；根据所述待...

【技术保护点】
1.一种语音识别方法，包括：/n获取待识别的音频数据；/n对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；/n获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；/n根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及/n对所述第一编码信息进行解码，以获取所述待转字对应的文字。/n

【技术特征摘要】
1.一种语音识别方法，包括：
获取待识别的音频数据；
对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；
获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；
根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及
对所述第一编码信息进行解码，以获取所述待转字对应的文字。

2.根据权利要求1所述的语音识别方法，其中，所述根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息，包括：
分别提取所述第一音节和所述第二音节的第一词嵌入向量和第二词嵌入向量；
根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一编码信息。

3.根据权利要求2所述的语音识别方法，其中，所述根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一编码信息，包括：
根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一音节的第一查询向量和键向量；
根据所述第一查询向量以及键向量，生成所述第一音节的编码增量；以及
根据所述编码增量和所述第二音节的第二编码信息，生成所述第一编码信息。

4.根据权利要求3所述的语音识别方法，其中，所述根据所述第一查询向量以及键向量，生成所述第一音节的编码增量，包括：
根据所述第一查询向量和所述键向量，生成所述第一音节的自注意力权重矩阵，其中，所述自注意力权重矩阵中的权重值用于表征音节之间的相关程度；
根据所述第一音节和所述第二音节，生成所述第一音节的值向量；以及
根据所述自注意力权重矩阵对所述值向量进行加权，以生成所述编码增量。

5.根据权利要求3所述的语音识别方法，其中，所述第二音节为多个，且所述根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一音节的第一查询向量和键向量，包括：
根据所述第一音节的词嵌入向量，构造所述第一音节的第一查询向量；
利用每个所述第二音节的词嵌入向量，构造所述第二音节的第二查询向量；以及
将所述第一查询向量与所述第二查询向量拼接，以生成所述键向量。

6.根据权利要求4所述的语音识别方法，其中，所述根据所述第一查询向量和所述键向量，生成所述第一音节的自注意力权重矩阵，包括：
获取所述键向量的转置向量；
将所述第一查询向量与所述转置向量进行乘积，以生成所述第一矩阵；以及
对所述第一矩阵进行归一化处理，以生成所述自注意力权重矩阵。

7.根据权利要求3所述的语音识别方法，其中，所述根据所述编码增量和所述第二音节的第二编码信息，生成所述第一编码信息，包括：
将所述编码增量与所述第二编码信息进行拼接，获取所述第一编码信息。

8.根据权利要求3所述的语音识别方法，其中，通过编码器对所述第一音节进行所述编码，所述编码器包括N个编码组件，N为正整数，在N大于1时，第一至第N编码组件依次连接，所述方法还包括：
在所述第一编码组件中，根据所述第一音节的词嵌入向量生成所述第一查询向量；
在第i编码组件中，将前一所述编码组件获取到的所述第一音节的所述编码增量，作为当前编码组件中的所述第一音节的第一查询向量，其中，i为大于1且小于等于N的正整数。

9.根据权利要求8所述的语音识别方法，还包括：
在所述第一编码组件中，将所述第一查询向量与每个所述第二音节的第二查询向量进行拼接，获取所述第一音节的键向量；
在第i编码组件中，将前一所述编码组件获取到的所述第一音节的所述第一编码信息作为当前编码组件中的所述第一音节的键向量，其中，i为大于1且小于等于N的正整数。

10.根据权利要求1-7中任一所述的语音识别方法，还包括：
根据所述待转字对应的文字生成第一显示信息，并与当前上屏的第二显示信息进行拼接，以生成第三显示信息；
根据所述第三显示信息进行上屏显示。

11.根据权利要求10所述的语音识别方法，其中，所述根据所述第三显示信息进行上屏显示，包括：
对所述第三显示信息进行语义分析，预测所述所属句子的含字量；
根据预测的所述含字量确定所述第三显示信息在屏幕上的显示位置；
控制所述第三显示信息在所述显示位置上进行显示。

12.根据权利要求10所述的语音识别方法，其中，所述根据所述上屏显示信息进行上屏显示，包括：
获取所述第三显示信息中的含字量；
根据所述含字量调节所述第三显示信息中的字间距。

13.根据权利要求1所述的语音识别方法，其中，所述对音频数据进行解码，获取当前待转字的第一音节，包括：
利用声学模型获取所述音频数据的所述第一音节的第一候选后验概率；
利用语音模型获取所述音频数据的所述第一音节的第二候选后验概率；
根据所述第二候选后验概率对所述第一候选后验概率进行裁剪，获取概率最大的所述第一音节。

14.一种语音识别装置，包括：
第一获取模块，用于获取待识别的音频数据；
第二获取模块，用于对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；...

【专利技术属性】
技术研发人员：张辽，付晓寅，蒋正翔，梁鸣心，邵俊尧，张奇，陈志杰，臧启光，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人