用于音频处理的方法、装置、电子设备和存储介质制造方法及图纸

技术编号：34890309 阅读：42 留言：0更新日期：2022-09-10 13:48

本公开是关于用于音频处理的方法、装置、电子设备和存储介质，所述方法包括：获取音频编码结果，其中，所述音频编码结果中的每个元素具有音频帧数维度和文本标签序列维度上的坐标；响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度上加1，得到所述解码路径中第i+1帧的输出位置，其中，i为不小于1的整数；根据所述解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧的元素，确定所述解码路径中第i+1帧的输出结果。确定所述解码路径中第i+1帧的输出结果。确定所述解码路径中第i+1帧的输出结果。

全部详细技术资料下载

【技术实现步骤摘要】
用于音频处理的方法、装置、电子设备和存储介质

[0001]本公开涉及音频处理
，具体涉及一种用于音频处理的方法、装置、电子设备和存储介质。

技术介绍

[0002]近年来，音频识别等音频处理技术逐渐发展，其准确度越来越高，在很多领域发挥了重要作用。目前音频处理领域具有时序连接分类(Connectionist Temporal Classification，CTC)技术、基于注意力机制的模型(Attention
‑
based model)技术和循环神经网络转换器(RNN Transducer，RNN
‑
T)技术，其中以循环神经网络转换器技术在实践中的效果最好。但是相关技术中，使用循环神经网络转换器技术进行音频处理，计算量较大，内存占用较多，导致无法实现并行快速计算，导致该技术的实用性大大降低。

技术实现思路

[0003]为克服相关技术中存在的问题，本公开实施例提供一种用于音频处理的方法、装置、电子设备和存储介质，用以解决相关技术中的缺陷。
[0004]根据本公开实施例的第一方面，提供一种用于音频处理的方法，包括：
[0005]获取音频编码结果，其中，所述音频编码结果中的每个元素具有音频帧数维度上的坐标和文本标签序列维度上的坐标；
[0006]响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，其中，i为不小于1的整数；
[...

【技术保护点】

【技术特征摘要】
1.一种用于音频处理的方法，其特征在于，包括：获取音频编码结果，其中，所述音频编码结果中的每个元素均具有音频帧数维度上的坐标和文本标签序列维度上的坐标；响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，其中，i为不小于1的整数；根据所述解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧的元素，确定所述解码路径中第i+1帧的输出结果。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：响应于所述解码路径中第i帧的输出结果为空字符，将所述第i帧的输出位置在所述音频帧数维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置。3.根据权利要求2所述的方法，其特征在于，所述响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，包括：在所述解码路径中第i帧的输出位置的数量为1的情况下，响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置；和/或，所述响应于所述解码路径中第i帧的输出结果为空字符，将所述第i帧的输出位置在所述音频帧数维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，包括：在所述解码路径中第i帧的输出位置的数量为1的情况下，响应于所述解码路径中第i帧的输出结果为空字符，将所述第i帧的输出位置在所述音频帧数维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置。4.根据权利要求2所述的方法，其特征在于，所述响应于解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，包括：响应于N个解码路径中第n个解码路径中第i帧的输出结果为非空字符，将所述第i帧的输出位置分别在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到所述第n个解码路径中第i+1帧的输出位置，其中，N为大于1的整数，n为不小于1，且不大于N的整数；所述响应于所述解码路径中第i帧的输出结果为空字符，将所述第i帧的输出位置在所述音频帧数维度的坐标上加1，得到所述解码路径中第i+1帧的输出位置，包括：响应于N个解码路径中第n个解码路径中第i帧的输出结果为空字符，将所述第i帧的输出位置在所述音频帧数维度的坐标上加1，得到所述第n个解码路径中第i+1帧的输出位置。5.根据权利要求4所述的方法，其特征在于，所述根据解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧的元素，确定所述解码路径中第i+1帧的输出结果，包括：根据所述第n个解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧的元素，确定所述第n个解码路径中第i+1帧的输出结果。6.根据权利要求5所述的方法，其特征在于，所述解码路径中前i帧的输出结果为字符种类及对应的概率值，所述解码路径中第i+1帧的输出结果包括每个字符种类的概率值；在所述根据所述第n个解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧
的元素，确定所述第n个解码路径中第i+1帧的输出结果之后，所述方法还包括：根据所述第n个解码路径的前i帧的输出结果，和第i+1帧的输出结果，确定所述第n个解码路径形成的多个待选解码路径的概率值，其中，第i+1帧的输出结果中每个字符种类对应一个待选解码路径；在N个解码路径中的每个解码路径形成的多个待选解码路径中，保留概率值最高的前N个待选解码路径作为解码路径。7.根据权利要求6所述的方法，其特征在于，在所述在N个解码路径中的每个解码路径形成的多个待选解码路径中，保留概率值最高的前N个待选解码路径作为解码路径之前，所述方法还包括：将N个解码路径中的每个解码路径形成的多个待选解码路径中的每个待选解码路径中的空字符删除，得到每个待选解码路径对应的字符串；将对应的字符串相同的至少两个待选解码路径合并，并将所述至少两个待选解码路径的概率值之和确定为合并后的待选解码路径的概率值。8.根据权利要求6所述的方法，其特征在于，所述第i+1帧为所述音频帧数维度的最后一帧；在所述在N个解码路径中的每个解码路径形成的多个待选解码路径中，保留概率值最高的前N个待选解码路径作为解码路径之后，所述方法还包括：根据概率值最高的解码路径，确定目标文本。9.根据权利要求1所述的方法，其特征在于，所述获取音频编码结果，包括：通过神经网络模型的编码子网络针对待处理音频进行编码，得到所述音频编码结果；和/或，所述根据解码路径中第i帧的输出结果，和所述音频编码结果中第i+1帧的元素，确定所述解码路径中第i+1帧的输出结果，包括：所述神经网络模型的联合子网络将所述第i帧的输出结果，和所述音频编码结果中第i+1帧的元素进行联合，得到第一联合结果；所述神经网络模型的解码子网络针对所述第一联合结果进行解码，得到所述第i+1帧的输出结果。10.根据权利要求9所述的方法，其特征在于，所述方法还包括：将训练音频及对应的文本标签输入至所述神经网络模型，所述神经网络模型输出第二联合结果，其中，所述第二联合结果中的每个元素具有音频帧数维度和文本标签序列维度上的坐标，以及各个字符类型的概率值；在所述第二联合结果内确定全部的第一训练路径，其中，在每个所述第一训练路径中，每一帧对应一个序列号，且在第i帧的输出结果为非空字符的情况下，将第i帧的输出位置在所述音频帧数维度和所述文本标签序列维度的坐标上加1，得到第i+1帧的输出位置，在第i帧的输出结果为空字符的情况下，第i帧的输出位置在所述音频帧数维度的坐标上加1，得到第i+1帧的输出位置；根据全部的第一训练路径的概率值的和，对所述神经网络模型的网络参数进行调整。11.根据权利要求10所述的方法，其特征在于，所述在所述第二联合结果内确定全部的第一训练路径，包括：
针对全部的训练音频中的预设比例的训练音频，在所述训练音频的第二联合结果内确定全部的第一训练路径；所述根据全部的第一训练路径的概率值的和，对所述神经网络模型的网络参数进行调整，包括：根据所述预设比例的训练音频中每个训练音频的第二联合结果内，确定的全部的第一训练路径，对所述神经网络模型的网络参数进行调整；所述方法还包括：针对全部的训练音频，在所述训练音频的第二联合结果内确定全部第一训练路径和全部第二训练路径，其中，在每个第二训练路径中，每一帧对应一个序列号，且在第i帧的输出结果为非空字符的情况下，第i帧的输出位置在所述文本标签序列维度的坐标上加1，得到第i+1帧的输出位置，在第i帧的输出结果为空字符的情况下，将第i帧的输出位置在所述音频帧数维度的坐标上加1，得到第i+1帧的输出位置；根据所述全部的训练音频中每个训练音频的第二联合结果内，...

【专利技术属性】
技术研发人员：罗明双，匡方军，郭理勇，林珑，康魏，姚增伟，丹尼尔，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人