音频识别方法、装置和存储介质制造方法及图纸

技术编号：38520151 阅读：28 留言：0更新日期：2023-08-19 17:00

本申请公开了一种音频识别方法、装置和存储介质，涉及音频识别技术领域，所述方法包括：通过将目标音频数据输入至音频识别模型；通过音频识别模型将目标音频数据分割为n个chunk，n为大于1的整数；对于n个chunk中的每个chunk，通过音频识别模型获取当前chunk的历史状态，根据历史状态和当前chunk对当前chunk进行计算；历史状态为在计算当前chunk的前一chunk时在attention操作之前计算并保存的状态；通过音频识别模型根据各个chunk的计算结果输出识别之后的目标音频数据。解决了现有技术中音频识别效率较低的问题，达到了可以通过记录历史状态，进而通过历史状态和当前chunk对当前chunk进行计算，而无需基于前一chunk的全部数据进行计算，提高音频识别效率的效果。提高音频识别效率的效果。提高音频识别效率的效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频识别方法、装置和存储介质

[0001]本专利技术涉及一种音频识别方法、装置和存储介质，属于音频识别

技术介绍

[0002]时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。深度学习中最常用的时序网络模型包括RNN(Recurrent neural network)和LSTM(Long Short
‑
Term Memor)网络。
[0003]在模型流式推理应用场景比如在音频通话过程中，chunk attention性能损失最小，应用最广泛。chunk attention把输入按照固定的chunk size分割成多个chunk，每一个chunk依赖它自己和之前的chunk，在计算下一个chunk时要依赖前一个chunk的信息，因此实际计算时需要同时输入前一个chunk和当前chunk一起进行计算，计算量较大，现有方案中音频识别效率较低。

技术实现思路

[0004]本专利技术的目的在于提供一种音频识别方法、装置和存储介质，用于解决现有...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法，其特征在于，所述方法包括：将目标音频数据输入至音频识别模型；通过所述音频识别模型将所述目标音频数据分割为n个chunk，n为大于1的整数；对于所述n个chunk中的每个chunk，通过所述音频识别模型获取当前chunk的历史状态，根据所述历史状态和所述当前chunk对所述当前chunk进行计算；所述历史状态为在计算所述当前chunk的前一chunk时在attention操作之前计算并保存的状态；通过所述音频识别模型根据所述各个chunk的计算结果输出识别之后的所述目标音频数据。2.根据权利要求1所述的方法，其特征在于，所述通过所述音频识别模型获取当前chunk的历史状态，根据所述历史状态和所述当前chunk对所述当前chunk进行计算，包括：获取所述目标音频数据的输入状态；通过所述音频识别模型获取当前chunk的历史状态，根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算。3.根据权利要求2的方法，其特征在于，所述获取所述目标音频数据的输入状态，包括：通过语音识别模块识别所述目标音频数据的首末状态；通过状态模型根据识别得到的所述首末状态标记所述输入状态，其中，所述输入状态包括所述目标音频数据的起始时刻、中间时刻和结束时刻。4.根据权利要求3所述的方法，其特征在于，所述通过所述音频识别模型获取当前chunk的历史状态，根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算，包括：若所述输入状态为起始时刻，则初始化所述历史状态，通过所述音频识别模型根据所述当前chunk对所述当前chunk进行计算；将在attention操作之前的计算结果更新为所述历史状态。5.根据权利要求3所述的方法，其特征在于，所述通过所述音频识别模型获取当前chunk的历史状态，根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算，包括：若所述输入状态为中间时刻，则通过所述音频识别模型根据所...

【专利技术属性】
技术研发人员：王运侠，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人