音频识别方法、装置和存储介质制造方法及图纸

技术编号:38520151 阅读:28 留言:0更新日期:2023-08-19 17:00
本申请公开了一种音频识别方法、装置和存储介质,涉及音频识别技术领域,所述方法包括:通过将目标音频数据输入至音频识别模型;通过音频识别模型将目标音频数据分割为n个chunk,n为大于1的整数;对于n个chunk中的每个chunk,通过音频识别模型获取当前chunk的历史状态,根据历史状态和当前chunk对当前chunk进行计算;历史状态为在计算当前chunk的前一chunk时在attention操作之前计算并保存的状态;通过音频识别模型根据各个chunk的计算结果输出识别之后的目标音频数据。解决了现有技术中音频识别效率较低的问题,达到了可以通过记录历史状态,进而通过历史状态和当前chunk对当前chunk进行计算,而无需基于前一chunk的全部数据进行计算,提高音频识别效率的效果。提高音频识别效率的效果。提高音频识别效率的效果。

【技术实现步骤摘要】
音频识别方法、装置和存储介质


[0001]本专利技术涉及一种音频识别方法、装置和存储介质,属于音频识别


技术介绍

[0002]时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。深度学习中最常用的时序网络模型包括RNN(Recurrent neural network)和LSTM(Long Short

Term Memor)网络。
[0003]在模型流式推理应用场景比如在音频通话过程中,chunk attention性能损失最小,应用最广泛。chunk attention把输入按照固定的chunk size分割成多个chunk,每一个chunk依赖它自己和之前的chunk,在计算下一个chunk时要依赖前一个chunk的信息,因此实际计算时需要同时输入前一个chunk和当前chunk一起进行计算,计算量较大,现有方案中音频识别效率较低。

技术实现思路

[0004]本专利技术的目的在于提供一种音频识别方法、装置和存储介质,用于解决现有技术中存在的问题。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:将目标音频数据输入至音频识别模型;通过所述音频识别模型将所述目标音频数据分割为n个chunk,n为大于1的整数;对于所述n个chunk中的每个chunk,通过所述音频识别模型获取当前chunk的历史状态,根据所述历史状态和所述当前chunk对所述当前chunk进行计算;所述历史状态为在计算所述当前chunk的前一chunk时在attention操作之前计算并保存的状态;通过所述音频识别模型根据所述各个chunk的计算结果输出识别之后的所述目标音频数据。2.根据权利要求1所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:获取所述目标音频数据的输入状态;通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算。3.根据权利要求2的方法,其特征在于,所述获取所述目标音频数据的输入状态,包括:通过语音识别模块识别所述目标音频数据的首末状态;通过状态模型根据识别得到的所述首末状态标记所述输入状态,其中,所述输入状态包括所述目标音频数据的起始时刻、中间时刻和结束时刻。4.根据权利要求3所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:若所述输入状态为起始时刻,则初始化所述历史状态,通过所述音频识别模型根据所述当前chunk对所述当前chunk进行计算;将在attention操作之前的计算结果更新为所述历史状态。5.根据权利要求3所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:若所述输入状态为中间时刻,则通过所述音频识别模型根据所...

【专利技术属性】
技术研发人员:王运侠
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1