【技术实现步骤摘要】
音频识别方法、装置和存储介质
[0001]本专利技术涉及一种音频识别方法、装置和存储介质,属于音频识别
技术介绍
[0002]时间序列模型是依赖于事件发生的先后顺序的,同样大小的值改变顺序后输入模型产生的结果是不同的。深度学习中最常用的时序网络模型包括RNN(Recurrent neural network)和LSTM(Long Short
‑
Term Memor)网络。
[0003]在模型流式推理应用场景比如在音频通话过程中,chunk attention性能损失最小,应用最广泛。chunk attention把输入按照固定的chunk size分割成多个chunk,每一个chunk依赖它自己和之前的chunk,在计算下一个chunk时要依赖前一个chunk的信息,因此实际计算时需要同时输入前一个chunk和当前chunk一起进行计算,计算量较大,现有方案中音频识别效率较低。
技术实现思路
[0004]本专利技术的目的在于提供一种音频识别方法、装置和存储介质,用于解决现有 ...
【技术保护点】
【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:将目标音频数据输入至音频识别模型;通过所述音频识别模型将所述目标音频数据分割为n个chunk,n为大于1的整数;对于所述n个chunk中的每个chunk,通过所述音频识别模型获取当前chunk的历史状态,根据所述历史状态和所述当前chunk对所述当前chunk进行计算;所述历史状态为在计算所述当前chunk的前一chunk时在attention操作之前计算并保存的状态;通过所述音频识别模型根据所述各个chunk的计算结果输出识别之后的所述目标音频数据。2.根据权利要求1所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:获取所述目标音频数据的输入状态;通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算。3.根据权利要求2的方法,其特征在于,所述获取所述目标音频数据的输入状态,包括:通过语音识别模块识别所述目标音频数据的首末状态;通过状态模型根据识别得到的所述首末状态标记所述输入状态,其中,所述输入状态包括所述目标音频数据的起始时刻、中间时刻和结束时刻。4.根据权利要求3所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:若所述输入状态为起始时刻,则初始化所述历史状态,通过所述音频识别模型根据所述当前chunk对所述当前chunk进行计算;将在attention操作之前的计算结果更新为所述历史状态。5.根据权利要求3所述的方法,其特征在于,所述通过所述音频识别模型获取当前chunk的历史状态,根据所述输入状态、所述历史状态和所述当前chunk对所述当前chunk进行计算,包括:若所述输入状态为中间时刻,则通过所述音频识别模型根据所...
【专利技术属性】
技术研发人员:王运侠,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。