基于Conformer的流式语音识别中多尺度融合卷积系统技术方案

技术编号:41423211 阅读:35 留言:0更新日期:2024-05-28 20:22
本发明专利技术涉及人工智能算法技术领域,特别涉及一种基于Conformer的流式语音识别中多尺度融合卷积系统。本发明专利技术提供的多尺度融合卷积系统包括第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块,其中多尺度卷积模块包括并行设置的第一卷积组件和第二卷积组件,第一卷积组件和第二卷积组件设置有不同尺寸的卷积核,用于提取不同的视野特征、获取不同尺度的信息以平衡字错率和延迟。卷积融合组件采用卷积融合模型或系数融合模型,对两个不同尺寸的卷积核获取的不同通道特征信息进行融合。还通过在不同尺寸卷积核的每个元素之间插入空白,以减少计算参量,提升流式语音识别的准确率。

【技术实现步骤摘要】

本专利技术涉及人工智能算法,特别涉及一种基于conformer的流式语音识别中多尺度融合卷积系统。


技术介绍

1、流式语音识别能够在语音输入的同时输出文本结果,文本结果通常小于500毫秒,该技术的难点在于平衡字错率和延迟,此技术属于连续语音识别中的一个重要技术,也是研究的热点与重点。目前连续语音识别主要的框架主要有rnn-transducer(rnn-t)和u2++两种主流方法。

2、rnn-t主要由编码器、预测网络和联合网络三部分组成,其核心是将编码器的对音频特征的编码和预测网络的预测出的文本字符通过联合网络结合起来。虽然基于transducer的模型看起来更加完善,理论上表现更好,但是由于transducer模型复杂,训练难度较高,需要多次参数调整和优化才能达到稳定的性能,无论是训练还是部署都需要较多的计算资源,在算力较低的设备上延迟会很高。

3、在u2++系列方法中,使用了动态块(dynamic chunk)的方法进行训练,该方法将输入分割成一个个块(chunk),虽然在训练时通过使用不同大小的块使模型的泛化能力增强,但这种方本文档来自技高网...

【技术保护点】

1.一种基于Conformer的流式语音识别中多尺度融合卷积系统,包括依次连接的第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块,其特征在于,所述多尺度卷积模块包括第一卷积组件、第二卷积组件以及卷积融合组件;

2.根据权利要求1所述的基于Conformer的流式语音识别中多尺度融合卷积系统,其特征在于,所述卷积融合组件采用卷积融合模型或系数融合模型,对所述第一卷积组件和所述第二卷积组件的两个不同尺寸的卷积核获取的不同通道特征信息进行融合;

3.根据权利要求2所述的基于Conformer的流式语音识别中多尺度融合卷积系统,其特征在于,所...

【技术特征摘要】

1.一种基于conformer的流式语音识别中多尺度融合卷积系统,包括依次连接的第一前馈神经网络模块、编码器注意力模块、多尺度卷积模块以及第二前馈神经网络模块,其特征在于,所述多尺度卷积模块包括第一卷积组件、第二卷积组件以及卷积融合组件;

2.根据权利要求1所述的基于conformer的流式语音识别中多尺度融合卷积系统,其特征在于,所述卷积融合组件采用卷积融合模型或系数融合模型,对所述第一卷积组件和所述第二卷积组件的两个不同尺寸的卷积核获取的不同通道特征信息进行融合;

3.根据权利要求2所述的基于conformer的流式语音识别中多尺度融合卷积系统,其特征在于,所述卷积融合模型将所述第一卷积组件和所述第二卷积组件输出的形状为(batch,time,channels)的...

【专利技术属性】
技术研发人员:刘葳孙晓业孙一鸣许春生陈纯毅
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1