【技术实现步骤摘要】
本专利技术属于自动语音识别领域,涉及一种基于注意力与边界检测的非流式模型流式语音识别方法。
技术介绍
1、自动语音识别技术通过将音频信号转录为文字内容,在科研和日常生活中扮演着重要角色。流式语音识别能够在音频流输入的过程中实时输出转录文本。而基于transformer的语音识别模型,是将音频信号一次性转换为向量表示,然后通过解码器(decoder)模块进行自回归解码。这类模型在非流式语音识别任务中表现出色,但用于流式语音识别时效果不佳,并且会消耗更多的计算资源。
2、一些传统方法为解决非流式模型在流式识别中的挑战,采用局部转录策略。通常是将音频分成小片段,模型对这些片段分别进行转录,并寻找多个片段转录内容中的最长公共前缀。虽然这类方法无需修改模型的参数和结构,且能实现较为有效的流式语音识别,但其在控制转录延迟性和不确定性上表现较弱,同时也带来了较大的计算开销。
3、在语音翻译领域,非流式模型的流式翻译同样是一个关键挑战。一些研究方法聚焦于transformer模型中的注意力机制,以此来控制解码时机,判断音频帧的最
...【技术保护点】
1.一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤1中对接收的实时音频流以特定的采样率进行采样,随后以大小为的窗口,按照步长切割出多个音频片段,截取第个片段的计算公式如下:
3.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤2的具体实现方式如下;
4.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:Whisper模型的处理过程如下
5....
【技术特征摘要】
1.一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤1中对接收的实时音频流以特定的采样率进行采样,随后以大小为的窗口,按照步长切割出多个音频片段,截取第个片段的计算公式如下:
3.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤2的具体实现方式如下;
4.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:whisper模型的处理过程...
【专利技术属性】
技术研发人员:刘军平,王润鹏,谢浩,谢屈波,
申请(专利权)人:武汉纺织大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。