基于注意力与边界检测的非流式模型流式语音识别方法技术

技术编号:43948133 阅读:23 留言:0更新日期:2025-01-07 21:36
本发明专利技术属于语音识别领域,涉及一种基于注意力与边界检测的非流式模型流式语音识别方法,包括:分割音频片段,并对音频片段进行特征提取,生成对数梅尔频谱图;使用非流式语音模型Whisper对音频片段进行转录,提取每帧音频在模型中的交叉注意力,获得对应的注意力权重;设定长度为的滑动窗口,计算窗口内各帧的平均注意力权重。当某窗口的最大平均注意力权重距离音频结束帧的距离小于设定阈值时,控制模型停止解码;使用词边界检测模块,对解码内容进行检测,判断停止解码时是否存在截断的转录词,从而确保正确输出转录结果。同时根据边界检测情况动态调整阈值,以实现精准高效的实时语音识别。

【技术实现步骤摘要】

本专利技术属于自动语音识别领域,涉及一种基于注意力与边界检测的非流式模型流式语音识别方法


技术介绍

1、自动语音识别技术通过将音频信号转录为文字内容,在科研和日常生活中扮演着重要角色。流式语音识别能够在音频流输入的过程中实时输出转录文本。而基于transformer的语音识别模型,是将音频信号一次性转换为向量表示,然后通过解码器(decoder)模块进行自回归解码。这类模型在非流式语音识别任务中表现出色,但用于流式语音识别时效果不佳,并且会消耗更多的计算资源。

2、一些传统方法为解决非流式模型在流式识别中的挑战,采用局部转录策略。通常是将音频分成小片段,模型对这些片段分别进行转录,并寻找多个片段转录内容中的最长公共前缀。虽然这类方法无需修改模型的参数和结构,且能实现较为有效的流式语音识别,但其在控制转录延迟性和不确定性上表现较弱,同时也带来了较大的计算开销。

3、在语音翻译领域,非流式模型的流式翻译同样是一个关键挑战。一些研究方法聚焦于transformer模型中的注意力机制,以此来控制解码时机,判断音频帧的最大注意力权重是否接近本文档来自技高网...

【技术保护点】

1.一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤1中对接收的实时音频流以特定的采样率进行采样,随后以大小为的窗口,按照步长切割出多个音频片段,截取第个片段的计算公式如下:

3.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤2的具体实现方式如下;

4.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:Whisper模型的处理过程如下

5....

【技术特征摘要】

1.一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤1中对接收的实时音频流以特定的采样率进行采样,随后以大小为的窗口,按照步长切割出多个音频片段,截取第个片段的计算公式如下:

3.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:步骤2的具体实现方式如下;

4.如权利要求1所述的一种基于注意力与边界检测的非流式模型流式语音识别方法,其特征在于:whisper模型的处理过程...

【专利技术属性】
技术研发人员:刘军平王润鹏谢浩谢屈波
申请(专利权)人:武汉纺织大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1