当前位置: 首页 > 专利查询>北京大学专利>正文

一种用于自动语音识别推测解码的草稿序列复用方法技术

技术编号:46587688 阅读:2 留言:0更新日期:2025-10-10 21:23
本发明专利技术提供一种用于自动语音识别推测解码的草稿序列复用方法,属于深度学习领域。本发明专利技术首先使用轻量级草稿模型进行推测解码,由目标模型进行验证,随后通过注意力掩码,对提交验证和验证通过的两个子序列并行预测,最终通过两个子序列的连接实现未通过验证部分解码的复用。采用本发明专利技术可以提升自动语音识别的解码效率。

【技术实现步骤摘要】

本专利技术涉及深度学习(deep learning)领域,具体涉及一种用于自动语音识别(automatic speech recognition)推测解码(speculative decoding)的草稿序列复用(draft sequence recycling)方法。


技术介绍

1、基于大语言模型的自动语音识别由于其较高的识别准确率和增强的多方言支持,受到了广泛的关注。当大语言模型作为解码器与音频编码器相结合时,所构建的自动语音识别模型在识别精度方面取得了显著突破,能够有效应对多种语言、方言以及口音的复杂情况。然而,大语言模型的引入不可避免地导致自动语音识别模型的规模和计算量大幅攀升,进而使得性能提升的同时,解码延迟问题日益凸显。目前,用于自动语音识别的大语言模型解码器参数量普遍处于较高水平,一般为70亿或130亿,而与之配合的音频编码器模型参数量则相对较低,多在10亿以下,甚至部分仅为1亿左右。大语言模型的自回归解码特性进一步加剧了计算延迟。在这种情况下,大语言模型解码器相较于音频编码器产生了更为显著的推理延迟,已然成为制约自动语音识别效率的关键瓶颈。本文档来自技高网...

【技术保护点】

1.一种用于自动语音识别推测解码的草稿序列复用方法,具体包括以下步骤:

2.如权利要求1所述的用于自动语音识别推测解码的草稿序列复用方法,其特征在于,步骤1具体为,假设处理批次大小为1,利用音频编码器对语音信号进行特征提取和压缩,将编码后的语音特征记为H_speech,在送入大语言模型时将其投影为形状是(语音特征序列长度,隐藏层维度)的张量。将文本提示和已转录文本记为text,将H_speech和text送入草稿模型Md,计算模型输出logits1=Md(H_speech,text),选取logits1[:,-1,:]中最大值在词汇表中的索引即为新转录的文本词元。

...

【技术特征摘要】

1.一种用于自动语音识别推测解码的草稿序列复用方法,具体包括以下步骤:

2.如权利要求1所述的用于自动语音识别推测解码的草稿序列复用方法,其特征在于,步骤1具体为,假设处理批次大小为1,利用音频编码器对语音信号进行特征提取和压缩,将编码后的语音特征记为h_speech,在送入大语言模型时将其投影为形状是(语音特征序列长度,隐藏层维度)的张量。将文本提示和已转录文本记为text,将h_speech和text送入草稿模型md,计算模型输出logits1=md(h_speech,text),选取logits1[:,-1,:]中最大值在词汇表中的索引即为新转录的文本词元。

3.如权利要求2所述的用于自动语音识别推测解码的草稿序列复用方法,其特征在于,设置推测解码的预测长度n,自回归更新键值缓存并解码,将输出的新转录词元序列记为预测序列seq_1。

4.如权利要求2所述的用于自动语音识别推测解码的草稿序列复用方法,其特征在于,步骤2具体为,将h_speech,text和seq_1送入目标大语言模型解码器mt,计算模型输出logits2=mt(h_speech,concat([text,seq_1],dim=-1)),选取logits2[:,-n-1:-1,:],验证词元序列的索引表示为:

5.如权利要求4所述的用于自动语音识别推测解码的草稿序列复用方法,其特征在于,按顺序比对预测序列seq_1和验证序列seq_2中相同位置的词元seq_1[:,i]和seq_2[:,i],若相同,则该词元预测正确,将其加入已转录文本中,更新text=concat([text,seq_1[:,i]],dim=-1),若两个序列中词元完全相同,则本轮验证通过,回到步骤1进行下一轮预测;若在第i个词元处seq_1[:,i]≠s...

【专利技术属性】
技术研发人员:李萌韦临烨仲书璋许颂强王润声
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1