语音识别方法技术

技术编号:39657837 阅读:16 留言:0更新日期:2023-12-09 11:26
本申请公开了一种语音识别方法

【技术实现步骤摘要】
语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音识别
,更具体的说,是涉及一种语音识别方法

装置

设备及存储介质


技术介绍

[0002]自基于注意力机制的端到端机器翻译框架提出以来,端到端建模思路已成为机器翻译

手写识别

语音识别等序列建模任务中的研究热点

在语音识别任务中,端到端建模方法具有声学和语言联合建模的优点,理论上的潜力很大

[0003]大语言模型
LLM
,是一种人工智能模型,旨在理解和生成人类语言

通过在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结

翻译

情感分析等等
。LLM
的特点是规模庞大,包含数十亿甚至更多的参数,帮助模型学习语言数据中的复杂模式

大语言模型涌现的能力包括上下文学习

指令遵循和循序渐进的推理能力,随着
Ch本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音识别方法,其特征在于,包括:获取输入语音;利用配置的编码器对所述输入语音进行编码,得到音频编码向量;利用配置的解码器处理输入数据并解码得到所述输入语音对应的识别文本,所述输入数据包括所述音频编码向量,或所述输入数据包括所述音频编码向量和提示指令信息,所述提示指令信息包括用于辅助对输入语音进行识别的辅助信息;其中,所述解码器融合有大语言模型结构,以利用所述大语言模型结构对所述输入数据进行处理
。2.
根据权利要求1所述的方法,其特征在于,所述解码器包括:大语言模型
LLM
模块和原始解码模块,所述
LLM
模块共有
N
层,所述原始解码模块共有
M
层;所述输入数据具体包括所述音频编码向量和提示指令信息
。3.
根据权利要求2所述的方法,其特征在于,所述
LLM
模块与所述原始解码模块按照自下而上依次连接;所述
LLM
模块用于对所述输入数据中的所述提示指令信息进行编码,并将提示指令的编码向量传递给所述原始解码模块;所述原始解码模块用于接收所述提示指令的编码向量,以及接收所述编码器传递的所述音频编码向量,基于所述提示指令的编码向量和所述音频编码向量进行解码,得到所述识别文本
。4.
根据权利要求2所述的方法,其特征在于,
P
层所述
LLM
模块及
M
层所述原始解码模块按照自下而上依次连接,每一层所述原始解码模块内部包含自下而上依次连接的原始解码层及1层所述
LLM
模块,
P
层所述
LLM
模块的输出还通过残差连接传递到每一层所述原始解码模块内的所述
LLM
模块,
N=P+M

P
层所述
LLM
模块用于对所述输入数据中的所述提示指令信息进行编码,并将提示指令的编码向量传递给所述原始解码模块;所述原始解码模块用于接收所述提示指令的编码向量,以及接收所述编码器传递的所述音频编码向量,基于所述提示指令的编码向量和所述音频编码向量进行解码,得到所述识别文本
。5.
根据权利要求1所述的方法,其特征在于,所述解码器采用大语言模型
LLM
模块作为主体结构;所述输入数据具体包括所述音频编码向量;则所述利用解码器处理输入数据并解码得到所述输入语音对应的识别文本的过程,包括:将所述音频编码向量输入所述
LLM
模块,由所述
LLM
模块将所述音频编码向量作为隐式的提示指令信息,通过自回归解码方式得到所述输入语音对应的识别文本
。6.
根据权利要求1所述的方法,其特征在于,所述提示指令信息包括:所述输入语音所属的领域信息

说话人信息

语种信息

主题信息中的任意一项或多项
。7.
根据权利要求1所述的方法,其特征在于,所述提示指令信息还包括上下文信息;在所述语音识别方法应用于听写场景时,所述上下文信息包...

【专利技术属性】
技术研发人员:马志强李永超方昕
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1