一种语音识别方法方法技术

技术编号:39568479 阅读:12 留言:0更新日期:2023-12-03 19:19
本申请公开了一种语音识别方法

【技术实现步骤摘要】
一种语音识别方法方法、装置及电子设备


[0001]本申请涉及信息处理
,具体涉及一种语音识别方法

装置及电子设备


技术介绍

[0002]流式语音识别系统是指可以在处理音频流的过程中,支持实时返回识别结果的一类语音识别模型

流式语音识别使用联结时序分类模型
(Connectionist Temporal Classification

CTC)
作为基础模型来构架流式语音识别系统

[0003]目前,现有的流式语音识别系统使用
Transformer
模型,通过应用注意力机制来检测语音流中未来帧的数据并建立相互依赖,从而对语音识别系统进行训练

[0004]然而,在注意力机制对应的掩码矩阵中,每个块
(chunk)
的注意力范围都为掩码矩阵中已识别的块,会导致流式语音识别系统缺乏对待识别块的预测,需要一定的延时才能输出识别结果,进而导致用户发音结束到系统识别出对应文字之间的时间差较大,产生较长的出字时间延迟


技术实现思路

[0005]有鉴于此,本申请提供了一种语音识别方法

装置及电子设备,主要目的在于改善目前现有的在注意力机制对应的掩码矩阵中,每个块的注意力范围都为掩码矩阵中已识别的块,会导致流式语音识别系统缺乏对待识别块的预测,需要一定的延时才能输出识别结果,进而导致用户发音结束到系统识别出对应文字之间的时间差较大,产生较长的出字时间延迟的技术问题

[0006]第一方面,本申请提供了一种语音识别方法,包括:
[0007]获取待识别的语音信息,所述语音信息中包含多个语音信号;
[0008]将所述语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确定所述多个语音信号分别对应的注意力范围,其中,所述注意力矩阵中包含上三角矩阵形式的第一掩码矩阵,所述第一掩码矩阵用于确定每个语音信号的注意力范围为待识别的语音信号对应的块;
[0009]依据所述多个语音信号分别对应的注意力范围,对待识别的语音信息进行语音识别

[0010]第二方面,本申请提供了一种语音识别装置,包括:
[0011]获取模块,被配置为获取待识别的语音信息,所述语音信息中包含多个语音信号;
[0012]匹配模块,被配置为将所述语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确定所述多个语音信号分别对应的注意力范围,其中,所述注意力矩阵中包含上三角矩阵形式的第一掩码矩阵,所述第一掩码矩阵用于确定每个语音信号的注意力范围为待识别的语音信号对应的块;
[0013]识别模块,被配置为依据所述多个语音信号分别对应的注意力范围,对待识别的语音信息进行语音识别

[0014]第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法

[0015]第四方面,本申请提供了一种电子设备,包括存储介质

处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的方法

[0016]借由上述技术方案,本申请提供的一种语音识别方法

装置

系统及电子设备,具体的,获取待识别的语音信息,所述语音信息中包含多个语音信号;将所述语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确定所述多个语音信号分别对应的注意力范围,其中,所述注意力矩阵中包含上三角矩阵形式的第一掩码矩阵,所述第一掩码矩阵用于确定每个语音信号的注意力范围为待识别的语音信号对应的块;依据所述多个语音信号分别对应的注意力范围,对待识别的语音信息进行语音识别

与目前现有技术相比,本申请的注意力矩阵包含第一掩码矩阵,即为注意力矩阵确定的注意力范围更多的关注到待识别的块,增加了流式语音识别系统对待识别块的预测,减少了输出识别结果的时间,可以在一定程度上降低由于每个语音信号的注意力范围不包含待语音信号而造成的语音识别的时间延迟,提高了语音识别的效率

[0017]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的

特征和优点能够更明显易懂,以下特举本申请的具体实施方式

附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理

[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0020]图1示出了本申请实施例提供的一种语音识别方法的流程示意图;
[0021]图2示出了本申请实施例提供的一种应用示例的效果图;
[0022]图3示出了本申请实施例提供的一种应用示例的示意图;
[0023]图4示出了本申请实施例提供的一种应用示例的示意图;
[0024]图5示出了本申请实施例提供的一种语音识别方法的流程示意图;
[0025]图6示出了本申请实施例提供的一种应用示例的示意图;
[0026]图7示出了本申请实施例提供的一种应用示例的效果图;
[0027]图8示出了本申请实施例提供的一种应用示例的效果图;
[0028]图9示出了本申请实施例提供的一种语音识别装置的结构示意图

具体实施方式
[0029]为了能够更清楚地理解本申请的上述目的

特征和优点,下面将对本申请的方案进行进一步描述

需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合

[0030]为了改善目前现有的在注意力机制对应的掩码矩阵中,每个块的注意力范围都为掩码矩阵中已识别的块,会导致流式语音识别系统缺乏对待识别块的预测,需要一定的延时才能输出识别结果,进而导致用户发音结束到系统识别出对应文字之间的时间差较大,产生较长的出字时间延迟的技术问题

本实施例提供了一种语音识别方法,如图1所示,该方法包括:
[0031]步骤
101、
获取待识别的语音信息

[0032]其中,语音信息中包含多个语音信号

[0033]步骤
102、
将语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音信息,所述语音信息中包含多个语音信号;将所述语音信息输入
Transformer
模型中与注意力矩阵进行匹配,确定所述多个语音信号分别对应的注意力范围,其中,所述注意力矩阵中包含上三角矩阵形式的第一掩码矩阵,所述第一掩码矩阵用于确定每个语音信号的注意力范围为待识别的语音信号对应的块;依据所述多个语音信号分别对应的注意力范围,对待识别的语音信息进行语音识别
。2.
根据权利要求1所述的方法,其特征在于,所述
Transformer
模型的训练过程包括:根据所述注意力矩阵创建所述
Transformer
模型;对所述
Transformer
模型进行模型训练
。3.
根据权利要求2所述的方法,其特征在于,在根据所述注意力矩阵创建所述
Transformer
模型之前,所述方法还包括:获取
Transformer
模型中注意力机制对应的第二掩码矩阵,所述第二掩码矩阵用于确定每个语音信号的注意力范围为已识别的语音信号对应的块,所述第二掩码矩阵为下三角矩阵形式;根据所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵
。4.
根据权利要求3所述的方法,其特征在于,根据所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵,包括:基于预设语音识别延时时间和预设语音识别精确度,确定所述第一掩码矩阵和所述第二掩码矩阵之间的目标比例;依据目标比例的所述第一掩码矩阵和所述第二掩码矩阵,确定所述注意力矩阵
。5.
根据权利要求3所述的方法,其特征在于,所述第一掩码矩阵为第二掩码矩阵的转置矩阵
...

【专利技术属性】
技术研发人员:王洲王伟戌商迎新王强强
申请(专利权)人:北京云思智学科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1