一种语音识别方法、语音识别装置及终端设备制造方法及图纸

技术编号:26602176 阅读:17 留言:0更新日期:2020-12-04 21:25
本申请提供了一种语音识别方法、语音识别装置及终端设备,所述方法包括:获取待识别的语音信号;提取该语音信号的特征,得到该语音信号的特征序列;将该特征序列输入至训练后的第一神经网络模型,以使得该第一神经网络模型识别所述语音信号,得到该第一神经网络模型输出的第一信号,该第一信号用于表示所述语音信号的文字信息;其中,所述第一神经网络模型为基于注意力机制的编解码模型,该编解码模型包括编码模型以及解码模型,所述编码模型以及所述解码模型均包括多头注意力层multi‑head attention layer;该编码模型中每个前馈层feed forward layer均连接有多头注意力层,该解码模型中每个前馈层也均连接有多头注意力层。本申请可以在一定程度上提高语音识别的准确度。

【技术实现步骤摘要】
一种语音识别方法、语音识别装置及终端设备
本申请属于语音识别
,尤其涉及一种语音识别方法、语音识别装置、终端设备及计算机可读存储介质。
技术介绍
语音识别已经深入人们的生活(比如,微信APP的语音转文字功能),然而,目前的语音识别技术,识别出的文字有可能与我们想表达的意思并不相同,比如,对语音“我要看电影”的语音识别的结果可能是“我要看店”或者是“我药看电影”。因此,目前亟待提出一种具有较高识别准确率的语音识别方法。
技术实现思路
有鉴于此,本申请提供了一种语音识别方法、语音识别装置、终端设备及计算机可读存储介质,可以在一定程度上提高语音信号的识别准确率。本申请第一方面提供了一种语音识别方法,包括:获取待识别的语音信号;提取上述语音信号的特征,得到上述语音信号的特征序列;将上述特征序列输入至训练后的第一神经网络模型,以使得该训练后的第一神经网络模型识别上述语音信号,得到上述第一神经网络模型输出的第一信号,该第一信号用于表示上述语音信号的文字信息;其中,上述第一神经网络模型为基于注意力机制的编解码模型,该编解码模型包括编码模型以及解码模型,该编码模型以及该解码模型均包括多头注意力层multi-headattentionlayer;该编码模型中每个前馈层feedforwardlayer均连接有多头注意力层,该解码模型中每个前馈层也均连接有多头注意力层。本申请第二方面提供了一种语音识别装置,包括:语音获取模块,用于获取待识别的语音信号;特征提取模块,用于用于提取上述语音信号的特征,得到该语音信号的特征序列;语音识别模块,用于将上述特征序列输入至训练后的第一神经网络模型,以使得该训练后的第一神经网络模型识别上述语音信号,得到上述第一神经网络模型输出的第一信号,该第一信号用于表示上述语音信号的文字信息;其中,上述第一神经网络模型为基于注意力机制的编解码模型,该编解码模型包括编码模型以及解码模型,该编码模型以及该解码模型均包括多头注意力层multi-headattentionlayer;该编码模型中每个前馈层feedforwardlayer均连接有多头注意力层,该解码模型中每个前馈层也均连接有多头注意力层。本申请第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的语音识别方法。本申请第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的语音识别方法。本申请第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的语音识别方法。由上可见,本申请提供了一种语音识别方法,通过训练后的第一神经网络模型识别待识别的语音信号,得到用于表示该语音信号文字信息的第一信号,其中,该第一神经网络模型为基于注意力机制的编解码模型,该编解码模型中编码模型的每个前馈层均连接多头注意力层,该编解码模型中解码模型的每个前馈层也均连接有多头注意力层,这样可以使得注意力机制嵌入到编码模型的内部结构以及解码模型的内部结构中。注意力机制用于语音识别的神经网络模型中时,可以在一定程度上提高该神经网络模型的语音识别准确度,并且本申请进一步将注意力机制应用在了语音识别的神经网络模型的内部结构中,进一步提高了该神经网络模型的识别准确度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本申请实施例一提供的一种语音识别方法的实现流程示意图;图2是本申请实施例一提供的一种第二神经网络模型的结构示意图;图3是本申请实施例一提供的一种第一神经网络模型的结构示意图;图4是本申请实施例一提供的对附图3所示的第一神经网络模型的一种训练方法示意图;图5是本申请实施例一提供的性能测试结果表;图6是本申请实施例提二供的一种语音识别装置的结构示意图;图7是本申请实施例三提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。本申请实施例提供的语音识别方法适用于终端设备,示例性地,该终端设备包括但不限于:智能手机、数码相机、掌上电脑、笔记本、桌上型计算机、智能可穿戴设备等。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。实施例一下面对本申请实施例一提供的语音识别方法进行描述,该语音识别方法应用于终端设备。请参阅图1,本申请实施例一的语音识别方法包括:在步骤S101中,获取待识别的语音信号;在本申请实施例中,上述待识别的语音信号可以是用户通过麦克风输入至该终端设备的语音信号;或者,可以是用户从互联网上下载的语音信号;或者,还可以是该终端设备本地存储的音视频文件中的语音信号。本申请对上述语音信号的来源不作限定。在步骤S102中,提取上述语音信号的特征,得到该语音信号的特征序列;通常情况下,在利用神经网络模型对语音信号进行处理之前,需要首先对该语音信号进行预处理,即提取该语音信号的特征序列。其中,上述特征序列可以为梅尔Mel频率的倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)、线性感知预测系数(PerceptualLinearPredictive,PLP)或者Mel滤波器组系数(Melfilterbank,FBANK)等。在步骤S103中,将上述特征序列输本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取待识别的语音信号;/n提取所述语音信号的特征,得到所述语音信号的特征序列;/n将所述特征序列输入至训练后的第一神经网络模型,以使得所述训练后的第一神经网络模型识别所述语音信号,得到所述第一神经网络模型输出的第一信号,所述第一信号用于表示所述语音信号的文字信息;/n其中,所述第一神经网络模型为基于注意力机制的编解码模型,该编解码模型包括编码模型以及解码模型,所述编码模型以及所述解码模型均包括多头注意力层multi-headattention layer;/n所述编码模型中每个前馈层feed forward layer均连接有多头注意力层,所述解码模型中每个前馈层也均连接有多头注意力层。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信号;
提取所述语音信号的特征,得到所述语音信号的特征序列;
将所述特征序列输入至训练后的第一神经网络模型,以使得所述训练后的第一神经网络模型识别所述语音信号,得到所述第一神经网络模型输出的第一信号,所述第一信号用于表示所述语音信号的文字信息;
其中,所述第一神经网络模型为基于注意力机制的编解码模型,该编解码模型包括编码模型以及解码模型,所述编码模型以及所述解码模型均包括多头注意力层multi-headattentionlayer;
所述编码模型中每个前馈层feedforwardlayer均连接有多头注意力层,所述解码模型中每个前馈层也均连接有多头注意力层。


2.如权利要求1所述的语音识别方法,其特征在于,所述语音信号为中文语音信号,所述文字信息为所述语音信号的拼音信息;
相应地,在所述将所述特征序列输入至训练后的第一神经网络模型,以使得所述训练后的第一神经网络模型识别所述语音信号,得到所述第一神经网络模型输出的第一信号的步骤之后,所述语音识别方法还包括:
将所述第一信号输入至训练后的第二神经网络模型,得到所述第二神经网络模型输出的第二信号,所述第二信号用于表示所述语音信号的中文文字信息或外文文字信息,所述第二神经网络模型模型为循环神经网络RNN模型或者卷积神经网络CNN模型。


3.如权利要求1或2所述的语音识别方法,其特征在于,所述编码模型中前馈层以及多头注意力层的层数均为N1,所述解码模型中前馈层以及多头注意力层的层数均为N2,所述N1以及所述N2均为大于0的整数;
相应地,所述编码模型中前馈层与多头注意力层的连接方式具体为:
所述编码模型中的第i1层前馈层的输入端连接所述编码模型中的第i1层多头注意力层的输出端,i1=1……N1;
若N1>1时,所述编码模型中第j1层前馈层的输出端还与所述编码模型中的第j1+1层多头注意力层的输入端相连,j1=1……N1-1;
相应地,所述解码模型中前馈层与多头注意力层的连接方式具体为:
所述解码模型中的第i2层前馈层的输入端连接所述解码模型中第i2层多头注意力层的输出端,i2=1……N2;
若N2>1时,所述解码模型中的第j2层前馈层的输出端还与所述解码模型中的第j2+1层多头注意力层的输入端相连,j2=1……N2-1。


4.如权利要求3所述的语音识别方法,其特征在于,若N2>1,所述解码模型中第i3层前馈层对应有第i3层掩饰多头注意力层maskmulti-headattentionlayer,i3=2……N2;
相应地,所述解码模型中的第j2层前馈层的输出端还与所述解码模型中的第j2+1层多头注意力层的输入端相连,具体为:
所述解码模型中的第j2层前馈层的输出端通过所述解码模型中第j2+1层掩饰多头注意力层与所述解码模型中的第j2+1层多头注意力层的输入端相连。


5.如权利要求4所述的语音识别方法,其特征在于,所述编码模型以及所述解码模型均包括全连接层denselayer,所述编码模型还包括位置嵌入层positionembeddinglayer,所述解码模型还包括最大值层argmaxlayer;
所述编码模型的全连接层以及所述编码模型的位置嵌入层用于...

【专利技术属性】
技术研发人员:陈明
申请(专利权)人:武汉TCL集团工业研究院有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1