一种语音识别方法、语音识别装置及终端设备制造方法及图纸

技术编号：26602176 阅读：26 留言：0更新日期：2020-12-04 21:25

本申请提供了一种语音识别方法、语音识别装置及终端设备，所述方法包括：获取待识别的语音信号；提取该语音信号的特征，得到该语音信号的特征序列；将该特征序列输入至训练后的第一神经网络模型，以使得该第一神经网络模型识别所述语音信号，得到该第一神经网络模型输出的第一信号，该第一信号用于表示所述语音信号的文字信息；其中，所述第一神经网络模型为基于注意力机制的编解码模型，该编解码模型包括编码模型以及解码模型，所述编码模型以及所述解码模型均包括多头注意力层multi‑head attention layer；该编码模型中每个前馈层feed forward layer均连接有多头注意力层，该解码模型中每个前馈层也均连接有多头注意力层。本申请可以在一定程度上提高语音识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、语音识别装置及终端设备
本申请属于语音识别
，尤其涉及一种语音识别方法、语音识别装置、终端设备及计算机可读存储介质。
技术介绍
语音识别已经深入人们的生活(比如，微信APP的语音转文字功能)，然而，目前的语音识别技术，识别出的文字有可能与我们想表达的意思并不相同，比如，对语音“我要看电影”的语音识别的结果可能是“我要看店”或者是“我药看电影”。因此，目前亟待提出一种具有较高识别准确率的语音识别方法。
技术实现思路
有鉴于此，本申请提供了一种语音识别方法、语音识别装置、终端设备及计算机可读存储介质，可以在一定程度上提高语音信号的识别准确率。本申请第一方面提供了一种语音识别方法，包括：获取待识别的语音信号；提取上述语音信号的特征，得到上述语音信号的特征序列；将上述特征序列输入至训练后的第一神经网络模型，以使得该训练后的第一神经网络模型识别上述语音信号，得到上述第一神经网络模型输出的第一信号，该第一信号用于表示上述语音信号的文字信息；其中，上述第一...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n获取待识别的语音信号；/n提取所述语音信号的特征，得到所述语音信号的特征序列；/n将所述特征序列输入至训练后的第一神经网络模型，以使得所述训练后的第一神经网络模型识别所述语音信号，得到所述第一神经网络模型输出的第一信号，所述第一信号用于表示所述语音信号的文字信息；/n其中，所述第一神经网络模型为基于注意力机制的编解码模型，该编解码模型包括编码模型以及解码模型，所述编码模型以及所述解码模型均包括多头注意力层multi-headattention layer；/n所述编码模型中每个前馈层feed forward layer均连接有多头注意力层，所述解码模...

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
获取待识别的语音信号；
提取所述语音信号的特征，得到所述语音信号的特征序列；
将所述特征序列输入至训练后的第一神经网络模型，以使得所述训练后的第一神经网络模型识别所述语音信号，得到所述第一神经网络模型输出的第一信号，所述第一信号用于表示所述语音信号的文字信息；
其中，所述第一神经网络模型为基于注意力机制的编解码模型，该编解码模型包括编码模型以及解码模型，所述编码模型以及所述解码模型均包括多头注意力层multi-headattentionlayer；
所述编码模型中每个前馈层feedforwardlayer均连接有多头注意力层，所述解码模型中每个前馈层也均连接有多头注意力层。

2.如权利要求1所述的语音识别方法，其特征在于，所述语音信号为中文语音信号，所述文字信息为所述语音信号的拼音信息；
相应地，在所述将所述特征序列输入至训练后的第一神经网络模型，以使得所述训练后的第一神经网络模型识别所述语音信号，得到所述第一神经网络模型输出的第一信号的步骤之后，所述语音识别方法还包括：
将所述第一信号输入至训练后的第二神经网络模型，得到所述第二神经网络模型输出的第二信号，所述第二信号用于表示所述语音信号的中文文字信息或外文文字信息，所述第二神经网络模型模型为循环神经网络RNN模型或者卷积神经网络CNN模型。

3.如权利要求1或2所述的语音识别方法，其特征在于，所述编码模型中前馈层以及多头注意力层的层数均为N1，所述解码模型中前馈层以及多头注意力层的层数均为N2，所述N1以及所述N2均为大于0的整数；
相应地，所述编码模型中前馈层与多头注意力层的连接方式具体为：
所述编码模型中的第i1层前馈层的输入端连接所述编码模型中的第i1层多头注意力层的输出端，i1＝1……N1；
若N1>1时，所述编码模型中第j1层前馈层的输出端还与所述编码模型中的第j1+1层多头注意力层的输入端相连，j1＝1……N1-1；
相应地，所述解码模型中前馈层与多头注意力层的连接方式具体为：
所述解码模型中的第i2层前馈层的输入端连接所述解码模型中第i2层多头注意力层的输出端，i2＝1……N2；
若N2>1时，所述解码模型中的第j2层前馈层的输出端还与所述解码模型中的第j2+1层多头注意力层的输入端相连，j2＝1……N2-1。

4.如权利要求3所述的语音识别方法，其特征在于，若N2>1，所述解码模型中第i3层前馈层对应有第i3层掩饰多头注意力层maskmulti-headattentionlayer，i3＝2……N2；
相应地，所述解码模型中的第j2层前馈层的输出端还与所述解码模型中的第j2+1层多头注意力层的输入端相连，具体为：
所述解码模型中的第j2层前馈层的输出端通过所述解码模型中第j2+1层掩饰多头注意力层与所述解码模型中的第j2+1层多头注意力层的输入端相连。

5.如权利要求4所述的语音识别方法，其特征在于，所述编码模型以及所述解码模型均包括全连接层denselayer，所述编码模型还包括位置嵌入层positionembeddinglayer，所述解码模型还包括最大值层argmaxlayer；
所述编码模型的全连接层以及所述编码模型的位置嵌入层用于...

【专利技术属性】
技术研发人员：陈明，
申请(专利权)人：武汉TCL集团工业研究院有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人