一种语音识别方法及设备技术

技术编号：27659054 阅读：18 留言：0更新日期：2021-03-12 14:25

本申请适用于通信技术领域，提供了一种语音识别方法及设备，包括：获取待识别的语音信息；将所述语音信息转换成预设维度的初始语音向量；采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。上述方法，输入语音识别模型的是原始语音信息，在数据输入语音识别模型前无需提取语音特征，提升了识别速度，并且语音识别模型可提取原始语音信息的完整的特征信息，不会导致原始语音信息的部分信息丢失，提高了语音识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法及设备
本申请属于通信
，尤其涉及一种语音识别方法及设备。
技术介绍
语音识别技术，也被称为自动语音识别(AutomaticSpeechRecognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码、字符序列或文本信息等。现有技术中的语音识别方法通常需要从待识别的语音信息中提取语音特征信息，再将提取的语音特征信息输入基于机器学习算法训练得到的声学模型进行处理，得到语音识别结果。然而，语音识别设备在提取语音特征的过程中需要耗费一定的硬件资源，数据处理速度变慢，从而导致在通过声学模型进行语音识别时，语音识别速度变慢，同时，由于在特征提取的过程中会导致原始信号中的部分信息丢失，导致语音识别结果不准确。
技术实现思路
有鉴于此，本申请实施例提供了一种语音识别方法及设备，以解决现有的语音识别方法识别速度较慢，在特征提取的过程中原始信号中的部分信息丢失，导致语音识别结果不准确的问题。本申请实施例的第一方面提供了一种语音识别方法，包括：获取待识别的语音信息；将所述语音信息转换成预设维度的初始语音向量；采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。本申请实施例的第二方面提供了一种语音识别装置，包括：获取单元，用于获取待识别的语音信息...

【技术保护点】
1.一种语音识别方法，其特征在于，包括：/n获取待识别的语音信息；/n将所述语音信息转换成预设维度的初始语音向量；/n采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：
获取待识别的语音信息；
将所述语音信息转换成预设维度的初始语音向量；
采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的预测文本信息；其中，所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。

2.如权利要求1所述的语音识别方法，其特征在于，所述语音识别模型包括采样层、语意分析层以及语音识别层；所述采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的文本信息，包括：
将所述初始语音向量输入所述语音识别模型的采样层进行卷积和下采样处理，得到所述初始语音向量对应的局部特征信息向量；其中，所述局部特征信息向量用于标识所述初始语音向量对应的局部特征；
将所述局部特征信息向量输入所述语音识别模型的语意分析层进行处理，确定所有所述局部特征信息向量的上下文信息，并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量；其中，所述语音序列特征向量用于标识所有所述局部特征的上下文关系；
将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理，得到所述语音信息对应的预测文本信息。

3.如权利要求1或2所述的语音识别方法，其特征在于，所述采用预设的语音识别模型对所述初始语音向量进行处理，得到所述语音信息对应的文本信息之前，还包括：
将训练样本集合中的样本语音信息转换成预设维度的样本语音向量；其中，所述训练样本集合包括多个样本语音信息及各个样本语音信息分别对应的样本文本信息；
将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果；
根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息，对所述深度学习网络的模型参数进行修正，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果的步骤，直至所述深度学习网络的训练情况满足第一预设条件，得到所述语音识别模型。

4.如权利要求3所述的语音识别方法，其特征在于，所述根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息，对所述深度学习网络的模型参数进行修正，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果的步骤，直至所述深度学习网络的训练情况满足第一预设条件，得到所述语音识别模型，包括：
通过预设的损失函数评估样本语音信息对应的文本识别结果与样本文本信息之间的差异度；
当所述差异度不满足第二预设条件时，调整所述深度学习网络的模型参数，并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果；
当所述差异度满足所述第二预设条件时，停止训练所述深度学习网络，并将训练后的深度学习网络作为所述语音识别模型。

5.如权利要求3所述的语音识别方法，其特征在于，所述语音识别模型包括采样层、语意分析层以及语音识别层；所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理，得到文本识别结果，包括：
将样本语音信息对应...

【专利技术属性】
技术研发人员：陈明，
申请(专利权)人：武汉TCL集团工业研究院有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人