一种语音识别方法及设备技术

技术编号:27659054 阅读:18 留言:0更新日期:2021-03-12 14:25
本申请适用于通信技术领域,提供了一种语音识别方法及设备,包括:获取待识别的语音信息;将所述语音信息转换成预设维度的初始语音向量;采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的预测文本信息;所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。上述方法,输入语音识别模型的是原始语音信息,在数据输入语音识别模型前无需提取语音特征,提升了识别速度,并且语音识别模型可提取原始语音信息的完整的特征信息,不会导致原始语音信息的部分信息丢失,提高了语音识别的准确度。

【技术实现步骤摘要】
一种语音识别方法及设备
本申请属于通信
,尤其涉及一种语音识别方法及设备。
技术介绍
语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码、字符序列或文本信息等。现有技术中的语音识别方法通常需要从待识别的语音信息中提取语音特征信息,再将提取的语音特征信息输入基于机器学习算法训练得到的声学模型进行处理,得到语音识别结果。然而,语音识别设备在提取语音特征的过程中需要耗费一定的硬件资源,数据处理速度变慢,从而导致在通过声学模型进行语音识别时,语音识别速度变慢,同时,由于在特征提取的过程中会导致原始信号中的部分信息丢失,导致语音识别结果不准确。
技术实现思路
有鉴于此,本申请实施例提供了一种语音识别方法及设备,以解决现有的语音识别方法识别速度较慢,在特征提取的过程中原始信号中的部分信息丢失,导致语音识别结果不准确的问题。本申请实施例的第一方面提供了一种语音识别方法,包括:获取待识别的语音信息;将所述语音信息转换成预设维度的初始语音向量;采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的预测文本信息;其中,所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。本申请实施例的第二方面提供了一种语音识别装置,包括:获取单元,用于获取待识别的语音信息;转换单元,用于将所述语音信息转换成预设维度的初始语音向量;识别单元,用于采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的预测文本信息;其中,所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。本申请实施例的第三方面提供了一种语音识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的语音识别方法的步骤。本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的语音识别方法的步骤。本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在语音识别设备上运行时,使得语音识别设备执行上述第一方面所述的语音识别方法的步骤。本申请实施例,通过将待识别的语音信息转换成预设维度的初始语音向量后,将其输入语音识别模型进行处理,得到语音信息对应的文本信息。由于在语音识别的过程中,语音识别模型是对原始语音信息对应的向量进行处理得到识别结果,在输入语音识别模型之前,不需要提取原始语音信息的特征信息,可以避免因提取原始语音信息的特征信息占用硬件资源(内存、处理器资源等),而导致的数据处理速度变慢的问题,将可用的硬件资源用于语音识别,从而提高了语音识别效率。并且,在通过语音识别模型是基于原始语音信息对应的向量进行语音识别,是基于完整的原始音频信息进行识别的,可获取到完整的语音特征信息,相对于在提取特征信息后将提取的特征信息输入语音识别模型的方案而言,能够避免在提取特征信息时因丢失部分原始音频信息而导致识别结果不够准确的问题,能够提高语音识别的准确度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请一实施例提供的一种语音识别方法的示意流程图;图2是本申请一实施例提供的一种语音识别模型的网络结构示意图;图3是本申请另一实施例提供的一种语音识别模型的网络结构示意图;图4是本申请另一实施例提供的一种语音识别方法的流程示意图;图5是本申请实施例提供的语音识别装置的示意图;图6是本申请一实施例提供的语音识别设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。请参见图1,图1是本申请一实施例提供的一种语音识别方法的示意流程图。本实施例中语音识别方法的执行主体为语音识别设备,语音识别设备包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑、机器人、服务器等。如图1所示的语音识别方法可包括:S101:获取待识别的语音信息。当用户需要识别语音信息时,可以通过语音识别设备的交换界面触发语音识别指令,或者通过语音触发语音识别设备生成语音识别指令,或者通过语音控制方式向语音识别设备发出用于标识当前需要识别语音信息的指令。语音识别设备在检测到语音识别指令时,可以通过内置的声音拾取装置(例如,麦克风)获取周围环境中的说话人发出的待识别的语音信息;或者语音识别设备根据语音识别指令中包含的文件标识获取该文件标识对应的音频文件或视频文件,并提取音频文件或视频文件中的声音信息,将其识别为待识别的语音信息。音频文件或视频文件可以是用户上传的,也可以从用于存储音频文件或视频文件的服务器或数据库中下载得到,此处不做限制。语音识别设备还可以接收其他设备发送的待识别的语音信息。S102:将所述语音信息转换成预设维度的初始语音向量。语音识别设备将待识别的语音信息转换成预设维度的初始语音向量,以便将原始语音信息对应的向量输入语音识别模型进行处理得到相应的预测结果。语音识别设备在将数据输入语音识别模型之前,不需要提取原始语音信息的特征信息,可以避免因提取原始语音信息的特征信息占用硬件资源(内存、处理器资源等),而导致的数据处理速度变慢的问题。预设维度可以为二维,但并不限于此,可根据实际情况进行设置,此处不做限制。下面以初始语音向量为二维向量为例进行说明。假设,待识别的语音信息为时长为n秒、采样率为16000hz的音频信号,可以将该音频信号转换成一个一维向量,该一维向量可以记为(1,n×16000)。然后,语音识别设备将该一维向量转换成预设维度的初始语音向量。在此过程中,可以将该一维向量看成一个矩阵,通过MATLAB中的reshape函数进行矩阵的转换,得到预设维度的初始语音向量。reshape函数可以重新调整矩阵的行数、列数、维数。需要注意的是,使用reshape函数转换前和转换后的两个矩阵的元素个数必须相同,在本实施例中,转换前的一维向量和转换后的初始语音向量中包含的本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取待识别的语音信息;/n将所述语音信息转换成预设维度的初始语音向量;/n采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的预测文本信息;其中,所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信息;
将所述语音信息转换成预设维度的初始语音向量;
采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的预测文本信息;其中,所述语音识别模型基于多个样本语音信息的样本语音向量及所述样本语音信息各自对应的样本文本信息对深度学习网络训练得到。


2.如权利要求1所述的语音识别方法,其特征在于,所述语音识别模型包括采样层、语意分析层以及语音识别层;所述采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的文本信息,包括:
将所述初始语音向量输入所述语音识别模型的采样层进行卷积和下采样处理,得到所述初始语音向量对应的局部特征信息向量;其中,所述局部特征信息向量用于标识所述初始语音向量对应的局部特征;
将所述局部特征信息向量输入所述语音识别模型的语意分析层进行处理,确定所有所述局部特征信息向量的上下文信息,并基于所述局部特征信息向量以及所述上下文信息生成语音序列特征向量;其中,所述语音序列特征向量用于标识所有所述局部特征的上下文关系;
将所述语音序列特征向量输入所述语音识别模型的语音识别层进行处理,得到所述语音信息对应的预测文本信息。


3.如权利要求1或2所述的语音识别方法,其特征在于,所述采用预设的语音识别模型对所述初始语音向量进行处理,得到所述语音信息对应的文本信息之前,还包括:
将训练样本集合中的样本语音信息转换成预设维度的样本语音向量;其中,所述训练样本集合包括多个样本语音信息及各个样本语音信息分别对应的样本文本信息;
将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理,得到文本识别结果;
根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息,对所述深度学习网络的模型参数进行修正,并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理,得到文本识别结果的步骤,直至所述深度学习网络的训练情况满足第一预设条件,得到所述语音识别模型。


4.如权利要求3所述的语音识别方法,其特征在于,所述根据样本语音信息对应的文本识别结果和样本语音信息对应的样本文本信息,对所述深度学习网络的模型参数进行修正,并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理,得到文本识别结果的步骤,直至所述深度学习网络的训练情况满足第一预设条件,得到所述语音识别模型,包括:
通过预设的损失函数评估样本语音信息对应的文本识别结果与样本文本信息之间的差异度;
当所述差异度不满足第二预设条件时,调整所述深度学习网络的模型参数,并返回执行所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理,得到文本识别结果;
当所述差异度满足所述第二预设条件时,停止训练所述深度学习网络,并将训练后的深度学习网络作为所述语音识别模型。


5.如权利要求3所述的语音识别方法,其特征在于,所述语音识别模型包括采样层、语意分析层以及语音识别层;所述将样本语音信息对应的样本语音向量输入所述深度学习网络进行处理,得到文本识别结果,包括:
将样本语音信息对应...

【专利技术属性】
技术研发人员:陈明
申请(专利权)人:武汉TCL集团工业研究院有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1