一种基于神经网络的语音识别方法及装置制造方法及图纸

技术编号:20007028 阅读:32 留言:0更新日期:2019-01-05 18:39
本发明专利技术提供一种基于神经网络的语音识别方法及装置,所述方法包括对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。本发明专利技术通过人工智能学习的方法进行语音识别,解决了现有技术只能机械地识别语音信息库中已有的信息,无法准确识别一些口音不准或者模糊的语音命令的问题。

A Speech Recognition Method and Device Based on Neural Network

The invention provides a speech recognition method and device based on neural network. The method includes subframe processing of the acquired speech signal to be recognized, obtaining the speech frame eigenvector matrix of the speech signal to be recognized, recognizing the speech frame eigenvector matrix with convolutional neural network, obtaining the corresponding text of the speech signal to be recognized, and parsing the speech signal to be recognized. According to the target semantics, a third-party program corresponding to the target semantics is started. The method of artificial intelligence learning for speech recognition solves the problem that the existing technology can only mechanically recognize the existing information in the speech information database, and can not accurately recognize some voice commands with inaccurate or blurred accent.

【技术实现步骤摘要】
一种基于神经网络的语音识别方法及装置
本专利技术涉及
,尤其涉及一种基于神经网络的语音识别方法及装置。
技术介绍
语音识别由于其重要的理论价值与广阔的应用前景,受到人们的广泛重视。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型与动态时间规整等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,人工神经网络、混沌、分形等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此,针对以上问题设计基于神经网络的语音识别方法及装置是十分必要的。将深度学习用于语音识别,目前己经获得了长足的进步。以下介绍几种深度学习:深度神经网络(DeepNeuralNetworks,简称DNNs):该网络提取出的特征有较强的区分性,因此训练出的模型具有较强的区分能力,这种网络通常采用深度信念网络(DeepBeliefNetwork,简称DBN)用作预训练过程,采用DNN-HMM混合网络训练声学模型,在大词汇量语音识别系统中有较广泛的应用。卷积神经网络(ConvolutionalNeuralNetworks,简称CNNs):相比于DNNs,引入了卷积和池化的概念。通过卷积实现对语音特征局部信息的抽取,再通过池化加强模型对特征的鲁棒性。在明显降低模型规模的同时,识别性能更好,且泛化能力更强。递归神经网络(RecurrentNeuralNetworks,简称RNN):目前在语音识别领域最常用的深度网络模型是RNN,它是一种序列模型,它在神经网络的基础上,考虑相邻语音帧的隐含层单元之间的连接关系,通过按时间反向传播误差调整网络参数训练网络。RNN的分布式隐藏状态能有效存储之前的信息,并且作为非线性动态系统能够使其隐藏层单元以一种复杂的方式更新,结合了这两种特性,使它能够通过递归层识别潜在的时间依赖关系,进行语音识别的任务。联结时间分类(ConnectionistTemporalClassification,简称CTC):是一种对齐模型,能够将深度网络输出与标签文本对齐,计算所有可能路径的概率和作为整个句子的概率,使用CTC能够使得我们不需要对样本进行预先的分割或者后处理,大幅提高了效率。然而,目前的语音识别技术只能机械地识别语音信息库中已有的信息,无法准确识别一些口音不准或者模糊的语音命令,因此容易出现误操作或者误识别或者无法识别,从而限制了语音技术的广泛应用,用户体验效果不佳。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于神经网络的语音识别方法及装置。本专利技术提供的一种基于神经网络的语音识别方法,所述方法包括:对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。进一步地,采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。进一步地,解析所述待识别语音信号对应的文字得到目标语义具体包括:将待识别语音信号对应的文字组成至少两种文本语义;按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。进一步地,根据所述目标语义,启动与所述目标语义对应的第三方程序具体包括:根据目标语义确定第三方应用对象;根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。进一步地,所述方法还包括:判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。本专利技术提供的一种基于神经网络的语音识别装置,所述装置包括:处理模块,用于对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;识别模块,用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析模块,用于解析所述待识别语音信号对应的文字得到目标语义;启动模块,用于根据所述目标语义,启动与所述目标语义对应的第三方程序。进一步地,所述识别模块具体用于:采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。进一步地,所述解析模块具体用于:将待识别语音信号对应的文字组成至少两种文本语义;按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。进一步地,所述启动模块具体用于:根据目标语义确定第三方应用对象;根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。进一步地,所述装置还包括执行模块,所述执行模块具体用于:判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。实施本专利技术,具有如下有益效果:本专利技术通过人工智能方式训练的卷积神经网络,对获取的语音信号进行识别,并且将获取的语音信号对应文本的连贯性和自然性进行评分得到目标语义,解决了现有技术只能机械识别语音信息库已有的信息,无法准确地识别一些口音不准或者模糊的语音命令的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的基于神经网络的语音识别方法的流程图。图2是本专利技术实施例提供的基于神经网络的语音识别装置的结构图。具体实施方式本专利核心内容为利用训练好的卷积神经网络识别语音,以下结合附图和实施例对该方法和装置具体实施方式做进一步说明。下面将详细描述本专利技术提供的一种基于神经网络的语音识别方法及装置的实施例。如图1所示,本专利技术实施例提供了一种基于神经网络的语音识别方法,所述方法包括:步骤S101、对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵。在本专利技术实施例中,可以将待识别语音信号划分为若干语音帧,针对每一个语音帧,计算其梅尔频率倒谱系数以及该梅尔频率倒谱系数的一阶差分和二阶差分,并将该梅尔频率倒谱系数与其一阶差分和二阶差分连接起来,作为该语音帧的特征向量。假定待识别语音信号划分为m个语音帧,语音帧为n维的,因此分帧后获得的语音帧特征向量本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的语音识别方法,其特征在于,所述方法包括:对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。

【技术特征摘要】
1.一种基于神经网络的语音识别方法,其特征在于,所述方法包括:对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。2.如权利要求1所述的方法,其特征在于,利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字具体为:采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。3.如权利要求1所述的方法,其特征在于,解析所述待识别语音信号对应的文字得到目标语义具体包括:将待识别语音信号对应的文字组成至少两种文本语义;按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。4.如权利要求1所述的方法,其特征在于,根据所述目标语义,启动与所述目标语义对应的第三方程序具体包括:根据目标语义确定第三方应用对象;根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。5.如权利要求4所述的方法,其特征在于,所述方法还包括:判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本...

【专利技术属性】
技术研发人员:饶竹一张云翔
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1