The invention provides a speech recognition method and device based on neural network. The method includes subframe processing of the acquired speech signal to be recognized, obtaining the speech frame eigenvector matrix of the speech signal to be recognized, recognizing the speech frame eigenvector matrix with convolutional neural network, obtaining the corresponding text of the speech signal to be recognized, and parsing the speech signal to be recognized. According to the target semantics, a third-party program corresponding to the target semantics is started. The method of artificial intelligence learning for speech recognition solves the problem that the existing technology can only mechanically recognize the existing information in the speech information database, and can not accurately recognize some voice commands with inaccurate or blurred accent.
【技术实现步骤摘要】
一种基于神经网络的语音识别方法及装置
本专利技术涉及
,尤其涉及一种基于神经网络的语音识别方法及装置。
技术介绍
语音识别由于其重要的理论价值与广阔的应用前景,受到人们的广泛重视。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型与动态时间规整等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,人工神经网络、混沌、分形等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此,针对以上问题设计基于神经网络的语音识别方法及装置是十分必要的。将深度学习用于语音识别,目前己经获得了长足的进步。以下介绍几种深度学习:深度神经网络(DeepNeuralNetworks,简称DNNs):该网络提取出的特征有较强的区分性,因此训练出的模型具有较强的区分能力,这种网络通常采用深度信念网络(DeepBeliefNetwork,简称DBN)用作预训练过程,采用DNN-HMM混合网络训练声学模型,在大词汇量语音识别系统中有较广泛的应用。卷积神经网络(ConvolutionalNeuralNetworks,简称CNNs):相比于DNNs,引入了卷积和池化的概念。通过卷积实现对语音特征局部信息的抽取,再通过池化加强模型对特征的鲁棒性。在明显降低模型规模的同时,识别性能更好,且泛化能力更强。递归神经网络(RecurrentNeuralNetworks,简称RNN):目前在语音识别领域最常用的深度网络模型是RNN,它是一种序列 ...
【技术保护点】
1.一种基于神经网络的语音识别方法,其特征在于,所述方法包括:对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。
【技术特征摘要】
1.一种基于神经网络的语音识别方法,其特征在于,所述方法包括:对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。2.如权利要求1所述的方法,其特征在于,利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字具体为:采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。3.如权利要求1所述的方法,其特征在于,解析所述待识别语音信号对应的文字得到目标语义具体包括:将待识别语音信号对应的文字组成至少两种文本语义;按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。4.如权利要求1所述的方法,其特征在于,根据所述目标语义,启动与所述目标语义对应的第三方程序具体包括:根据目标语义确定第三方应用对象;根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。5.如权利要求4所述的方法,其特征在于,所述方法还包括:判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本...
【专利技术属性】
技术研发人员:饶竹一,张云翔,
申请(专利权)人:深圳供电局有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。