语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:17941606 阅读:21 留言:0更新日期:2018-05-15 21:31
本申请涉及一种语言识别方法、装置、计算机设备和存储介质,上述方法通过从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。通过将带下采样的延时神经网络和第二神经网络共同对语音数据进行识别得到更好语音识别结果。

Speech recognition method, device, computer equipment and storage medium

The present application relates to a language identification method, device, computer device and storage medium. The above method obtains the target network layer from the network layer of the delayed neural network sampled under the band, and adds second neural networks to the target network layer, and the output data of the target network layer is used as the second neural network. The second neural network includes at least one layer of network, obtaining the speech data to be identified, and identifying the identified speech by the delayed neural network of the down sampling and the second neural network in the delay neural network which is input to the down sampling of the identified speech data. The corresponding speech recognition results. By recognizing the speech data with the delayed neural network and the second neural network, we can get better speech recognition results.

【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质
本申请涉及音频处理
,特别是涉及一种语音识别方法、装置、计算机设备和存储介质。
技术介绍
语音识别技术,广泛来说是指语意识别和声纹识别;从狭义上来说指语音语义的理解识别,也称为自动语音识别。语音识别技术是一种利用计算机将数字语音识别成文字的技术,近年来,语音识别技术取得了很大的进步,在很多领域有广泛的应用。完整的语音识别系统包括语音采样模块、特征提取模块和识别模块。特征提取模块是将输入的数字语音信号转换成识别系统用到的声学特征,语音识别器利用声学模型、词典以及语音模型,根据输入的声学特征,搜索出最佳的识别结果。声学模型作为整个识别系统最为核心的部分,故声学模型的好坏影响整个语音识别系统的性能。现代语音识别系统中,基本都是采用隐马尔科夫模型—深度神经网络作为声学模型,通过该声学模型进行语音识别依旧存在识别率低下的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种提升语音识别率的语音识别方法、装置、计算机设备和存储介质。一种语音识别方法,包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。在其中一个实施例中,对所述目标网络层添加第二神经网络的步骤,包括:当所述第二神经网络为一层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的每一个神经元进行连接;或当所述第二神经网络为多层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的第一层网络的每一个神经元进行连接,所述第二神经网络中相邻两层网络中下一层网络的每一个神经元与上一层网络的每一个神经元进行连接。在其中一个实施例中,所述待识别语音数据为多个语音帧组成,获取待识别语音数据的步骤,包括:获取原始待识别语音数据;对所述原始待识别语音数据进行预加重;将预加重后的所述原始待识别语音数据进行加窗分帧处理,对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据。在其中一个实施例中,对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据的步骤之后,还包括:对所述待识别语音进行端点检测,进行端点检测的步骤包括:计算变换后的每帧语音的能量值;当检测到当前帧之前的连续多帧语音的能量值低于预设能量阈值,且当前帧后续多帧语音的能量值高于预设能量阈值,则所述能量值增大的位置为语音的起始端点;当检测到当前帧前的后续连续多帧语音的能量值低于预设能量阈值,且当前帧之前的连续多帧语音的能量值高于预设能量阈值,则所述能量值减小的位置为语音的结束端点。在其中一个实施例中,所述目标层网络与添加在所述目标层网络中的所述第二神经网络,在所述目标层中实现参数共享,所述参数共享为对于不同时间的输入信号,都采用相同的网络参数进行处理。一种语音识别装置,包括:目标网络层获取模块,用于从带下采样的延时神经网络的网络层中获取目标网络层;第二神经网络添加模块,用于对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;语音识别模块,用于获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。在其中一个实施例中,第二神经网络添加模块包括:第一添加单元,用于当所述第二神经网络为一层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的每一个神经元进行连接;第二添加单元,用于当所述第二神经网络为多层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的第一层网络的每一个神经元进行连接,所述第二神经网络中相邻两层网络中下一层网络的每一个神经元与上一层网络的每一个神经元进行连接。在其中一个实施例中,语音识别模块包括:原始数据获取单元,用于获取原始待识别语音数据;预处理单元,用于对原始待识别语音数据进行预加重,将预加重后的原始待识别语音数据进行加窗分帧处理,对加窗分帧之后的原始待识别语音数据进行变换得到多个语音帧组成的待识别语音数据。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行执行上述语音识别方法的步骤。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述语音识别方法的步骤。上述语音识别方法、装置、计算机设备和存储介质。上述方法通过从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。通过配置能够进行长时间语音检测的带下采样的延时神经网络,即将第二神经网络添加到目标网络层中,对目标网络层中的待识别语音数据做二次处理,即对提取到的待识别语音数据中的语音特征进行分类,得到更为准确的语音特征,提高语音识别的准确率。附图说明图1为一个实施例中语音识别方法的应用环境图;图2为一个实施例中计算机设备的结构框图;图3为一个实施例中语音识别方法的流程示意图;图4为一个实施例中带下采样的延时神经网络的结构示意图;图5为一个实施例中添加了第二神经网络的带下采样的延时神经网络的结构示意图;图6为一个实施例中第二神经网络添加的流程示意图;图7为一个实施例中语音检测识别步骤的流程示意图;图8为一个实施例中端点检测步骤的流程示意图;图9为一个实施例中语音识别装置的结构框图;图10为另一个实施例中第二神经网络添加模块的结构框图;图11为一个实施例中语音识别模块的结构框图;图12为另一个实施例中语音识别模块的结构框图;图13为一个实施例中端点检测单元的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中语音识别方法的应用环境图。参照图1,该语音识别方法应用于语音识别系统。该语音识别系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。图2为一个实施例中计算机设备的内部结构示意图。参照图2,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器、显示器和网络接口。其中,该计算机设备的非易失性存储介质可存储操作系统和实现打开历史单据装置的计算本文档来自技高网...
语音识别方法、装置、计算机设备和存储介质

【技术保护点】
一种语音识别方法,所述方法包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。

【技术特征摘要】
1.一种语音识别方法,所述方法包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述目标网络层添加第二神经网络的步骤,包括:当所述第二神经网络为一层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的每一个神经元进行连接;或当所述第二神经网络为多层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的第一层网络的每一个神经元进行连接,所述第二神经网络中相邻两层网络中下一层网络的每一个神经元与上一层网络的每一个神经元进行连接。3.根据权利要求1所述的方法,其特征在于,所述待识别语音数据为多个语音帧组成,获取待识别语音数据的步骤,包括:获取原始待识别语音数据;对所述原始待识别语音数据进行预加重;将预加重后的所述原始待识别语音数据进行加窗分帧处理,对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据。4.根据权利要求3所述的方法,其特征在于,所述对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据的步骤之后,还包括:对所述待识别语音进行端点检测,进行端点检测的步骤包括:计算变换后的每帧语音的能量值;当检测到当前帧之前的连续多帧语音的能量值低于预设能量阈值,且当前帧后续多帧语音的能量值高于预设能量阈值,则所述能量值增大的位置为语音的起始端点;当检测到当前帧前的后续连续多帧语音的能量值低于预设能量阈值,且当前帧之前的连续多帧语音的能量值高于预设能量阈值,则所述能量值减小的位置为语音的结束端点。5.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:张伟彬
申请(专利权)人:深圳市声扬科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1