The present application relates to a language identification method, device, computer device and storage medium. The above method obtains the target network layer from the network layer of the delayed neural network sampled under the band, and adds second neural networks to the target network layer, and the output data of the target network layer is used as the second neural network. The second neural network includes at least one layer of network, obtaining the speech data to be identified, and identifying the identified speech by the delayed neural network of the down sampling and the second neural network in the delay neural network which is input to the down sampling of the identified speech data. The corresponding speech recognition results. By recognizing the speech data with the delayed neural network and the second neural network, we can get better speech recognition results.
【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质
本申请涉及音频处理
,特别是涉及一种语音识别方法、装置、计算机设备和存储介质。
技术介绍
语音识别技术,广泛来说是指语意识别和声纹识别;从狭义上来说指语音语义的理解识别,也称为自动语音识别。语音识别技术是一种利用计算机将数字语音识别成文字的技术,近年来,语音识别技术取得了很大的进步,在很多领域有广泛的应用。完整的语音识别系统包括语音采样模块、特征提取模块和识别模块。特征提取模块是将输入的数字语音信号转换成识别系统用到的声学特征,语音识别器利用声学模型、词典以及语音模型,根据输入的声学特征,搜索出最佳的识别结果。声学模型作为整个识别系统最为核心的部分,故声学模型的好坏影响整个语音识别系统的性能。现代语音识别系统中,基本都是采用隐马尔科夫模型—深度神经网络作为声学模型,通过该声学模型进行语音识别依旧存在识别率低下的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种提升语音识别率的语音识别方法、装置、计算机设备和存储介质。一种语音识别方法,包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。在其中一个实施例中,对所述目标网络层添加第二神经网络的步骤,包括:当所述第二神经网络为一层神经网络时,将所述目标网络层的中 ...
【技术保护点】
一种语音识别方法,所述方法包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。
【技术特征摘要】
1.一种语音识别方法,所述方法包括:从带下采样的延时神经网络的网络层中获取目标网络层;对所述目标网络层添加第二神经网络,将所述目标网络层的输出数据作为所述第二神经网络的输入数据,所述第二神经网络包括至少一层网络;获取待识别语音数据,将所述待识别语音数据输入所述带下采样的延时神经网络中,通过所述带下采样的延时神经网络和所述第二神经网络对所述待识别语音进行识别,得到对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述对所述目标网络层添加第二神经网络的步骤,包括:当所述第二神经网络为一层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的每一个神经元进行连接;或当所述第二神经网络为多层神经网络时,将所述目标网络层的中的每一个神经元与所述第二神经网络中的第一层网络的每一个神经元进行连接,所述第二神经网络中相邻两层网络中下一层网络的每一个神经元与上一层网络的每一个神经元进行连接。3.根据权利要求1所述的方法,其特征在于,所述待识别语音数据为多个语音帧组成,获取待识别语音数据的步骤,包括:获取原始待识别语音数据;对所述原始待识别语音数据进行预加重;将预加重后的所述原始待识别语音数据进行加窗分帧处理,对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据。4.根据权利要求3所述的方法,其特征在于,所述对加窗分帧之后的所述原始待识别语音数据进行变换得到多个语音帧组成的所述待识别语音数据的步骤之后,还包括:对所述待识别语音进行端点检测,进行端点检测的步骤包括:计算变换后的每帧语音的能量值;当检测到当前帧之前的连续多帧语音的能量值低于预设能量阈值,且当前帧后续多帧语音的能量值高于预设能量阈值,则所述能量值增大的位置为语音的起始端点;当检测到当前帧前的后续连续多帧语音的能量值低于预设能量阈值,且当前帧之前的连续多帧语音的能量值高于预设能量阈值,则所述能量值减小的位置为语音的结束端点。5.根据权利要求1所述的方法,其特征在于...
【专利技术属性】
技术研发人员:张伟彬,
申请(专利权)人:深圳市声扬科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。