基于生成式听觉模型的端到端汉语方言识别系统和方法技术方案

技术编号:20179306 阅读:53 留言:0更新日期:2019-01-23 01:11
本发明专利技术公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,涉及语音识别技术领域。该汉语方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别。本发明专利技术公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,可有效提高NN方言识别过程中的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。

An End-to-End Chinese Dialect Recognition System Based on Generative Auditory Model

The invention discloses an end-to-end Chinese dialect recognition system based on a generative auditory model and relates to the field of speech recognition technology. The Chinese dialect recognition system uses CNN analog auditory model to extract features of dialect time domain sound waveform, and then inputs the extracted fixed length feature sequence into RNN, and then connects the full connection layer to softmax for predicting the type of dialect. The invention discloses an end-to-end Chinese dialect recognition system based on a generative auditory model, which can effectively improve the anti-noise performance in the process of NN dialect recognition, and improves the dialect recognition rate at a certain level because it extracts the deep-seated linguistic features of the original sound and its model has certain model information.

【技术实现步骤摘要】
基于生成式听觉模型的端到端汉语方言识别系统和方法
本专利技术涉及语音识别
,具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。
技术介绍
在方言识别(DID)的应用中,已经有些许研究学者提出了用NN来解决方言识别问题,并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中,由于人工设计的特征具有领域局限性,在某一领域的特征集不一定适应另一个领域,而NN在不同领域有一定的推广能力。接着,还出现了大量的变体NN,例如:前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中,RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入,换句话说,就是把刚刚过去的事情联合现在的事情作为输入,来预测接下来会发生的事情,这给了它有限的短期记忆的优势,可以更好地学习语音的时间信息。随后,有研究者使用了LSTM取代了传统的RNN结构。此外,研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域,深度神经网络(DNN)也可以用于DID的特征域。例如:使用DNN来提取i-vector。而在NN时代之前,从听觉模型中提取的特征已经应用于各种语音应用,并且已经证明比传统的语音处理特征更能抵抗噪声,其中,在听觉模型中基底膜模型的主要功能是带通滤波,它是对人耳听觉模型的系统进行有效的模拟。然而,现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息,但因为其使用特征为原始声学特征,从而对噪声的抵抗性较低。因此,鉴于以上问题,有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识别系统,以提高方言识别率。
技术实现思路
为了克服传统的RNN汉语方言识别模型中底层声学特征的抗噪性能低问题,本专利技术提供一种基于生成式听觉模型的RNN方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。根据本专利技术的目的提出的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。优选的,所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层;所述1-DCNN层由36个1-D核组成,2-DCNN层由24个2-D核组成。一种基于生成式听觉模型的端到端汉语方言识别方法,包括以下步骤:步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层;步骤四、使用梯度下降法和反向传播算法训练所属网络系统;步骤五、训练完成后,得到汉语方言识别训练系统的识别率。优选的,步骤一中训练集与测试集的比例为7:3。优选的,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。优选的,步骤三中生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征。优选的,生成式听觉模型中的1-DCNN层由36个1-D核组成,2-DCNN层由24个2-D核组成,1-DCNN层输出的STFT特征由合并层合并成声谱图后,再由2-DCNN层对声谱图进行分解。优选的,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。优选的,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。优选的,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。与现有技术相比,本专利技术公开的一种基于生成式听觉模型的端到端汉语方言识别系统的优点是:使用卷积神经网络模拟声学模型,提取各方言的语言特征,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见的,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域中的普通技术人员来说,在不付出创造性劳动的前提下,还可根据这些附图获得其他附图。图1为本专利技术的整体流程示意图。图2为本专利技术中生成式听觉模型的流程示意图。图3为本专利技术的系统框图。具体实施方式下面结合附图对本专利技术的具体实施方式做简要说明。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,均属于本专利技术保护的范围。图1-图3示出了本专利技术较佳的实施例,分别从不同的角度对其进行了详细的剖析。如图1-3所示的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层。其中,生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层。1-DCNN层由36个1-D核组成,2-DCNN层由24个2-D核组成,1-DCNN层输出的STFT特征由合并层合并成声谱图后,再由2-DCNN层对声谱图进行分解。该生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,可解决现存在的NN方言识别噪声抵抗力弱的问题,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定层度上也提高了方言识别率。具体的,1-D卷积层是模拟耳蜗滤波的方式执行时域卷积,它由36个1-D内核组成。然后将时域波形输入至这36个内核,其输出结果合并为二维类似于声谱图的声学形式。2-D卷积层模拟皮层滤波,它由24个2-D核组成,我们将由上层合并得来的类似声谱图的语音信号输入至其中,用它来分解谱图。然后,可以选择性在其后加入池化层用于降低输出维度,同时保留重要信息,即得到我们需要的语音深层次的语言特征。其中,每个1-DCNN的内核长度设置为200(即25ms),因此,1-D内核的输出可以认为是帧移为10ms的logF频谱图。2-DCNN内核的大小被设置为10X15,2-DCNN可以理解为提取声谱图中更高级的语本文档来自技高网
...

【技术保护点】
1.一种基于生成式听觉模型的端到端汉语方言识别系统,其特征在于,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。

【技术特征摘要】
1.一种基于生成式听觉模型的端到端汉语方言识别系统,其特征在于,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。2.根据权利要求1所述的一种基于生成式听觉模型的端到端汉语方言识别系统,其特征在于,所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层;所述1-DCNN层由36个1-D核组成,2-DCNN层由24个2-D核组成。3.一种使用权利要求1所述的汉语方言识别系统进行汉语方言识别的方法,其特征在于,包括以下步骤:步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层;步骤四、使用梯度下降法和反向传播算法训练所属网络系统;步骤五、训练完成后,得到汉语方言识别训练系统的识别率。4.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤一中训练集与测试集的比例为7:3。5.根据权利要求3...

【专利技术属性】
技术研发人员:齐诏娣马勇顾明亮金赟
申请(专利权)人:江苏师范大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1