基于生成式听觉模型的端到端汉语方言识别系统和方法技术方案

技术编号：20179306 阅读：53 留言：0更新日期：2019-01-23 01:11

本发明专利技术公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法，涉及语音识别技术领域。该汉语方言识别系统，用CNN模拟听觉模型对方言时域声音波形进行特征提取，随后将提取出的固定长度特征序列输入至RNN中，再连接全连接层后进行softmax，用于预测方言类别。本发明专利技术公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法，可有效提高NN方言识别过程中的抗噪性能，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息，所以在一定层度上也提高了方言识别率。

An End-to-End Chinese Dialect Recognition System Based on Generative Auditory Model

The invention discloses an end-to-end Chinese dialect recognition system based on a generative auditory model and relates to the field of speech recognition technology. The Chinese dialect recognition system uses CNN analog auditory model to extract features of dialect time domain sound waveform, and then inputs the extracted fixed length feature sequence into RNN, and then connects the full connection layer to softmax for predicting the type of dialect. The invention discloses an end-to-end Chinese dialect recognition system based on a generative auditory model, which can effectively improve the anti-noise performance in the process of NN dialect recognition, and improves the dialect recognition rate at a certain level because it extracts the deep-seated linguistic features of the original sound and its model has certain model information.

全部详细技术资料下载

【技术实现步骤摘要】
基于生成式听觉模型的端到端汉语方言识别系统和方法
本专利技术涉及语音识别
，具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。
技术介绍
在方言识别(DID)的应用中，已经有些许研究学者提出了用NN来解决方言识别问题，并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中，由于人工设计的特征具有领域局限性，在某一领域的特征集不一定适应另一个领域，而NN在不同领域有一定的推广能力。接着，还出现了大量的变体NN，例如：前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中，RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入，换句话说，就是把刚刚过去的事情联合现在的事情作为输入，来预测接下来会发生的事情，这给了它有限的短期记忆的优势，可以更好地学习语音的时间信息。随后，有研究者使用了LSTM取代了传统的RNN结构。此外，研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域，深度神经网络(DNN)也可以用于DID的特征域。例如：使用DNN来提取i-vector。而在NN时代之前，从听觉模型中提取的特征已经应用于各种语音应用，并且已经证明比传统的语音处理特征更能抵抗噪声，其中，在听觉模型中基底膜模型的主要功能是带通滤波，它是对人耳听觉模型的系统进行有效的模拟。然而，现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息，但因为其使用特征为原始声学特征，从而对噪声的抵抗性较低。因此，鉴于以上问题，有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识...

【技术保护点】
1.一种基于生成式听觉模型的端到端汉语方言识别系统，其特征在于，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征。

【技术特征摘要】
1.一种基于生成式听觉模型的端到端汉语方言识别系统，其特征在于，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征。2.根据权利要求1所述的一种基于生成式听觉模型的端到端汉语方言识别系统，其特征在于，所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层；所述1-DCNN层由36个1-D核组成，2-DCNN层由24个2-D核组成。3.一种使用权利要求1所述的汉语方言识别系统进行汉语方言识别的方法，其特征在于，包括以下步骤：步骤一、构建各地方言数据集并进行标注，其中包括训练集与测试集；步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理，并为每一话语进行标签，其中，标签信息表示对应话语的所属地区；步骤三、构建基于生成式听觉模型的RNN方言识别系统，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征，所述生成式听觉模型各层依次为1-DCNN层、合并层、2-DCNN层；步骤四、使用梯度下降法和反向传播算法训练所属网络系统；步骤五、训练完成后，得到汉语方言识别训练系统的识别率。4.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤一中训练集与测试集的比例为7：3。5.根据权利要求3...

【专利技术属性】
技术研发人员：齐诏娣，马勇，顾明亮，金赟，
申请(专利权)人：江苏师范大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人