一种基于卷积神经网络的伪装语音识别方法技术

技术编号：19429845 阅读：279 留言：0更新日期：2018-11-14 11:30

本发明专利技术公开了一种基于卷积神经网络的伪装语音识别方法，包括以下步骤：对伪装语音和原始语音进行预处理操作；用训练数据对原始卷积神经网络进行训练，训练出一个模型；用测试数据对模型进行检测，同时确定分类的准确率。本发明专利技术的识别方法的准确率较传统方法有1个多百分点的提升，并且设计简单。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的伪装语音识别方法
本专利技术涉及音频取证领域，更具体地，涉及一种基于卷积神经网络的伪装语音识别方法。
技术介绍
由于人们普遍的使用伪装语音来进行社交活动的现象越来越多，对于语音识别系统性能的挑战就越艰巨，因为语音识别系统的性能好坏与输入系统中的语音是否是伪装有密切联系。据了解，语音编辑软件中如Audacity，CoolEdit，PRAAT以及基于MATLAB工具的实时迭代频谱算法得到的伪装语音越来越简单易行。使用人员不需要知道具体的伪装过程就可以轻而易举的改变语音的音调，这种方法广泛地使用在音频取证，娱乐，隐私的保护等方面。科技都是一把双刃剑。除了上述的方便之外，还会衍生很多违法犯罪的行为。如使用伪装后的语音进行电话诈骗，语音支付，以及在线聊天等方面。由于这些高质量的语音编辑软件的产生，伪装语音可以很容易被创造出来并且欺骗自动说话人识别系统，即自动说话人识别系统无法判断出这个嫌疑人的身份，增加了司法人员破案的难度。因此，对于一个给定的语音，十分有必要判断出该语音是否是伪装语音。截至目前为止，对于伪装语音的研究汗牛充栋。大部分是基于伪装语音中的语音转换(voiceconversion)方面的研究，但是极少数是针对伪装语音中的语音转化(voicetransformation)方面的研究。据最新的一项研究，传统方法在基于语音转化的伪装语音方面的研究，其准确率在低伪装因子(±4)时普遍偏低的缺点，本专利技术提出了一种基于卷积神经网络的伪装语音识别方法，结合深度学习的网络架构，使其应用在伪装语音识别方面进行取证研究，实现了较高的音频检测率，并且...

【技术保护点】
1.一种基于卷积神经网络的伪装语音识别方法，其特征在于，包括以下步骤：S1：选定语音库并对语音库进行平均律变调，包括原始语音和伪装语音，并将语音库中的数据划分为训练数据和测试数据；S2：对训练数据和测试数据进行切割，同时对切割后的音频片段进行预加重；S3：利用短时傅里叶变换(STFT)对预加重后的音频进行预处理，把一维数据变换为二维矩阵的形式；S4：将训练数据输入到卷积神经网络中进行训练，得到训练好的卷积神经网络模型；S5：将经过预处理后的测试数据输入到训练好的卷积神经网络中进行二分类，得到分类的准确率。

【技术特征摘要】
1.一种基于卷积神经网络的伪装语音识别方法，其特征在于，包括以下步骤：S1：选定语音库并对语音库进行平均律变调，包括原始语音和伪装语音，并将语音库中的数据划分为训练数据和测试数据；S2：对训练数据和测试数据进行切割，同时对切割后的音频片段进行预加重；S3：利用短时傅里叶变换(STFT)对预加重后的音频进行预处理，把一维数据变换为二维矩阵的形式；S4：将训练数据输入到卷积神经网络中进行训练，得到训练好的卷积神经网络模型；S5：将经过预处理后的测试数据输入到训练好的卷积神经网络中进行二分类，得到分类的准确率。2.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法，其特征在于，步骤S1中所述语音库包括TIMIT，NIST，UME这三个语音库。3.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法，其特征在于，步骤S1中所述平均律变调包括对语音库进行f＝2α/12.fo12平均律变调，其中，f是指变调后语音的音高，fo是指原始语音的音高，α表示伪装因子，其取值范围为[-11,11]。当α取正数时，音调升高，频谱延长；当α取负数时，音调降低，频谱压缩。4.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法，其特征在于，步骤S2所述对训练数据和测试数据进行切割包括将训练数据和测试数据切割为长度为1秒的语音...

【专利技术属性】
技术研发人员：康显桂，梁惠欣，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人