当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于卷积神经网络的伪装语音识别方法技术

技术编号:19429845 阅读:279 留言:0更新日期:2018-11-14 11:30
本发明专利技术公开了一种基于卷积神经网络的伪装语音识别方法,包括以下步骤:对伪装语音和原始语音进行预处理操作;用训练数据对原始卷积神经网络进行训练,训练出一个模型;用测试数据对模型进行检测,同时确定分类的准确率。本发明专利技术的识别方法的准确率较传统方法有1个多百分点的提升,并且设计简单。

【技术实现步骤摘要】
一种基于卷积神经网络的伪装语音识别方法
本专利技术涉及音频取证领域,更具体地,涉及一种基于卷积神经网络的伪装语音识别方法。
技术介绍
由于人们普遍的使用伪装语音来进行社交活动的现象越来越多,对于语音识别系统性能的挑战就越艰巨,因为语音识别系统的性能好坏与输入系统中的语音是否是伪装有密切联系。据了解,语音编辑软件中如Audacity,CoolEdit,PRAAT以及基于MATLAB工具的实时迭代频谱算法得到的伪装语音越来越简单易行。使用人员不需要知道具体的伪装过程就可以轻而易举的改变语音的音调,这种方法广泛地使用在音频取证,娱乐,隐私的保护等方面。科技都是一把双刃剑。除了上述的方便之外,还会衍生很多违法犯罪的行为。如使用伪装后的语音进行电话诈骗,语音支付,以及在线聊天等方面。由于这些高质量的语音编辑软件的产生,伪装语音可以很容易被创造出来并且欺骗自动说话人识别系统,即自动说话人识别系统无法判断出这个嫌疑人的身份,增加了司法人员破案的难度。因此,对于一个给定的语音,十分有必要判断出该语音是否是伪装语音。截至目前为止,对于伪装语音的研究汗牛充栋。大部分是基于伪装语音中的语音转换(voiceconversion)方面的研究,但是极少数是针对伪装语音中的语音转化(voicetransformation)方面的研究。据最新的一项研究,传统方法在基于语音转化的伪装语音方面的研究,其准确率在低伪装因子(±4)时普遍偏低的缺点,本专利技术提出了一种基于卷积神经网络的伪装语音识别方法,结合深度学习的网络架构,使其应用在伪装语音识别方面进行取证研究,实现了较高的音频检测率,并且克服了传统方法中的缺点。
技术实现思路
本专利技术的目的是解决上述一个或多个缺陷,提出一种基于卷积神经网络的伪装语音识别方法。为实现以上专利技术目的,采用的技术方案是:一种基于卷积神经网络的伪装语音识别方法,包括以下步骤:S1:选定语音库并对语音库进行平均律变调,包括原始语音和伪装语音,并将语音库中的数据划分为训练数据和测试数据;S2:对训练数据和测试数据进行切割,同时对切割后的音频片段进行预加重;S3:利用短时傅里叶变换(STFT)对预加重后的音频进行预处理,把一维数据变换为二维矩阵的形式;S4:将训练数据输入到卷积神经网络中进行训练,得到训练好的卷积神经网络模型;S5:将经过预处理后的测试数据输入到训练好的卷积神经网络中进行二分类,得到分类的准确率。优选的是,步骤S1中所述语音库包括TIMIT,NIST,UME这三个语音库。优选的是,步骤S1中所述平均律变调包括对语音库进行f=2α/12·fo12平均律变调,其中,f是指变调后语音的音高,fo是指原始语音的音高,α表示伪装因子,其取值范围为[-11,11]。当α取正数时,音调升高,频谱延长;当α取负数时,音调降低,频谱压缩。优选的是,步骤S2所述对训练数据和测试数据进行切割包括将训练数据和测试数据切割为长度为1秒的语音片段。优选的是,步骤S2所述预加重包括对所有语音进行加重因子为0.98的加重操作。优选的是,步骤S3中所述短时傅里叶变换中窗口长度为256,重复点数为96,FFT长度1024。优选的是,步骤S3所述短时傅里叶变换通过spectrogram函数进行。优选的是,步骤S4所述卷积神经网络为4层的卷积神经网络架构,同时具有3层pooling层,激活函数选择ReLu函数,以及在第一层卷积层之后加上归一化层,即BN层,最后使用Softmax层进行分类,而在Softmax层前加上一个Dropout层,用来减少参数,防止过拟合的现象。优选的是,步骤S5所述的准确率的计算公式为d=(Sd+Od)/(S+O),其中S表示的是测试数据中伪装语音的个数,O表示的是测试数据中原始语音的个数,Sd表示的是从伪装语音中判断为伪装语音的个数,Od表示的是从原始语音中判断为原始语音的个数,等式左边的d就是通过计算得到的准确率。与现有技术相比,本专利技术的有益效果是:本专利技术克服了传统方法中在伪装因子为±4的检测中准确率较低的缺点,有高达4个百分点的提升,这对低变调因子的检测有历史性的意义,因为±4变调因子能够很好的伪装语音,同时又不被人发现,是一个高质量的伪装因子选择。而本专利技术能够针对这种高质量的伪装进行很好的识别,有效地提高了自动说话人识别系统的性能。附图说明图1为本专利技术的流程图;图2为原始语音,升调语音,以及降调语音通过Audacity变调软件得到的基频图;图3为本专利技术提出的网络框架图;图4为来自NIST语料库的变调因子为±4的本专利技术的准确率与传统方法的准确率对比图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;以下结合附图和实施例对本专利技术做进一步的阐述。实施例1一种基于卷积神经网络的伪装语音识别方法,请参考图1,包括以下步骤:S1:选定语音库并对语音库进行平均律变调,包括原始语音和伪装语音,并将语音库中的数据划分为训练数据和测试数据。如图2,首先对原始语音,升调语音以及降调语音进行感性化的认识,本专利技术首先对经过Audacity软件进行变调的语音画出原始语音,升调语音以及降调语音的基频图来说明,本专利技术能够有效地对伪装语音进行区分。从图中可以看出,三者在变调因子为±6时区别十分明显。基于此设计出本专利技术的完整流程图。三个语音库分别为TIMIT,NIST,UME这三个语音库,因为这是在语音取证领域中通常使用到的三个语料库,具有一定程度的普遍性;对这三个语音库进行f=2α/12·fo12平均律变调,其中,f是指变调后语音的音高,fo是指原始语音的音高,α表示伪装因子,其取值范围为[-11,11]。当α取正数时,音调升高,频谱延长;当α取负数时,音调降低,频谱压缩。S2:对训练数据和测试数据进行切割,同时对切割后的音频片段进行预加重;对原始语音和伪装语音进行切割,切分成长度为1秒的语音片段,这样有助于后面的语音预处理,同时进行语音的预加重。预加重包括对所有语音进行加重因子为0.98的加重操作。S3:利用短时傅里叶变换(STFT)对预加重后的音频进行预处理,把一维数据变换为二维矩阵的形式;使用MATLAB对预加重后的音频进行短时傅里叶变换(STFT),其中使用到了spectrogram函数进行短时傅里叶变换。其中短时傅里叶变换中窗口长度为256,重复点数为96,FFT长度1024。S4:将训练数据输入到卷积神经网络中进行训练,得到训练好的卷积神经网络模型;本专利技术提出了一个4层的卷积神经网络架构,同时具有3层pooling层,激活函数选择ReLu函数,以及在第一层卷积层之后加上归一化层,即BN层,最后使用Softmax层进行分类,而在Softmax层前加上一个Dropout层,用来减少参数,防止过拟合的现象。请参考图3,输入的数据形式为513×49,其第一层卷积层(Conv1)使用的卷积核大小为10×1,滤波器个数为16个,随后加上一层归一化层,经过ReLu的激活函数,以及平均池化层(1×3);然后送入第二层卷积层(Conv2),卷积核大小为16×1,滤波器个数为16个,随后经过ReLu的激活函数,以及平均池化层(1×3);然后经过第三层卷积层,卷积核大小为24×1,滤波器个数为24个,随后经过ReLu激活函数,以及平均池化本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的伪装语音识别方法,其特征在于,包括以下步骤:S1:选定语音库并对语音库进行平均律变调,包括原始语音和伪装语音,并将语音库中的数据划分为训练数据和测试数据;S2:对训练数据和测试数据进行切割,同时对切割后的音频片段进行预加重;S3:利用短时傅里叶变换(STFT)对预加重后的音频进行预处理,把一维数据变换为二维矩阵的形式;S4:将训练数据输入到卷积神经网络中进行训练,得到训练好的卷积神经网络模型;S5:将经过预处理后的测试数据输入到训练好的卷积神经网络中进行二分类,得到分类的准确率。

【技术特征摘要】
1.一种基于卷积神经网络的伪装语音识别方法,其特征在于,包括以下步骤:S1:选定语音库并对语音库进行平均律变调,包括原始语音和伪装语音,并将语音库中的数据划分为训练数据和测试数据;S2:对训练数据和测试数据进行切割,同时对切割后的音频片段进行预加重;S3:利用短时傅里叶变换(STFT)对预加重后的音频进行预处理,把一维数据变换为二维矩阵的形式;S4:将训练数据输入到卷积神经网络中进行训练,得到训练好的卷积神经网络模型;S5:将经过预处理后的测试数据输入到训练好的卷积神经网络中进行二分类,得到分类的准确率。2.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法,其特征在于,步骤S1中所述语音库包括TIMIT,NIST,UME这三个语音库。3.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法,其特征在于,步骤S1中所述平均律变调包括对语音库进行f=2α/12.fo12平均律变调,其中,f是指变调后语音的音高,fo是指原始语音的音高,α表示伪装因子,其取值范围为[-11,11]。当α取正数时,音调升高,频谱延长;当α取负数时,音调降低,频谱压缩。4.根据权利要求1所述的一种基于卷积神经网络的伪装语音识别方法,其特征在于,步骤S2所述对训练数据和测试数据进行切割包括将训练数据和测试数据切割为长度为1秒的语音...

【专利技术属性】
技术研发人员:康显桂梁惠欣
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1