一种基于卷积神经网络的语音还原方法技术

技术编号:20122574 阅读:48 留言:0更新日期:2019-01-16 12:54
本发明专利技术涉及语音处理技术领域,尤其涉及一种基于卷积神经网络的语音还原方法,包括:步骤S1,采集电子伪装语音;步骤S2,采用预处理模型对电子伪装语音进行预处理,以将电子伪装语音转换为具有预设维度的标准语音序列;步骤S3,采用还原模型将标准语音序列还原为原始语音序列;其中,步骤S2中,预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整;采用了卷积神经网络进行电子伪装语音还原,具有足够高的还原效果,能够满足高要求的电子伪装语音还原场景。

A Speech Recovery Method Based on Convolutional Neural Network

The present invention relates to the field of speech processing technology, in particular to a speech restoration method based on convolutional neural network, including: acquiring electronic camouflage speech; adopting preprocessing model to preprocess electronic camouflage speech, in order to convert electronic camouflage speech into standard speech sequence with preset dimension; and adopting restoring model to convert standard speech sequence. Column restoration is the original speech sequence; in section 2, the pretreatment process includes formant breakage cleaning, formant merging optimization and formant sequence adjustment; convolutional neural network is used to restore the electronic camouflage speech, which has a high enough restoring effect and can meet the high requirements of the electronic camouflage speech restoring scene.

【技术实现步骤摘要】
一种基于卷积神经网络的语音还原方法
本专利技术涉及语音处理
,尤其涉及一种基于卷积神经网络的语音还原方法。
技术介绍
随着信息技术的不断发展,说话人识别技术取得了长足的进步,语音的说话人个性特征分析和研究得到了广泛关注。然而,伪装语音的出现,使说话人识别的研究工作受到了前所未有的挑战。广义的伪装语音是指不管原因如何,对于正常语音的任何改变、扭曲或偏离都可以称作伪装语音。狭义的伪装是指刻意伪装,即以掩盖身份为目的,对正常语音的故意扭曲。在犯罪案件中,犯罪分子为了掩盖真实身份,常常通过使用电子伪装语音的手段来伪装自己的发音,逃避打击。电子伪装语音是指采用电子设备或语音处理软件对说话人的原始语音通过变声伪装处理后生成的畸变语音。电子伪装语音对说话人身份伪装程度较高,它改变了说话人原始语音中的声学个性特征,不仅仅从人耳听觉上无法辨认说话人,而且通过电声学仪器检测也难以确认。语音是人身识别的重要生物特征,电子伪装语音的出现,则会使语音鉴定工作难上加难。因此,深入研究各种电子伪装语音的特点,提取变化最为明显的特征参量,归纳电子伪装语音的变化规律,设计针对电子伪装语音的还原方法,使之能对变化多端的电子伪装语音进行还原,对于说话人的识别认定和其证据效力的发挥具有重要意义。电子伪装语音还原是指通过一定的算法或模型来弱化或消除电子伪装语音的伪装特性,并生成较电子伪装语音更为接近原始语音的还原语音的过程。由于电子伪装语音一般基于某种算法来实现自身声学特征的改变,原始语音转换为电子伪装语音的过程中存在着一定的变化规律。而语音又具有短时平稳特性,故而通过统计对比原始语音与电子伪装语音之间的声纹偏差特征,为电子伪装语音的还原提供依据。但是,现有的电子伪装语音的还原效果不够理想,无法满足对还原效果要求较高的场景。
技术实现思路
针对上述问题,本专利技术提出了一种基于卷积神经网络的语音还原方法,其中,包括预设一预处理模型和一还原模型;所述还原模型中包括一卷积神经网络以及一初始还原因子,所述还原模型通过所述卷积神经网络对所述初始还原因子进行训练,生成用于控制所述还原模型的还原过程的还原因子;所述卷积神经网络中包括相连的扩大因果卷积层以及子控制层,所述子控制层用于将所述初始还原因子转换成一预设维度的序列;所述语音还原方法还包括:步骤S1,采集所述电子伪装语音,同时提取所述电子伪装语音中的声学参数;步骤S2,采用所述预处理模型对所述声学参数进行预处理,以将所述声学参数转换为具有所述预设维度的标准序列;步骤S3,采用所述还原模型将所述电子伪装语音还原为还原语音序列,且所述还原模型根据所述标准序列完成对所述标准语音序列的还原;其中,所述步骤S2中,所述预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整。上述的语音还原方法,其中,所述扩大因果卷积层中采用了门激活单元对来自所述子控制层的输入进行非线性转换过程。上述的语音还原方法,其中,所述门激活单元采用以下函数进行所述非线性转换过程:式中,为输入的电子伪装语音序列,*表示卷积运算,σ()表示Sigmoid函数,Wf,k表示学习型的卷积滤波器指数,表示滤波卷积滤波器,表示门控卷积滤波器,表示门激活函数,h表示所述还原因子,k表示层数,f表示滤波系数,g表示门控系数。上述的语音还原方法,其中,所述卷积神经网络还包括连接所述因果卷积层的输出的跃层残差结构;所述跃层残差结构用于将任一前卷积层前的输入数据恒等映射至相隔预设层数的后卷积层,并叠加于经所述后卷积层计算所得的残差后输出。上述的语音还原方法,其中,还包括:步骤S4,对所述还原语音序列的数据进行分类输出。上述的语音还原方法,其中,所述步骤S4具体包括:步骤S41,采用Softmax函数对还原后的数据进行离散化分类,实现所述还原语音序列的数据序列归一化;步骤S42,对数据序列归一化后的所述还原语音序列进行μ-law压扩转换,以降低输出运算量。上述的语音还原方法,其中,所述Softmax函数为:式中,为输入的还原语音序列,N为向量维度。上述的语音还原方法,其中,所述μ-law压扩转换采用以下函数完成:式中,为输入的数据序列归一化后的所述还原语音序列。上述的语音还原方法,其中,所述共振峰折损清洗包括:步骤A1,提取所述电子伪装语音中的非齐次韵母的共振峰数据对,进行声纹比对后确认出现折损的所述共振峰数据对;步骤A2,按照非零共振峰的数量的大小对所述共振峰数据对中的数据进行区分标记;步骤A3,将区分后的数据中对应共振峰中心频率参数进行交叉相减计算,形成一关于差值的绝对值矩阵;步骤A4,根据所述绝对值矩阵,取不同行和不同列的元素之和最小的矩阵对应的所述共振峰数据对;步骤A5,对所有的非齐次韵母的共振峰数据对进行所述步骤A1~A4,形成折损清洗后的所述共振峰数据对的集合。上述的语音还原方法,其中,所述共振峰合并优化包括:步骤B1,按照预设的一共振峰提取规则提取所述电子伪装语音中的非齐次韵母的共振峰数据对;步骤B2,按照非零共振峰的数量的大小对所述共振峰数据对中的数据进行区分标记;步骤B3,将非零共振峰的数量小的所述数据中的共振峰中心频率参数与相邻的所述共振峰中心频率参数做差,并提取出差值的绝对值最小的一组所述共振峰中心频率参数,记为(fv,1,fv+1,1),并做如下变换:步骤B4,对所有的非齐次韵母的共振峰数据对进行所述步骤B1~B3,形成合并优化后的所述共振峰数据对的集合。上述的语音还原方法,其中,所述共振峰序列调整包括:步骤C1,提取所述电子伪装语音中的非齐次韵母的共振峰中心频率参数按照数值范围分为不同子集合A1,A2,A3,A4,并判断任一子集合Aj(j=1,2,3,4)中元素的数量;于任一子集合Aj(j=1,2,3,4)中仅有1个或0个元素时,若有Aj=Aj+1≠φ,则保留使|j-i|最小的j所对应的Aj,并将Aj+1置为空集,然后对Stm或Spn或Srr的字韵母共振峰进行S0中对应的字韵母共振峰进行同化操作,以保持同一字韵母的共振峰数量和实际位置一致;否则设M12=A1∩A2,M23=A2∩A3,M34=A3∩A4,其中Mj,j+1(j=1,2,3)表示因处于中心频率分布重叠区域而同时出现于Aj和Aj+1中的共振峰的集合;此时位于同一中心频率分布重叠区域的共振峰不超过2个,即card(Mj,j+1)≤2,q=1,2,3,记B1=A1-M12,B2=A2-M12-M23,B3=A3-M23-M34,B4=A4-M34;令其中记为集合Mj-1,j中中心频率最大的共振峰,记为集合Mj,j+1中的中心频率最小的共振峰,则对每一个j=1,2,3,4进行如下计算:式中,[x]表示不大于x的最大整数,x指代运算符号[]中的运算式的运算结果;而后,置集合A1,A2,A3,A4为空,将放入对应的集合Aj当中,使得Aj(j=1,2,3,4)中至多只有一条非零共振峰;步骤C2,对所有的非齐次韵母的共振峰数据对进行所述步骤C1,形成序列调整后的所述共振峰数据对的集合。有益效果:本专利技术提出的一种基于卷积神经网络的语音还原方法,采用了卷积神经网络进行电子伪装语音还原,具有足够高的还原效果,能够满足高要求的电子伪装语音还原场景。附图说明图1为本专利技术一实施例中本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的语音还原方法,其特征在于,包括预设一预处理模型和一还原模型;所述还原模型中包括一卷积神经网络以及一初始还原因子,所述还原模型通过所述卷积神经网络对所述初始还原因子进行训练,生成用于控制所述还原模型的还原过程的还原因子;所述卷积神经网络中包括相连的扩大因果卷积层以及子控制层,所述子控制层用于将所述初始还原因子转换成一预设维度的序列;所述语音还原方法还包括:步骤S1,采集所述电子伪装语音,同时提取所述电子伪装语音中的声学参数;步骤S2,采用所述预处理模型对所述声学参数进行预处理,以将所述声学参数转换为具有所述预设维度的标准序列;步骤S3,采用所述还原模型将所述电子伪装语音还原为还原语音序列,且所述还原模型根据所述标准序列完成对所述标准语音序列的还原;其中,所述步骤S2中,所述预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整。

【技术特征摘要】
1.一种基于卷积神经网络的语音还原方法,其特征在于,包括预设一预处理模型和一还原模型;所述还原模型中包括一卷积神经网络以及一初始还原因子,所述还原模型通过所述卷积神经网络对所述初始还原因子进行训练,生成用于控制所述还原模型的还原过程的还原因子;所述卷积神经网络中包括相连的扩大因果卷积层以及子控制层,所述子控制层用于将所述初始还原因子转换成一预设维度的序列;所述语音还原方法还包括:步骤S1,采集所述电子伪装语音,同时提取所述电子伪装语音中的声学参数;步骤S2,采用所述预处理模型对所述声学参数进行预处理,以将所述声学参数转换为具有所述预设维度的标准序列;步骤S3,采用所述还原模型将所述电子伪装语音还原为还原语音序列,且所述还原模型根据所述标准序列完成对所述标准语音序列的还原;其中,所述步骤S2中,所述预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整。2.根据权利要求1所述的语音还原方法,其特征在于,所述扩大因果卷积层中采用了门激活单元对来自所述子控制层的输入进行非线性转换过程。3.根据权利要求2所述的语音还原方法,其特征在于,所述门激活单元采用以下函数进行所述非线性转换过程:式中,为输入的电子伪装语音序列,*表示卷积运算,σ()表示Sigmoid函数,Wf,k表示学习型的卷积滤波器指数,表示滤波卷积滤波器,表示门控卷积滤波器,表示门激活函数,h表示所述还原因子,k表示层数,f表示滤波系数,g表示门控系数。4.根据权利要求1所述的语音还原方法,其特征在于,所述卷积神经网络还包括连接所述因果卷积层的输出的跃层残差结构;所述跃层残差结构用于将任一前卷积层前的输入数据恒等映射至相隔预设层数的后卷积层,并叠加于经所述后卷积层计算所得的残差后输出。5.根据权利要求1所述的语音还原方法,其特征在于,还包括:步骤S4,对所述还原语音序列的数据进行分类输出。6.根据权利要求5所述的语音还原方法,其特征在于,所述步骤S4具体包括:步骤S41,采用Softmax函数对还原后的数据进行离散化分类,实现所述还原语音序列的数据序列归一化;步骤S42,对数据序列归一化后的所述还原语音序列进行μ-law压扩转换,以降低输出运算量。7.根据权利要求6所述的语音还原方法,其特征在于,所述Softmax函数为:式中,为输入的还原语音序列,N为向量维度。8.根据权利要求6所述的语音还原方法,其特征在于,所述μ-law压扩转换采用以下函数完成:且μ=255式中,为输入的数据序列归一化后的所述还原语音序列。9.根据权利要求1所述的语音还原方法,其特征在于,所述共振峰折损清洗包括:步骤A1,提取所述电子伪装语音中的非齐次韵母的共振峰数据对,进行声纹比对后确认...

【专利技术属性】
技术研发人员:张晓施正昱杨涛管林玉蔡立明田晶林
申请(专利权)人:公安部第三研究所
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1