The present invention relates to the field of speech processing technology, in particular to a speech restoration method based on convolutional neural network, including: acquiring electronic camouflage speech; adopting preprocessing model to preprocess electronic camouflage speech, in order to convert electronic camouflage speech into standard speech sequence with preset dimension; and adopting restoring model to convert standard speech sequence. Column restoration is the original speech sequence; in section 2, the pretreatment process includes formant breakage cleaning, formant merging optimization and formant sequence adjustment; convolutional neural network is used to restore the electronic camouflage speech, which has a high enough restoring effect and can meet the high requirements of the electronic camouflage speech restoring scene.
【技术实现步骤摘要】
一种基于卷积神经网络的语音还原方法
本专利技术涉及语音处理
,尤其涉及一种基于卷积神经网络的语音还原方法。
技术介绍
随着信息技术的不断发展,说话人识别技术取得了长足的进步,语音的说话人个性特征分析和研究得到了广泛关注。然而,伪装语音的出现,使说话人识别的研究工作受到了前所未有的挑战。广义的伪装语音是指不管原因如何,对于正常语音的任何改变、扭曲或偏离都可以称作伪装语音。狭义的伪装是指刻意伪装,即以掩盖身份为目的,对正常语音的故意扭曲。在犯罪案件中,犯罪分子为了掩盖真实身份,常常通过使用电子伪装语音的手段来伪装自己的发音,逃避打击。电子伪装语音是指采用电子设备或语音处理软件对说话人的原始语音通过变声伪装处理后生成的畸变语音。电子伪装语音对说话人身份伪装程度较高,它改变了说话人原始语音中的声学个性特征,不仅仅从人耳听觉上无法辨认说话人,而且通过电声学仪器检测也难以确认。语音是人身识别的重要生物特征,电子伪装语音的出现,则会使语音鉴定工作难上加难。因此,深入研究各种电子伪装语音的特点,提取变化最为明显的特征参量,归纳电子伪装语音的变化规律,设计针对电子伪装语音的还原方法,使之能对变化多端的电子伪装语音进行还原,对于说话人的识别认定和其证据效力的发挥具有重要意义。电子伪装语音还原是指通过一定的算法或模型来弱化或消除电子伪装语音的伪装特性,并生成较电子伪装语音更为接近原始语音的还原语音的过程。由于电子伪装语音一般基于某种算法来实现自身声学特征的改变,原始语音转换为电子伪装语音的过程中存在着一定的变化规律。而语音又具有短时平稳特性,故而通过统计对比原始语音与电子 ...
【技术保护点】
1.一种基于卷积神经网络的语音还原方法,其特征在于,包括预设一预处理模型和一还原模型;所述还原模型中包括一卷积神经网络以及一初始还原因子,所述还原模型通过所述卷积神经网络对所述初始还原因子进行训练,生成用于控制所述还原模型的还原过程的还原因子;所述卷积神经网络中包括相连的扩大因果卷积层以及子控制层,所述子控制层用于将所述初始还原因子转换成一预设维度的序列;所述语音还原方法还包括:步骤S1,采集所述电子伪装语音,同时提取所述电子伪装语音中的声学参数;步骤S2,采用所述预处理模型对所述声学参数进行预处理,以将所述声学参数转换为具有所述预设维度的标准序列;步骤S3,采用所述还原模型将所述电子伪装语音还原为还原语音序列,且所述还原模型根据所述标准序列完成对所述标准语音序列的还原;其中,所述步骤S2中,所述预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整。
【技术特征摘要】
1.一种基于卷积神经网络的语音还原方法,其特征在于,包括预设一预处理模型和一还原模型;所述还原模型中包括一卷积神经网络以及一初始还原因子,所述还原模型通过所述卷积神经网络对所述初始还原因子进行训练,生成用于控制所述还原模型的还原过程的还原因子;所述卷积神经网络中包括相连的扩大因果卷积层以及子控制层,所述子控制层用于将所述初始还原因子转换成一预设维度的序列;所述语音还原方法还包括:步骤S1,采集所述电子伪装语音,同时提取所述电子伪装语音中的声学参数;步骤S2,采用所述预处理模型对所述声学参数进行预处理,以将所述声学参数转换为具有所述预设维度的标准序列;步骤S3,采用所述还原模型将所述电子伪装语音还原为还原语音序列,且所述还原模型根据所述标准序列完成对所述标准语音序列的还原;其中,所述步骤S2中,所述预处理的过程包括共振峰折损清洗、共振峰合并优化以及共振峰序列调整。2.根据权利要求1所述的语音还原方法,其特征在于,所述扩大因果卷积层中采用了门激活单元对来自所述子控制层的输入进行非线性转换过程。3.根据权利要求2所述的语音还原方法,其特征在于,所述门激活单元采用以下函数进行所述非线性转换过程:式中,为输入的电子伪装语音序列,*表示卷积运算,σ()表示Sigmoid函数,Wf,k表示学习型的卷积滤波器指数,表示滤波卷积滤波器,表示门控卷积滤波器,表示门激活函数,h表示所述还原因子,k表示层数,f表示滤波系数,g表示门控系数。4.根据权利要求1所述的语音还原方法,其特征在于,所述卷积神经网络还包括连接所述因果卷积层的输出的跃层残差结构;所述跃层残差结构用于将任一前卷积层前的输入数据恒等映射至相隔预设层数的后卷积层,并叠加于经所述后卷积层计算所得的残差后输出。5.根据权利要求1所述的语音还原方法,其特征在于,还包括:步骤S4,对所述还原语音序列的数据进行分类输出。6.根据权利要求5所述的语音还原方法,其特征在于,所述步骤S4具体包括:步骤S41,采用Softmax函数对还原后的数据进行离散化分类,实现所述还原语音序列的数据序列归一化;步骤S42,对数据序列归一化后的所述还原语音序列进行μ-law压扩转换,以降低输出运算量。7.根据权利要求6所述的语音还原方法,其特征在于,所述Softmax函数为:式中,为输入的还原语音序列,N为向量维度。8.根据权利要求6所述的语音还原方法,其特征在于,所述μ-law压扩转换采用以下函数完成:且μ=255式中,为输入的数据序列归一化后的所述还原语音序列。9.根据权利要求1所述的语音还原方法,其特征在于,所述共振峰折损清洗包括:步骤A1,提取所述电子伪装语音中的非齐次韵母的共振峰数据对,进行声纹比对后确认...
【专利技术属性】
技术研发人员:张晓,施正昱,杨涛,管林玉,蔡立明,田晶林,
申请(专利权)人:公安部第三研究所,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。