一种基于多任务预训练1D-CNN模型的语音检测方法技术

技术编号:38206585 阅读:8 留言:0更新日期:2023-07-21 16:54
本发明专利技术提供了一种基于多任务预训练1D

【技术实现步骤摘要】
一种基于多任务预训练1D

CNN模型的语音检测方法


[0001]本专利技术属于语音识别领域,涉及一种基于多任务预训练1D

CNN模型的语音检测技术。

技术介绍

[0002]随着智能化时代的到来,语音识别技术越来越受到人们的关注。传统的语音识别技术主要依靠高斯混合模型(GMM)和隐马尔可夫模型(HMM)。但是在实际应用中,这种方法存在着许多问题,例如对于噪声和语速变化的鲁棒性较差等。近年来,基于深度学习的语音识别技术逐渐兴起。其中,CNN作为一种广泛应用于图像处理的深度学习模型,也被引入到声音识别领域中。
[0003]目前,已有许多相关技术应用。例如,很多公司的语音助手使用了基于CNN的语音识别技术,可以通过语音控制智能设备,极大地方便了人们的生活。此外,部分大学的研究小组也开发出了一种基于CNN的声纹识别系统,可以用于身份验证等领域。然而,现有技术仍存在一些问题,例如需要大量的数据训练、对于不同说话人之间的差异鲁棒性差、需要手工提取特征、容易受到噪声干扰、模型复杂度大等问题,需要进一步提高语音识别技术的准确性和稳定性。

技术实现思路

[0004]1.所要解决的技术问题:现有的基于CNN的语音识别技术需要大量的数据训练,容易受到噪声干扰,模型复杂度大。
[0005]2.技术方案:为了解决以上问题,本专利技术提供了一种基于多任务预训练1D

CNN模型的语音检测方法,包括以下步骤:步骤S01:语音采集,获取受试者的数据。
[0006]步骤S02:语音信号预处理,具体方法为:步骤S21:从原始语音数据中提取频谱特征。步骤S22:去掉未发声部分,将音频分割成具有固定时间长度的音频帧。步骤S23:通过使用移动窗口提取了一个固定长度的特征片段作为 1D

CNN 的输入。
[0007]步骤S03:ID

CNN模型开发,具体方法为:步骤S31:语音预处理得到的特征片段沿特征轴应用一维卷积滤波器;步骤S32:使用自注意力机制,为每一帧学习了一个加权,并将加权的帧加在一起,将所有帧直接减少到一个维度;:步骤S33:利用辅助信息进行多任务学习对1D

CNN网络进行预训练。利用辅助任务使1D

CNN输出一个低维度特征向量;步骤S34::利用自监督学习来加强训练;步骤S35:以ID

CNN模型为骨干训练1D

CNN,用于通过标记数据检测对象;步骤S36:监督学习将每个人的三种不同情绪的语音分别输入到1D

CNN中,并将所得到的低维度特征向量串联起来,形成一个更高维度的特征向量;并用该特征向量和目标任务的语音分类标签通过监督学习,训练面向目标任务的分类器。
[0008]步骤S04:隐私保护模型的开发; 1D

CNN模型是用户仅使用自己的原始声音数据和可共享的处理数据训练用户自己的模型。
[0009]步骤S05: 模型性能评估。
[0010]步骤S01语音采集的具体方法为:步骤S11:获得每个受试者的书面知情同意。
[0011]步骤S12:采集不同情绪下的语音。
[0012]步骤S13:通过对目标任务有识别能力的人,对受试者进行分类标注。
[0013]步骤S14:对语音文件进行筛选,以检查样本质量,录音长度小于要求,或录音时背景噪音过大,或用多个声音重新编码,被定义为有缺陷的录音。有一个是有缺陷的,这个受试者的所有录音都被排除。
[0014]所述情绪为:在正常情绪、积极情绪和消极情绪。
[0015]所述步骤21中,使用Matlab工具箱 VOICEBOX提取频谱特征,包括美尔

频谱系数(MFCC)和线性预测编码(LPC)MFCC和LPC,对说话者声音的不同特征进行建模。
[0016]所述步骤S22中,使用0.02*fs的滑动窗口和 0.5*0.02*fs的步长来进行MFCC和LPC提取。
[0017]所述移动窗口的大小设定为 1200帧,跨度值为200帧。
[0018]步骤S33中,所述辅助信息包括受试者的性别、年龄、身份信息。
[0019]步骤S34中,采用拼图技术,在1200个特征帧中随机选择两个小帧,并将其调换。通过使用对比性损失来训练1D

CNN 模型来识别应用移动窗口或拼图策略后的类别。
[0020]3.有益效果:本专利技术用预训练处理小样本和隐私保护能快速将语音信号转换成时频图形式,然后将其输入到CNN网络中进行特征提取。而且擅长语音机理分析,使用自我注意力机制对提取的特征进行加权,更好地捕获关键信息并解决长序列建模问题。基于多任务预训练1D

CNN模型的语音诊断技术,将加权特征传递给输出层进行分类或序列建模,具有更强准确性。
附图说明
[0021]图1为本专利技术的流程图。
具体实施方式
[0022]下面通过附图对本专利技术进行详细说明。
[0023]如图1所示,一种基于多任务预训练1D

CNN模型的语音检测方法,包括以下步骤:步骤S01:语音采集,获取受试者的数据。
[0024]步骤S02:语音信号预处理。
[0025]步骤S03:ID

CNN模型开发。
[0026]步骤S04:隐私保护模型的开发。
[0027]步骤S05: 模型性能评估。
[0028]在一个实施例中,在语音采集中,通过以下步骤来获取受试者的数据:步骤S11:获得每个受试者的书面知情同意。
[0029]步骤S12:说话人的情绪对很多语音识别和诊断有显著影响,所以我们要采集不同情绪下的语音。我们要求受试者在正常情绪下阅读预先指定的文本(表示为录音1),以及描述一次积极情绪的经历(表示为录音2)和另一次消极情绪的经历(表示为录音3)。我们记录了所有三个语音信号,每个录音持续了大约30秒。
[0030]步骤S13:目标任务标注,通过对目标任务有识别能力的人,对受试者进行分类标注。
[0031]步骤S14:进行语音质量控制,对语音文件进行筛选,以检查样本质量。录音长度小于要求,或录音时背景噪音过大,或用多个声音重新编码,被定义为有缺陷的录音。如果三个录音中有一个是有缺陷的,这个受试者的所有录音都被排除。
[0032]在一个实施例中,语音信号处理的具体方法为:步骤S21:从原始语音数据中提取频谱特征。该技术使用Matlab工具箱 VOICEBOX提取频谱特征,包括美尔

频谱系数(MFCC)和线性预测编码(LPC)MFCC和LPC,对说话者声音的不同特征进行建模,以代表尽可能多的信息。
[0033]基于1D

CNN的深度学习网络模型,针对语音预处理频谱特征本身的特点,在特征轴上用CNN卷积核在时间轴上用自注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务预训练1D

CNN模型的语音检测方法,包括以下步骤:步骤S01:语音采集,获取受试者的数据步骤S02:语音信号预处理,具体方法为:步骤S21:从原始语音数据中提取频谱特征,步骤S22:去掉未发声部分,将音频分割成具有固定时间长度的音频帧,步骤S23:通过使用移动窗口提取了一个固定长度的特征片段作为 1D

CNN 的输入;步骤S03:ID

CNN模型开发,具体方法为:步骤S31:语音预处理得到的特征片段沿特征轴应用一维卷积滤波器;步骤S32:使用自注意力机制,为每一帧学习了一个加权,并将加权的帧加在一起,将所有帧直接减少到一个维度;:步骤S33:利用辅助信息进行多任务学习对1D

CNN网络进行预训练,利用辅助任务使1D

CNN输出一个低维度特征向量;步骤S34::利用自监督学习来加强训练;步骤S35:以ID

CNN模型为骨干训练1D

CNN,用于通过标记数据检测对象;步骤S36:监督学习将每个人的三种不同情绪的语音分别输入到1D

CNN中,并将所得到的低维度特征向量串联起来,形成一个更高维度的特征向量;并用该特征向量和目标任务的语音分类标签通过监督学习,训练面向目标任务的分类器;步骤S04:隐私保护模型的开发; 1D

CNN模型是用户仅使用自己的原始声音数据和可共享的处理数据训练用户...

【专利技术属性】
技术研发人员:陈静季春霖陈刚鲁安东陈皓辛钰
申请(专利权)人:苏州万籁文化科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1