【技术实现步骤摘要】
一种基于多任务预训练1D
‑
CNN模型的语音检测方法
[0001]本专利技术属于语音识别领域,涉及一种基于多任务预训练1D
‑
CNN模型的语音检测技术。
技术介绍
[0002]随着智能化时代的到来,语音识别技术越来越受到人们的关注。传统的语音识别技术主要依靠高斯混合模型(GMM)和隐马尔可夫模型(HMM)。但是在实际应用中,这种方法存在着许多问题,例如对于噪声和语速变化的鲁棒性较差等。近年来,基于深度学习的语音识别技术逐渐兴起。其中,CNN作为一种广泛应用于图像处理的深度学习模型,也被引入到声音识别领域中。
[0003]目前,已有许多相关技术应用。例如,很多公司的语音助手使用了基于CNN的语音识别技术,可以通过语音控制智能设备,极大地方便了人们的生活。此外,部分大学的研究小组也开发出了一种基于CNN的声纹识别系统,可以用于身份验证等领域。然而,现有技术仍存在一些问题,例如需要大量的数据训练、对于不同说话人之间的差异鲁棒性差、需要手工提取特征、容易受到噪声干扰、模型复杂度大等问题,需 ...
【技术保护点】
【技术特征摘要】
1.一种基于多任务预训练1D
‑
CNN模型的语音检测方法,包括以下步骤:步骤S01:语音采集,获取受试者的数据步骤S02:语音信号预处理,具体方法为:步骤S21:从原始语音数据中提取频谱特征,步骤S22:去掉未发声部分,将音频分割成具有固定时间长度的音频帧,步骤S23:通过使用移动窗口提取了一个固定长度的特征片段作为 1D
‑
CNN 的输入;步骤S03:ID
‑
CNN模型开发,具体方法为:步骤S31:语音预处理得到的特征片段沿特征轴应用一维卷积滤波器;步骤S32:使用自注意力机制,为每一帧学习了一个加权,并将加权的帧加在一起,将所有帧直接减少到一个维度;:步骤S33:利用辅助信息进行多任务学习对1D
‑
CNN网络进行预训练,利用辅助任务使1D
‑
CNN输出一个低维度特征向量;步骤S34::利用自监督学习来加强训练;步骤S35:以ID
‑
CNN模型为骨干训练1D
‑
CNN,用于通过标记数据检测对象;步骤S36:监督学习将每个人的三种不同情绪的语音分别输入到1D
‑
CNN中,并将所得到的低维度特征向量串联起来,形成一个更高维度的特征向量;并用该特征向量和目标任务的语音分类标签通过监督学习,训练面向目标任务的分类器;步骤S04:隐私保护模型的开发; 1D
‑
CNN模型是用户仅使用自己的原始声音数据和可共享的处理数据训练用户...
【专利技术属性】
技术研发人员:陈静,季春霖,陈刚,鲁安东,陈皓,辛钰,
申请(专利权)人:苏州万籁文化科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。