【技术实现步骤摘要】
基于Transformer融合模型的婴儿哭声分类方法
[0001]本专利技术涉及计算机语音技术,具体涉及一种基于Transformer融合模型的婴儿哭声分类方法。
技术介绍
[0002]自动婴儿哭声分类在生物工程里是一个至关重要的研究领域,它采用医学和工程技术分析婴儿哭声的信号来区分婴儿哭声的生理以及病理状态,与成人语音的口头信息不同,很难识别婴儿试图通过他们的哭声传达什么,因此,研究设计一种有效的婴儿哭声分类模型,高效地获取并识别婴儿哭声的生理病理状况,具有重要意义。
[0003]传统的婴儿哭声分类模型大多是基于单分支分类模型。主要是分为基于传统机器学习分类器,包括MLP,SVM,决策树等模型和基于深度学习分类器,包括Resnet
‑
50,迁移Resnet
‑
50结合SVM模型、图卷积模型以及R
‑
CNN系列方法。但是传统的机器学习分类器存在诸多局限,如数据规模较小,泛化能力差,难以应用于复杂多变的实际场景。而结合了深度学习分类器方法,大多只关注深层次地提取复杂 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer融合模型的婴儿哭声分类方法,其特征在于:包括以下步骤:步骤(1)、输入待分类的婴儿哭声音频数据,通过音频处理模块对输入的音频数据进行预处理,并生成频谱图;步骤(2)、构建基础网络模型,初步提取频谱图特征;将Resnet
‑
50预训练模型作为基础网络,然后固定Resnet
‑
50模型中卷积层前8层的参数,只有后两层的参数会参与训练过程,之后将两个具有1024个神经元的全连接层、一个速率为0.7的dropout层附加到基础网络中,进而得到基础网络模型;步骤(3)、对于步骤(2)所得的频谱图特征,分别通过频谱图增强模块和注意力机制模块来提取鲁棒性特征表示、通道内的可区分性特征表示以及通道之间的可区分性特征表示;步骤(4)、通过Transformer融合模块对步骤(3)所得的两种特征表示进行融合;然后将融合后的特征图用于婴儿哭声分类,通过多次迭代训练得到最后分类结果。2.根据权利要求1所述的基于Transformer融合模型的婴儿哭声分类方法,其特征在于:所述步骤(1)预处理是指通过音频处理模块将音频文件样本转换为大小为256
×
256的频谱图,其中单通道的频谱图横轴代表时间,纵轴轴代表频率。3.根据权利要求1所述的基于Transformer融合模型的婴儿哭声分类方法,其特征在于:所述步骤(2)构建基础网络模型的方法为:将Resnet
‑
50预训练模型作为基础网络,然后固定Resnet
‑
50模型中卷积层前8层的参数,只有后两层的参数参与到训练过程,接着将两个具有1024个神经元的全连接层和一个速率为0.7的dropout层附加到基础网络中,进而得到基础网络模型。4.根据权利要求1所述的基于Transformer融合模型的婴儿哭声分类方法,其特征在于:所述步骤(3)中频谱图增强模块提取频谱图鲁棒性特征的具体方法为:针对频谱图的时域通道和频域通道分别进行掩膜操作,即设置两个掩模频域通道,且随机值范围在0到20之间;设置两个掩蔽时域通道,且随机值范围在10到30之间。5.根据权利要求1所述的基于Transformer融合模型的婴儿哭声分类方法,其特征在于:所述步骤(3)中注意力机制模块包括通道注意力机...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。