基于多尺度时频图并行输入卷积神经网络的歌声检测方法技术

技术编号:30765415 阅读:79 留言:0更新日期:2021-11-10 12:23
本发明专利技术公开一种基于多尺度时频图并行输入卷积神经网络的歌声检测方法。一般基于卷积神经网络的歌声检测算法中,网络输入层是一个二维的时频图矩阵,本发明专利技术首先根据音乐信号的多尺度特性,通过调整短时傅里叶变换的窗长,生成不同尺度的多个二维时频图矩阵,然后将这多个时频图以并行多通道的方式送入卷积神经网络,使得卷积神经网络的神经元感受野能同时观察到音乐信号的多个尺度的信息,从而增强神经元的时频图特征提取和分辨能力,提高歌声检测的整体性能。测的整体性能。测的整体性能。

【技术实现步骤摘要】
基于多尺度时频图并行输入卷积神经网络的歌声检测方法


[0001]本专利技术涉及音乐人工智能
,特别是涉及到基于多尺度时频图并行输入卷积神经网络的歌声检测方法。

技术介绍

[0002]关于歌声检查的
技术介绍
,申请人在基于挤压和激励残差网络的歌声检测方法(申请号:CN202010164594.5)和一种基于点积自注意力卷积神经网络的歌声检测方法(专利号:ZL202110192300.4)中均有阐述。歌声检测(Singing Voice Detection,SVD)是判断数字音乐中的每一小段音频是否含有歌声的过程,其检测精度一般在50

200毫秒之间。歌声检测是音乐信息检索(Music Information Retrieval,MIR)领域的重要基础性工作,很多其他研究方向比如歌手识别,歌声分离,歌词对齐等都需要歌声检测作为事前必备技术或者增强技术。在音乐中,除了歌声,一般还含有乐器的声音,虽然对人来说,要在混合了乐器和歌声的音乐片段中判断是否含歌声,是轻而易举的事情,但对机器来说,目前仍是颇具挑战性的工作。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多尺度时频图并行输入卷积神经网络的歌声检测方法,其特征在于:具体步骤如下:步骤1:对单个音乐文件进行短时傅里叶变换,通过不同的窗口长度w
i
,i∈[1..n],得到不同尺度的时频图F
i
,i∈[1..n],并以n个数据文件的形式保存;步骤2:设定训练、验证和测试数据集,每种数据集应包含对应音乐的歌声标注信息;1)对每个数据集内的单个音乐文件按步骤1进行短时傅里叶变换,得到n个尺度的时频图文件,若数据集中总共有m个音乐文件,那么生成的时频图文件总数是m
×
n;2)对训练、验证和测试数据集的时频图文件在时间轴上进行矩阵数据分片操作,分片矩阵的行数保持和时频图文件相同,每个分片矩阵对应一个小图像,设小图像的长和宽为h和w,为了保持数据的连续性,分片矩阵的数据存在一定的重复,因此,分片的间隔时间hop小于矩阵的宽度,对于时频图文件最后一个分片宽度小于w的矩阵进行补零操作,分片后的小图像按音乐文件顺序排序编号,训练、验证、测试集的所有小图像分别表示为T
i,j
,V
i,k
,U
i,l
其中i表示尺度序号、j,k,l分别表示训练、验证和测试数据集中的小图像序号,同一音乐的不同尺度的时频文件在进行矩阵分片时,参数h、w和hop保持相同,因此,不同尺度对应的小图像对应的时间点是一样的,相同时间点的所有尺度的小图像组合记为其中小图像是单通道数据;3)计算训练、验证、测试数据集中所有小图像数据的最大和最小值,并以矩阵M
max
,M
min
保存,作为小图像数据进行归一化操作的参数;4)以矩阵M
max
,M
min
为参数,对所有小图像进行最大最小值归一化,得到小图像组合5)对小图像组合进行三通道灰度图像转换,转换后的图像数据的值大小在0

255之间,虽然灰度图像的三个通道数据一样,但是三通道灰度图像是模拟肉眼可见的更直观数据表示,而且多出两个通道的数据,使得特征的维度增加,在一定程度上更有利于神经网络对数据进行特征提取。转换后的小图像组合记为其中每个小图像是三通道数据。6)计算中所有小图像数据的均值和方差,此处均值和方差是每个通道所有小图像数据的汇总信息,和第3)步矩阵形式不一样,因为每个通道只汇总一个均值和方差,所以均值和方差分别只有3个相等的数值,记为u,σ。7)对以参数u,σ进行标准化操作,转换成待输入到卷积神经网络的的小图像组合8)根据音乐的歌声标注信息,计算每个多尺度多通道小图像组合对应的标注信息y
j
,y
k
,y
l
;步骤3:构造具有n个尺度小图像输入的基于卷积神经网络的歌声检测网络,其中输入通道数量为3
×
n个;
卷积神经网络结构图包含四个组成部分:第一部分是输入层,此处输入层具有3
×
n个输入通道;第二和第三部分结构相同,是通道注意卷积层,分别有2个BN卷积块、1个最大值池化层和1个SEBlock通道注意层组成;BN卷积块和SEBolck的结构,其中BN卷积块由1个3
×
3卷积、1个BatchNorm层、后跟Relu单元组成;SEBlock是一个挤压和激励模块,假定上一层卷积输出F是高和宽为h
×
w的图片,通道数量为c,挤压操作是一个全局平局池化层,将c个通道压缩成c个描述符;激励操作第一步是一个门机制,具体包括第一个全连接层将c个描述符以r倍降维,然后利用Relu函数进行非线性化,接着是第二个全连接层r倍增维;激励操作第二步首先利用Sigmod激活函数对通道进行权重估值,然后通过Scale操作对各通道按权重估值进行调整,最后调整后的通道F

进入下一层网络,SEBlock使得各通道对下一层网络的作用发生变化,权重不再是相等的,而是通过学习得到的,这个过程实质是通道注意力的学习和分配过程;第四部分是特征向量提取层,包括3个全连接层和2个Dropout层,全连接层保存了前面卷积层抽取的高层信息,并以特征向量的形式进一步降维,最终输出的一维数据决定输入的n个尺度时频图对应的歌声片段是否含有歌声,将输出的一维数据用Sigmod函数转换成概率值,然后再运用加权二分类交叉熵损失函数计算训练的损失;步...

【专利技术属性】
技术研发人员:桂文明
申请(专利权)人:金陵科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1