当前位置: 首页 > 专利查询>福州大学专利>正文

乐器音色迁移下的人声音色相似性度量方法技术

技术编号:18716840 阅读:37 留言:0更新日期:2018-08-21 23:36
本发明专利技术涉及一种乐器音色迁移下的人声音色相似性度量方法。该方法首先计算数据量充分且均衡的乐器数据集音频的对数梅尔频谱特征,得到特征矩阵,用乐器数据训练深度卷积神经网络模型,得到训练好的深度卷积神经网络模型;接着对数据量不充分、不均衡的人声音频数据集,用同样的方法计算得到它的对数梅尔频谱特征,再采用基于迁移学习的微调方法对已训练好的深度卷积神经网络模型进行微调,得到人声音色的表征模型,模型的输出则为人声的音色向量,最后通过计算音色向量之间的余弦相似度,可实现人声音色的相似性度量。

A method for measuring the similarity of human voice and color based on the timbre transfer of musical instruments

The invention relates to a method for measuring the similarity of human voice and color under the timbre transfer of musical instruments. The method first calculates the logarithmic Mel spectrum characteristics of the audio data set with sufficient and balanced data, obtains the characteristic matrix, trains the depth convolution neural network model with the instrument data, and obtains the trained depth convolution neural network model; then, for the data set with insufficient and unbalanced data, uses the same method. Sample method is used to calculate its logarithmic Mel spectrum characteristics, and then the trained depth convolution neural network model is fine-tuned based on transfer learning to obtain the representation model of human voice color. The output of the model is the tone color vector of human voice. Finally, cosine similarity between tone color vectors is calculated. The similarity measure of human voice and color can be realized.

【技术实现步骤摘要】
乐器音色迁移下的人声音色相似性度量方法
本专利技术属于歌唱领域的音频信号处理领域,特别是涉及一种乐器音色迁移下的人声音色相似性度量方法。
技术介绍
美国国家标准化研究所对音色做了如下定义,“音色是指声音在听觉上产生的某种属性,听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同”。由此,演唱时的人声音色是指当不同的演唱者演唱同一首歌曲时,人们用来判别出具体是哪个演唱者的声音特征。声学实验中常用声谱图进行声音的分析。声谱图可以显示幅度随频率和时间变化的特性,纵坐标代表频率,横坐标代表时间,幅度的大小用灰颜色的深浅表示或用光谱的不同颜色表示。从声谱图的角度来看,决定音色的因素是泛音的存在与否以及它们的相对强弱。一直以来有大量的学者对声音信号处理进行研究,希望能够对人声音色的相似性进行度量,但时至今日,学术界对音色这一主观乐音属性的表征和相似度评价仍不存在一个统一的标准。因此,音色的特征表征、度量指标和相似度度量等方面有待继续研究。目前对于音色的研究主要包括乐器的分类与识别及歌手识别等,主要通过各类音色物理特征及分类模型实现。常见的音色分类的物理特征可以分为时域特征,频域特征及倒频域特征三大类。时域特征:时域特征反应声音的动态变化。不同音频信号的时域包络都各不相同。为了全面分析乐音,可分为起振、稳态和衰减三个阶段。起振指乐音从无到有的开始部分,稳态是乐音的主要部分,衰减指乐音从有到无的结束部分。乐音的起振和衰减部分持续时间大概是几十毫秒,但是起振阶段对音色的区分有着非常重要的作用。频域特征:频域分析的尺度不同将会得到不同的频谱。常见的频谱有STFT谱及CQT谱。1)STFT谱的滤波器组中心频率成线性上升,每个滤波器的带宽不变,计算公式如下:其中,x(n)是某一帧的语音信号,w(n)为加窗函数。2)CQT产生的频谱在频率轴为对数标度,而不是线性标度,且窗口长度随频率的改变而改变,这使得CQT比STFT有着更好的性能。CQT的定义形式公式如下:其中,是窗函数,[g]表示大于等于x的最小整数,fs为采样频率,fk是音阶频率,fk=f0*2k/b。倒频域特征:Mel频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)是基于人的听觉感知模型提出的,在乐音、语音分类识别等领域中被证明是最重要的特征之一,人对频域的主观感知划定是非线性的,即fmel=1125log(1+f/700),fmel是以美尔为单位的感知频率,f是以赫兹为单位的实际频率。将信号频谱转换到感知域可以很好的模拟听觉处理的过程。计算MFCC时,先对信号进行分帧、加窗、预加重的预处理,然后把每帧信号进行FFT变换变成频域数据后,计算谱线能量,把每帧信号的谱线能量通过Mel滤波器,计算在该滤波器中的能量。把通过Mel滤波器的谱线能量取对数后计算DCT,即得到MFCC。尽管现有的人声音色相关研究可以比较有效地解决一些歌手识别问题,但是没有对人声音色的相似度进行描述。因此,本专利基于上述分析,训练深度卷积神经网络并进一步对其进行微调,在获取人声音色表征的基础上进一步得到人声音色的相似度。
技术实现思路
有鉴于此,本专利技术的目的是提供一种乐器音色迁移下的人声音色相似性度量方法,在对人声音色进行合理表征的基础上,实现人声音色的相似性度量。本专利技术采用以下技术方案:一种乐器音色迁移下的人声音色相似性度量方法,其包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。在本专利技术一实施例中,所述步骤S1具体包括以下步骤:步骤S11:把乐器音频文件截取成固定长度的片段;步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。在本专利技术一实施例中,步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。在本专利技术一实施例中,步骤S13包括以下步骤:步骤S131:按照如下结构构建深度卷积神经网络模型:第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;第三层为Dropout层,比例为0.25;第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第六层为Dropout层,比例为0.25;第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第九层为Dropout层,比例为0.25;第十层、第十一层使用256个卷积核,尺寸为(3,3),激活函数为RELU;第十二层为全局池化层;第十三层为1024个结点的全连接层,激活函数为RELU;第十四层为Dropout层,比例为0.5;第十五层为分类层,激活函数为softmax;步骤S132:将步骤S12中得到的对数频谱特征矩阵输入深度卷积神经网络模型,采用Adam算法对网络进行迭代训练,得到训练好的深度卷积神经网络模型,即IDCNN模型。在本专利技术一实施例中,所述步骤S2具体包括以下步骤:步骤S21:把人声音频截取成固定长度的片段;步骤S22:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为微调IDCNN模型的输入矩阵;步骤S23:对于训练好的IDCNN模型,固定其部分参数保持不变,并用步骤S22中得到的特征矩阵微调IDCNN模型的其他参数,微调得到的网络模型即为人声音色的表征模型,称为HDCNN模型,模型的第十三层全连接层的输出为人声的音色向量。在本专利技术一实施例中,步骤S23包括以下步骤:步骤S231:保持IDCNN模型的结构不变,并冻结IDCNN模型第一层、第二层的参数不予训练;步骤S232:把步骤S22中得到的特征矩阵作为训练数据,训练IDCNN模型中第三层至第十二层的参数,此过程称为微调,微调得到的模型即为人声音色表征模型,称为HDCNN模型;在本专利技术一实施例中,步骤S21采用人声分离的方法分离出伴奏声,提取出歌手的清唱声音,去除不包含人声的部分,形成只包含人声的清唱音频,音频格式为wav,采样率为16000Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。在本专利技术一实施例中,步骤S3中设两个不同人声音色向量分别为x=(x1,x2,...,x1024)和y=(y1,y2,...,y1024),均为1024维,按照如下公式计算两者之间的相似度:计算得到的sim即为不同人声音色之间的相似性,i=1,2…1024。与现有技术相比,本专利技术具有如下优点:该方法首先获取数据量充分且均衡的乐器数据集,对数据集中的乐器音频进行预处理,具体包括截取固定长度(1s)本文档来自技高网
...

【技术保护点】
1.一种乐器音色迁移下的人声音色相似性度量方法,其特征在于:包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。

【技术特征摘要】
1.一种乐器音色迁移下的人声音色相似性度量方法,其特征在于:包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。2.根据权利要求1所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:所述步骤S1具体包括以下步骤:步骤S11:把乐器音频文件截取成固定长度的片段;步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。3.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。4.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S13包括以下步骤:步骤S131:按照如下结构构建深度卷积神经网络模型:第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;第三层为Dropout层,比例为0.25;第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第六层为Dropout层,比例为0.25;第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第九层为Dropout层,比例为0.25;第十层、第十一层使用256个卷积核,尺寸为(3,3),激活函数为RELU;第十二层为全局池化层;第十三层为10...

【专利技术属性】
技术研发人员:余春艳齐子铭刘煌张栋
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1