The invention relates to a method for measuring the similarity of human voice and color under the timbre transfer of musical instruments. The method first calculates the logarithmic Mel spectrum characteristics of the audio data set with sufficient and balanced data, obtains the characteristic matrix, trains the depth convolution neural network model with the instrument data, and obtains the trained depth convolution neural network model; then, for the data set with insufficient and unbalanced data, uses the same method. Sample method is used to calculate its logarithmic Mel spectrum characteristics, and then the trained depth convolution neural network model is fine-tuned based on transfer learning to obtain the representation model of human voice color. The output of the model is the tone color vector of human voice. Finally, cosine similarity between tone color vectors is calculated. The similarity measure of human voice and color can be realized.
【技术实现步骤摘要】
乐器音色迁移下的人声音色相似性度量方法
本专利技术属于歌唱领域的音频信号处理领域,特别是涉及一种乐器音色迁移下的人声音色相似性度量方法。
技术介绍
美国国家标准化研究所对音色做了如下定义,“音色是指声音在听觉上产生的某种属性,听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同”。由此,演唱时的人声音色是指当不同的演唱者演唱同一首歌曲时,人们用来判别出具体是哪个演唱者的声音特征。声学实验中常用声谱图进行声音的分析。声谱图可以显示幅度随频率和时间变化的特性,纵坐标代表频率,横坐标代表时间,幅度的大小用灰颜色的深浅表示或用光谱的不同颜色表示。从声谱图的角度来看,决定音色的因素是泛音的存在与否以及它们的相对强弱。一直以来有大量的学者对声音信号处理进行研究,希望能够对人声音色的相似性进行度量,但时至今日,学术界对音色这一主观乐音属性的表征和相似度评价仍不存在一个统一的标准。因此,音色的特征表征、度量指标和相似度度量等方面有待继续研究。目前对于音色的研究主要包括乐器的分类与识别及歌手识别等,主要通过各类音色物理特征及分类模型实现。常见的音色分类的物理特征可以分为时域特征,频域特征及倒频域特征三大类。时域特征:时域特征反应声音的动态变化。不同音频信号的时域包络都各不相同。为了全面分析乐音,可分为起振、稳态和衰减三个阶段。起振指乐音从无到有的开始部分,稳态是乐音的主要部分,衰减指乐音从有到无的结束部分。乐音的起振和衰减部分持续时间大概是几十毫秒,但是起振阶段对音色的区分有着非常重要的作用。频域特征:频域分析的尺度不同将会得到不同的频谱。常见的频谱有STF ...
【技术保护点】
1.一种乐器音色迁移下的人声音色相似性度量方法,其特征在于:包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。
【技术特征摘要】
1.一种乐器音色迁移下的人声音色相似性度量方法,其特征在于:包括如下步骤:步骤S1:获取乐器音频文件,构建并训练深度卷积神经网络模型,得到训练好的IDCNN模型;步骤S2:获取人声清唱音频文件,用人声音频数据微调训练好的IDCNN模型,得到人声音色的表征模型HDCNN,HDCNN模型输出人声的音色向量;步骤S3:计算不同音色向量之间的余弦度,得到不同人声音色之间的相似性。2.根据权利要求1所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:所述步骤S1具体包括以下步骤:步骤S11:把乐器音频文件截取成固定长度的片段;步骤S12:计算每个片段的对数梅尔频谱特征,对数梅尔频谱特征为128维,最终得到43*128大小的特征矩阵,作为训练深度神经网络时的输入矩阵;步骤S13:构建深度卷积神经网络模型,把步骤S12中得到的特征矩阵输入深度卷积神经网络模型进行训练。3.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S11中音频文件格式为wav,采样率为22050Hz,每个音频长度不等,把音频文件截取成固定长度为1s的片段。4.根据权利要求2所述的乐器音色迁移下的人声音色相似性度量方法,其特征在于:步骤S13包括以下步骤:步骤S131:按照如下结构构建深度卷积神经网络模型:第一层、第二层使用32个卷积核,尺寸为(3,3),max-pooling为(3,3),输入为43*128大小的矩阵,激活函数为RELU;第三层为Dropout层,比例为0.25;第四层、第五层使用64个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第六层为Dropout层,比例为0.25;第七层、第八层使用128个卷积核,尺寸为(3,3),max-pooling为(3,3),激活函数为RELU;第九层为Dropout层,比例为0.25;第十层、第十一层使用256个卷积核,尺寸为(3,3),激活函数为RELU;第十二层为全局池化层;第十三层为10...
【专利技术属性】
技术研发人员:余春艳,齐子铭,刘煌,张栋,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。