对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法技术

技术编号:8656478 阅读:628 留言:1更新日期:2013-05-02 00:13
本发明专利技术公开了一种对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法。针对具有规律性鼓点节奏的音乐进行音乐小节的参数提取和估计并生成小节位置偏移矩阵,对音乐内容中提取符合人体感知的必备参数,通过非线性的Bark子带分离,获得各子带的能量参数矩阵,矩阵内部以块形式进行交织做差,最终判决输出为二维乐纹图像,将小节位置偏移矩阵与二维乐纹图像生成一个独立的可表示的特定的“乐纹”文件。本发明专利技术主要针对鼓点较为清晰的古典音乐(正版)提取其特定“乐纹”,作为音乐自身的独立“指纹”,同时也可以提取翻版古典音乐(盗版、盗录、翻录)的乐纹信息,并进行比对,最终通过误差判决是否为正版音乐。

【技术实现步骤摘要】

本专利技术涉及一种针对具有规律性鼓点节奏的音乐(尤其是古典音乐)内容的乐纹特征提取及表示方法,属于音乐语音信号特征提取及处理

技术介绍
目前在CBMR (Content-based Music Retrieve,基于内容的音乐指纹检索),是CBID (content-based audio identification,基于内容的音频标识)或者说 AFP (Audiofingerprinting,指纹提取)在搜索
中的一个以音乐信号为主要特征的特殊应用。CBMR包括两大主要内容音乐指纹(乐纹)提取和乐纹检索中的匹配算法。在乐纹提取算法方面,到现在为止,国内外已有很多声纹算法的研究成果。广泛采用的方法是从经过短时-傅里叶变换以后的频谱图里面选择一些特征,并对这些特征序列进行建模,建模后的模型提取参数作为该片段的乐纹。在早期的工作中,主要有使用语音信号处理领域的LPC (Linear PredictionCoeff icients,线性预测系数),和使用 MFCC (Mel-Frequency Cepstral Coeff icients,梅尔倒谱系数)特征来表征音乐信号。二者都是将声音信号变换到倒谱域上,MFCC方法比LPC相比具有较好优势。由于当前研究的“声纹”检索技术主要是针对泛声音类,比如语音段落、歌曲、音乐歌曲等,因此采用的手段都比较通用及广泛,在鲁棒性上性能较差。而对于全球越来越高的保护知识产权的古典音乐来说,并不具有一般性。古典音乐的旋律优美,鼓点较为规律(t匕如钢琴、古筝等键击类音乐),如何对此类具有规律性鼓点节奏的音乐进行“声纹”的检索尚未见有解决方案。
技术实现思路
本专利技术所要解决的技术问题在于针对以具有规律性鼓点节奏的音乐(古典音乐)为内容的音乐的乐纹参数的快速提取及可视化表示。对保证人耳能敏感到的频点进行保留和处理,对古典音乐的鼓点特征进行提取小节和节拍偏移矩阵,对古典音乐数据的子带能量进行交织做差判决,最终生成“乐纹”特征文件,得到正版音乐唯一的乐纹特征参数表示。本专利技术为解决上述技术问题采用以下技术方案一种,包括对原始音乐的预处理过程、二维乐纹图像生成过程、音乐节奏起点位置提取过程、乐纹特征文件生成过程;具体步骤如下A、预处理过程如下步骤Al、采用重叠系数为31/32的平移窗模式对原始音乐文件进行样值序列分帧,得到若干基于时间序列的数据帧;步骤A2、对于Al得到数据帧进行预加重处理,过滤背景噪声和信道白噪声;步骤A3、采用滤波器过滤数据中由于录音设备带来的白噪声以及部门短时高频干扰噪声,得到连续的数据帧;步骤A4,对连续的数据帧进行加载汉宁窗操作,将其转换为时域信号;步骤A5、将步骤A4得到的时域信号采用FFT变换变成频域离散信号,即频域矩阵{H(i,j)},并将该频域矩阵{H(i, j)}采用Db格式矩阵E(k)=101og1Q(IH(i,j) |2)换算成相应频点能量矩阵{E(i,j)};其中,H(i,j)为在时间连续i帧坐标下、j频率时短时帧的信号幅度,E(i, j)表示坐标(i, j)对应的频点能量,k代表时间连续巾贞数,1、j、k均为自然数;B、二维乐纹图像生成过程如下:步骤B1、对步骤A5产生的频点能量矩阵{E(i,j)},采用Bark曲线表进行非线性的Bark子带分离;步骤B2、对各个子带进行人耳感知门限的过滤,保留人类听觉系统能迅速敏感到的能量点; 步骤B3曲线的非线性值,以连续子带的各频点索引作为子带分离的划分边界,进行子带能量求和,得到一个连续矩阵{J(m,n)},其中me (2, 32), n e (I,-).然后对相邻块之间进行交织块处理,采用三值法输出判决结果,得到一个由三值{ - 1,0,1}组成的矩阵,即乐纹特征值;步骤B4、对输出的乐纹特征值进行可视化图像展示,即对所述三值{ - 1,0,1}分别使用RGB色进行绘制;C、音乐节奏起点位置提取过程,具体包括:步骤Cl、通过对步骤A获取的能量矩阵,进行连续帧能量估计,通过对过零率以及平均帧能量门限的判决,判断静默音和背景噪声,获得起点帧的位置偏移的集合{T(k)},k为范围从I到所获得的全部起点总数;步骤C2、限定频点索引范围,在起点序列内对频点差值进行计算,对局部功率最小值进行过滤;对过滤后的起点序列,计算相邻T(k)之间的距离,记为{D(k)}序列;步骤C3、对{D (k)}序列进行K-Means聚类计算,获取其最大子集{Dm(p)},其中P表示从I到该子集的最大总数,Dm是D (k)序列最大子集的标识;步骤C4、提取{Dm(k)}的对应时间位置,作为最终有效节奏起点的偏移数据;D、乐纹特征文件生成过程,具体为:将步骤B以及步骤C的最终结果合成一个文件,将步骤C的结果作为该文件的头部,步骤B的结果作为该文件的数据体,则最后生成一种可以唯一标示该首音乐的可视化乐纹数据文件。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:1、采用非线性Bark子带分离法,避免了传统的均匀分割子带的简单化处理、充分考虑到人耳听觉曲线对古典音乐内容的不同感受,通过对听觉敏感度门限的过滤,将不影响听觉效果的音乐内容部分进行了过滤,保留了对感知内容的有效性;2、采用“三值法”来描述可视化的乐纹文件,比传统的黑白法有更好的展示性、同时避免了黑白二值法在噪声干扰下造成的微小波动引起的指纹文件的变化,因此此种方法具有更好的“鲁棒性”。3、采用了聚类算法获得了节奏起点的最大子集,此种方法比很多理论算法具有更好的实现效果,它有效地过滤伪点子集,同时虽然也过滤掉一些有效点,但从概率上保证了有效节奏起点的存在。4、最终生成的乐纹特征文件,具有彩色的图形化表示,同时头文件中的节奏起点的位置信息,可以在乐纹检索时迅速建立检索起始位置,并将对整个音乐文件特征文件的比对缩简成了只对节奏起点位置片段进行比对的过程。附图说明图1是本专利技术的功能实现框图。图2是原始⑶音乐预处理流程图。图3是二维乐纹图像生成过程图。图4是绝对听闻Bark曲线图。图5是采用“三值法”对相邻块之间进行交织块处理输出判决结果的示意图。图6是由三值{ — 1,0,1}组成的32行的矩阵示意图。图7是音乐乐纹的可视化图像示意图。图8是音乐起点位置提取方法流程图。图9是处理前的峰峰功率点与过滤后的峰峰功率点示意图。图10是可视化乐纹数据文件格式图。具体实施例方式下面结合附图对本专利技术的技术方案做进一步的详细说明:如图1所示,本专利技术提出一种基于具有规律性鼓点节奏的音乐内容的乐纹特征提取及表示方法,主要包括:原始⑶音乐预处理、二维乐纹图像生成方法、音乐起点位置提取方法、乐纹特征文件表示方法。其中,二维乐纹图像生成方法包括:对样点序列的非线性Bark子带分离过程,对子带进行感知门限过滤,子带能量求和,矩阵交织块处理,乐纹特征表示,二维彩色乐纹图像显示等过程。音乐起点位置提取方法包括:对音乐中的节奏重音提取,消除伪重音样点,通过聚类算法获取有效节奏起点数据,并通过记录起点偏移位置,最终与二维乐纹图像文件合成一个具有唯一标识指定音乐的乐纹特征文件。以古典音乐为例,本专利技术主要的方法具体实现步骤如下:A、预处理,是对原始古典音乐文件进行读取和进行乐纹提取前的准备措施。本文档来自技高网
...

【技术保护点】
一种对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法,其特征在于:包括对原始音乐的预处理过程、二维乐纹图像生成过程、音乐节奏起点位置提取过程、乐纹特征文件生成过程;具体步骤如下:A、预处理过程如下:步骤A1、采用重叠系数为31/32的平移窗模式对原始音乐文件进行样值序列分帧,得到若干基于时间序列的数据帧;步骤A2、对于A1得到数据帧进行预加重处理,过滤背景噪声和信道白噪声;步骤A3、采用滤波器过滤数据中由于录音设备带来的白噪声以及部门短时高频干扰噪声,得到连续的数据帧;步骤A4,对连续的数据帧进行加载汉宁窗操作,将其转换为时域信号;步骤A5、将步骤A4得到的时域信号采用FFT变换变成频域离散信号,即频域矩阵{H(i,j)},并将该频域矩阵{H(i,j)}采用Db格式矩阵E(k)=10log10(|H(i,j)|2)换算成相应频点能量矩阵{E(i,j)};其中,H(i,j)为在时间连续i帧坐标下、j频率时短时帧的信号幅度,E(i,j)表示坐标(i,j)对应的频点能量,k代表时间连续帧数,i、j、k均为自然数;B、二维乐纹图像生成过程如下:步骤B1、对步骤A5产生的频点能量矩阵{E(i,j)},采用Bark曲线表进行非线性的Bark子带分离;步骤B2、对各个子带进行人耳感知门限的过滤,保留人类听觉系统能迅速敏感到的能量点;步骤B3、对应Bark曲线的非线性值,以连续子带的各频点索引作为子带分离的划分边界,进行子带能量求和,得到一个连续矩阵{J(m,n)},其中m∈(2,32),n∈(1,∞);然后对相邻块之间进行交织块处理,采用三值法输出判决结果,得到一个由三值{-1,0,1}组成的矩阵,即乐纹特征值;步骤B4、对输出的乐纹特征值进行可视化图像展示,即对所述三值{-1,0,1}分别使用RGB色进行绘制;C、音乐节奏起点位置提取过程,具体包括:步骤C1、通过对步骤A获取的能量矩阵,进行连续帧能量估计,通过对过零率以及平均帧能量门限的判决,判断静默音和背景噪声,获得起点帧的位置偏移的集合{T(k)},k为范围从1到所获得的全部起点总数;步骤C2、限定频点索引范围,在起点序列内对频点差值进行计算,对局部功率最小值进行过滤;对过滤后的起点序列,计算相邻T(k)之间的距离,记为{D(k)}序列;步骤C3、对{D(k)}序列进行K?Means聚类计算,获取其最大子集{Dm(p)},其中p表示从1到该子集的最大总数,Dm是D(k)序列最大子集的标识;步骤C4、提取{Dm(p)}的对应时间位置,作为最终有效节奏起点的偏移数据;D、乐纹特征文件生成过程,具体为:将步骤B以及步骤C的最终结果合成一个文件,将步骤C的结果作为该文件的头部,步骤B的结果作为该文件的数据体,则最后生成一种可以唯一标示该首音乐的可视化乐纹数据文件。...

【技术特征摘要】
1.一种对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法,其特征在于:包括对原始音乐的预处理过程、二维乐纹图像生成过程、音乐节奏起点位置提取过程、乐纹特征文件生成过程;具体步骤如下: A、预处理过程如下: 步骤Al、采用重叠系数为31/32的平移窗模式对原始音乐文件进行样值序列分帧,得到若干基于时间序列的数据帧; 步骤A2、对于Al得到数据帧进行预加重处理,过滤背景噪声和信道白噪声; 步骤A3、采用滤波器过滤数据中由于录音设备带来的白噪声以及部门短时高频干扰噪声,得到连续的数据帧; 步骤A4,对连续的数据帧进行加载汉宁窗操作,将其转换为时域信号; 步骤A5、将步骤A4得到的时域信号采用FFT变换变成频域离散信号,即频域矩阵{H(i,j)},并将该频域矩阵{H(i, j)}采用Db格式矩阵E(k)=101og1Q(IH(i,j) |2)换算成相应频点能量矩阵{E(i,j)};其中,H(i,j)为在时间连续i帧坐标下、j频率时短时帧的信号幅度,E(i, j)表示坐标(i, j)对应的频点能量,k代表时间连续巾贞数,1、j、k均为自然数; B、二维乐纹图像生成过程如下: 步骤B1、对步骤A5产生的频点能量矩阵{E(i,j)},采用Bark曲线表进行非线性的Bark子带分离; 步骤B2、对各个子带进行人耳感知门限的过滤,保留人类听觉系统能迅速敏感到的能量点; 步骤B3、对应Bark曲线的非线性...

【专利技术属性】
技术研发人员:林晓勇蒋玲慧张跃赵静穆祥女
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[未知地区] 2014年12月05日 14:15
    乐进-218年字文谦阳平卫国今山东莘县人东汉末年曹操部将以胆识英烈而从曹操随军多年南征北讨战功无数从击袁绍于官渡奋勇力战斩袁绍部将淳于琼又从击袁谭袁尚于黎阳斩其大将严敬不久乐进别击黄巾雍奴管承皆大破之从平荆州留屯襄阳进击关羽苏飞等人击退其众南郡诸郡的山谷蛮夷都前往乐进处投降
    0
1