当前位置: 首页 > 专利查询>清华大学专利>正文

一种音乐片段的伸缩抗性区间的计算方法技术

技术编号:8106500 阅读:193 留言:0更新日期:2012-12-21 05:52
本发明专利技术涉及一种音乐片段的伸缩抗性区间的计算方法,属于音频处理技术领域。首先建立音乐伸缩抗性数据集,得到伸缩抗性分布直方图,对其进行等面积切分形成伸缩抗性类别,提取多种音频内容特征形成音乐片段的特征向量,并进行泛化处理,并求解出对角矩阵,使用音乐风格区分音乐片段的相异程度,在K近邻判别下,计算出待处理片段的伸缩抗性区间。本发明专利技术方法首次提出对音乐伸缩抗性的量化表示方法,以音频内容特征为主,以音乐风格为辅,并结合机器学习的策略实现了对音乐伸缩抗性区间的计算,具有较高精确度,且操作简洁,它能够直接被用于音乐重构算法中的参数估计,和音乐心理学、语音感知中关于人感知音乐片段的特性的研究。

【技术实现步骤摘要】

本专利技术涉及,属于音频处理

技术介绍
随着21世纪互联网融入千家万户、各行各业,同时数字音乐产业快速增长和发展,人们通过互联网来获取音乐,享受音乐,甚至创作音乐的需求也日益增加。音乐重构就是一种允许用户将一个音乐片段延展或缩短到指定的时间长度的技术,它增强了音乐在不同场景下使用的灵活性,例如为不同时长的影片做背景音乐。而目前的音乐重构技术(包括申请号为201010570241. I和201010570222. 9的专利技术专利)只关心如何进行重构,而不关心音乐片段伸缩尺度的限制,即音乐伸缩抗性。音乐伸缩抗性是指在满足人听觉感受的自 然、流畅性前提下,对音乐片段进行时域伸缩的最大延展率α_和最小缩短率amin。这种特性表征了音乐片段的可伸缩尺度范围,是音乐自身结构以及人对音乐的感知之间的重要 联系,在音乐重构、音乐心理学、语音感知等研究领域都有重要的参考价值,而目前与之直接相关的研究成果很少。
技术实现思路
本专利技术的目的是提出,通过设计一种伸缩抗性类别的非均匀划分方式,将伸缩抗性离散化表示,然后再提取音乐片段的内容特征,利用分类模型来解决伸缩抗性的计算问题。最后,利用机器学习技术和音乐风格信息对计算方法进行优化,从而实现音乐伸缩抗性计算的目标。本专利技术提出的音乐片段的伸缩抗性区间的计算方法,包括以下步骤(I)选择多个不同风格的音乐片段,由多人进行试听实验,根据个人听觉的舒适度确定每个音乐片段的伸缩抗性值,根据多个音乐片段的伸缩抗性值建立一个音乐伸缩抗性数据集,进而得到音乐伸缩抗性数据集中伸缩抗性分布直方图H,其中横坐标为伸缩抗性值,从O. 00到2. 00,纵坐标为伸缩抗性值出现的频数;(2)对上述分布直方图H进行等面积切分,将伸缩抗性值中的最大延展率α _和最小缩短率amin各划分为1*个子区间,将每个子区间定义为一个伸缩抗性类别,得到伸缩抗性类别的集合L,具体过程如下(2-1)令m为音乐伸缩抗性数据集中音乐片段总数,则每个伸缩抗性类别含有的音乐片段数为令抗性类别集合L为空,设判断边界值W=L 00,初始化伸缩抗性区间的下界 R1qw=O. 00,上界 Rup = w ;(2-2)对伸缩抗性区间的下界Rlw进行判断,若Rlw彡W,则得到伸缩抗性类别的集合L,若R1ot〈w且R1ot ^ Rup,则停止当前计算直到得到伸缩抗性类别的集合L,若R1ot〈w且Rlmt〈Rup,从上述分布直方图H的伸缩抗性区间[Rlmt,Rup)中找到频数最高的伸缩抗性值ax,并从分布直方图H得到相应的出现频数Fx ;(2-3)对上述出现频数Fx进行判断,若Fx〈mavg,则进行步骤(2_4),若Fx彡mavg,则使抗性类别集合L=L U {〈αχ,αχ+δ>},其中δ为不同伸缩抗性值之间的最小距离,即分布直方图H中横坐标相邻刻度的距离,U表示对集合求并集的操作;然后同时分别执行两步,其一是令伸缩抗性区间的下界Rltw保持不变,伸缩抗性区间的上界Rup= αχ-δ,再重复步骤(2-2),其二是令伸缩抗性区间的上界Rup保持不变,伸缩抗性区间的下界Rlmt=Ci χ+ δ,再重复步骤(2-2);直到上述步骤(2-2)中,Rlow≥W,得到伸缩抗性类别的集合L,或R1ot〈w且Rlow ^ Rup,停止当前计算直到得到伸缩抗性类别的集合L ;(2-4)设定一个抗性指示变量q,q的取值为从伸缩抗性区间的下界Rlw开始以分布直方图H中相邻伸缩抗性值之间的最小距离δ递增,且q〈Rup,计算分布直方图H中从下界Rlmt到q的所有伸缩抗性值出现的频数的和S,得到结果S ≥ mavg,或q ^ Rup,对得到的结果进行判断,若S≥mavg,则令L=L U {<Rl0W, q+ δ >},Rlow = q+ δ,q=Rlow,重复本步骤,直到q≥Rup≥q≥Rup,则令L=L U {〈R1(W,q>},并停止重复本步骤,直到步骤(2-2)得到伸缩抗性类别的集合L ;(2-5)令步骤(2-1)中的判断边界值w=2.0,初始化伸缩抗性区间的下界Rlow=L 00,上界Rup=w,执行步骤(2-2),添加对a _的伸缩抗性类别划分,得到总的伸缩抗性类别的集合L ;(3)从抗性类别集合L中,得到与音乐伸缩抗性数据集中每个音乐片段的伸缩抗性值相对应的类别,分别对每个音乐片段作出类别标注Rmin和Rmax,分别提取每个音乐片段的音频内容特征,音频内容特征包括频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为该音乐片段的与Rmin分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与Rmax分类对应的特征向量;(4)对步骤(3)得到的每个音乐片段的特征向量进行泛化处理令Xmin(Mi)表示与上述音乐伸缩抗性数据集中与Rmin分类对应的第i个音乐片段的特征向量,则(Xmin(M1),…,Xfflin(Mn)I表示与音乐伸缩抗性数据集中与Rmin分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第j个维度出现的最大值maXj和最小值mirij,使Xj = (xj-mirij)/(maxj-mirij),其中Xj为上述特征向量集合中各个特征向量的第j个维度的特征值;同理,令{Xmax (M1),…,Xmax (Mn)}表示与Rmax分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第P个维度的最大值maxp和最小值minp,使Xp= (xp-minp)/(maxp-minp),其中xp为该特征向量集合中各个特征向量第P个维度的特征值;(5)定义音乐伸缩抗性数据集中,具有步骤(3)标注的相同伸缩抗性类别的音乐片段满足伸缩抗性相似关系,记该相似关系为Must-Link,具有步骤(3)标注的不同伸缩抗性类别的音乐片段满足伸缩抗性相异关系,记该相异关系为Cannot-Link,建立一个优化目标函数g⑷对A=Σ 7U所Μ Σ ])Λ .^m^ (Mj ,Mj ^Nhisf-Link(Xj ,Xj )eCannot-Link其中A为待求解的对角矩阵,DA_dm& (mf ,) = ^Y^k=l Akk (mik -m丨、,初始化时,设对角矩阵A中所有对角元为l,d为特征向量的维数,利用梯度下降算法,迭代求解对角矩阵A,对角矩阵A中的对角元即为特征向量各维度的权重Akk ;(6)从待处理的音乐片段中提取频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为待处理音乐片段的与Rmin分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与Rmax分类对应的特征向量;根据上述步骤(4)计算得到的特征向量集合中各向量的第s个维度的最大值maxs和最小值mins,以及第s个维度的特征向量值Xs,并采用步骤(4)的泛化处理方法,对待处理的音乐片段的特征向量进行泛化处理,得到待处理音乐片段的特征向量; (7)设定待处理音乐片段的音乐风格;(8)根据上述步骤(5)得到的特征向量各维度的权重Akk,计算待处理音乐片段Hlu与上述音乐伸缩抗性数据集中各个音乐片段&的相异程度ψ ,__|θ,当与mr风格相同本文档来自技高网...

【技术保护点】
一种音乐片段的伸缩抗性区间的计算方法,其特征在于该方法包括以下步骤:(1)选择多个不同风格的音乐片段,由多人进行试听实验,根据个人听觉的舒适度确定每个音乐片段的伸缩抗性值,根据多个音乐片段的伸缩抗性值建立一个音乐伸缩抗性数据集,进而得到音乐伸缩抗性数据集中伸缩抗性分布直方图H,其中横坐标为伸缩抗性值,从0.00到2.00,纵坐标为伸缩抗性值出现的频数;(2)对上述分布直方图H进行等面积切分,将伸缩抗性值中的最大延展率αmax和最小缩短率αmin各划分为r个子区间,将每个子区间定义为一个伸缩抗性类别,得到伸缩抗性类别的集合L,具体过程如下:(2?1)令m为音乐伸缩抗性数据集中音乐片段总数,则每个伸缩抗性类别含有的音乐片段数为令抗性类别集合L为空,设判断边界值w=1.00,初始化伸缩抗性区间的下界Rlow=0.00,上界Rup=w;(2?2)对伸缩抗性区间的下界Rlow进行判断,若Rlow≥w,则得到伸缩抗性类别的集合L,若Rlow},其中δ为不同伸缩抗性值之间的最小距离,即分布直方图H中横坐标相邻刻度的距离,∪表示对集合求并集的操作;然后同时分别执行两步,其一是令伸缩抗性区间的下界Rlow保持不变,伸缩抗性区间的上界Rup=αx?δ,再重复步骤(2?2),其二是令伸缩抗性区间的上界Rup保持不变,伸缩抗性区间的下界Rlow=αx+δ,再重复步骤(2?2);直到上述步骤(2?2)中,Rlow≥w,得到伸缩抗性类别的集合L,或Rlow},Rlow=q+δ,q=Rlow,重复本步骤,直到q≥Rup;若q≥Rup,则令L=L∪{},并停止重复本步骤,直到步骤(2?2)得到伸缩抗性类别的集合L;(2?5)令步骤(2?1)中的判断边界值w=2.0,初始化伸缩抗性区间的下界Rlow=1.00,上界Rup=w,执行步骤(2?2),添加对αmax的伸缩抗性类别划分,得到总的伸缩抗性类别的集合L;(3)从抗性类别集合L中,得到与音乐伸缩抗性数据集中每个音乐片段的伸缩抗性值相对应的类别,分别对每个音乐片段作出类别标注Rmin和Rmax,分别提取每个音乐片段的音频内容特征,音频内容特征包括频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为该音乐片段的与Rmin分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与Rmax分类对应的特征向量;(4)对步骤(3)得到的每个音乐片段的特征向量进行泛化处理:令Xmin(Mi)表示与上述音乐伸缩抗性数据集中与Rmin分类对应的第i个音乐片段的特征向量,则{Xmin(M1),…,Xmin(Mn)}表示与音乐伸缩抗性数据集中与Rmin分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第j个维度出现的最大值maxj和最小值minj,使xj=(xj?minj)/(maxj?minj),其中xj为上述特征向量集合中各个特征向量的第j个维度的特征值;同理,令{Xmax(M1),…,Xmax(Mn)}表示与Rmax分类对应的所有音乐片段的特征向量集合,分别计算该特征向量集合中各向量的第p个维度的最大值maxp和最小值minp,使xp=(xp?minp)/(maxp?minp),其中xp为该特征向量集合中各个特征向量第p个维度的特征值;(5)定义音乐伸缩抗性数据集中,具有步骤(3)标注的相同伸缩抗性类别的音乐片段满足伸缩抗性相似关系,记该相似关系为Must?Link,具有步骤(3)标注的不同伸 缩抗性类别的音乐片段满足伸缩抗性相异关系,记该相异关系为Cannot?Link,建立一个优化目标函数g(A):g(A)=Σ(mi,mj)∈Must-LinkDA_diag2(mi,mj)-log(Σ(xi,xj)∈Cannot-LinkDA_diag(mi,mj))其中A为待求解的对角矩阵,初始化时,设对角矩阵A中所有对角元为1,d为特征向量的维数,利用梯度下降算法,迭代求解对角矩阵A,对角矩阵A中的对角元即为特征向量各维度的权重Akk;(6)从待处理的音乐片段中提取频谱时域特征、梅尔倒谱系数和色度,并将频谱时域特征、梅尔倒谱系数和色度的组合作为待处理音乐片段的与Rmin分类对应的特征向量,将频谱时域特征和色度的组合作为该音乐片段的与Rmax分类对应的特征向量;根据上述步骤(4)计算得到的特征向量集合中各向量的第s个维度的最大值maxs和最小值mins,以及第s个维度的特征向量值xs,并采用步骤(4)的泛化处理方法,对待处...

【技术特征摘要】
1.一种音乐片段的伸缩抗性区间的计算方法,其特征在于该方法包括以下步骤 (1)选择多个不同风格的音乐片段,由多人进行试听实验,根据个人听觉的舒适度确定每个音乐片段的伸缩抗性值,根据多个音乐片段的伸缩抗性值建立一个音乐伸缩抗性数据集,进而得到音乐伸缩抗性数据集中伸缩抗性分布直方图H,其中横坐标为伸缩抗性值,从O.OO到2. 00,纵坐标为伸缩抗性值出现的频数; (2)对上述分布直方图H进行等面积切分,将伸缩抗性值中的最大延展率amax和最小缩短率amin各划分为1*个子区间,将每个子区间定义为一个伸缩抗性类别,得到伸缩抗性类别的集合L,具体过程如下 (2-1)令m为音乐伸缩抗性数据集中音乐片段总数,则每个伸缩抗性类别含有的音乐片段数为令抗性类别集合L为空,设判断边界值W=L 00,初始化伸缩抗性区间的下界 Ricw=O. 00,上界 Rup=W ; (2-2)对伸缩抗性区间的下界R1ot进行判断,若R1otS W,则得到伸缩抗性类别的集合L,若R1 Jw且R1ot彡Rup,则停止当前计算直到得到伸缩抗性类别的集合L,若R1ot〈w且R1 JRup,从上述分布直方图H的伸缩抗性区间[R1m,Rup)中找到频数最高的伸缩抗性值Cix,并从分布直方图H得到相应的出现频数Fx ; (2-3)对上述出现频数Fx进行判断,若Fx〈mavg,则进行步骤(2-4),若Fx > mavg,则使抗性类别集合L=L U {<αχ, αχ+δ>},其中δ为不同伸缩抗性值之间的最小距离,即分布直方图H中横坐标相邻刻度的距离,U表示对集合求并集的操作;然后同时分别执行两步,其一是令伸缩抗性区间的下界Rlmt保持不变,伸缩抗性区间的上界Rup=a χ_ δ,再重复步骤(2-2),其二是令伸缩抗性区间的上界Rup保持不变,伸缩抗性区间的下界Rlmt= αχ+δ,再重复步骤(2-2);直到上述步骤(2-2冲,R1ot彡W,得到伸缩抗性类别的集合L,或R1ot〈w且Rlw彡Rup,停止当前计算直到得到伸缩抗性类别的集合L ; (2-4)设定一个抗性指示变量q,q的取值为从伸缩抗性区间的下界Rlw开始以分布直方图H中相邻伸缩抗性值之间的最小距离δ递增,且q〈Rup,计算分布直方图H中从下界R1ot到q的所有伸缩抗性值出现的频数的和S,得到结果...

【专利技术属性】
技术研发人员:王朝坤陈俊
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利