当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于音频特征的数字音频延展方法技术

技术编号:8162176 阅读:194 留言:0更新日期:2013-01-07 19:52
本发明专利技术提供了一种基于音频特征的数字音频延展方法,在数字音频时域延展前,根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段,保证插入操作后音频片段之间自然衔接。在插入操作后,通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展,重复进行至达到延展要求,最大限度地降低音频延展对于音频质量的影响,保证整首乐曲在延展后的播放效果,由于乐曲在被延展后听觉效果与原乐曲接近,没有破坏乐曲的欣赏性。

【技术实现步骤摘要】

本专利技术涉及音频处理
,特别是涉及ー种基于音频特征的数字音频延展方法
技术介绍
随着互联网和多媒体技术的迅速发展,音乐已经成为人们生活中不可或缺的组成部分。在现实生活中,我们经常会遇到为某个场景添加背景音乐的情况,一般而言背景音乐的时长和用户需求的时长并不相符。在改变音乐时长时,为了保证音乐的播放质量,我们需要调整乐曲的结构。现有的调整乐曲结构的方法分均匀和非均匀两种。其中均匀的调整乐曲结构的方法在音频时域改变较大的情况下的效果并不理想。而非均匀的调整乐曲结构的方法往往仅考虑了用户需求的时长小于数字音频时长的情況。 因此,需要本领域技术人员迫切解决的ー个技术问题就是如何能够创新的提出有一种有效措施以克服现有技术存在的缺陷,满足实际中用户的需求。
技术实现思路
本专利技术所要解决的技术问题是提供,用以保证乐曲在被延展后听觉效果与原乐曲接近,不破坏乐曲的欣赏性。为了解决上述问题,本专利技术公开了ー种基于音频特征的数字音频延展方法,所述方法包括将原始数字音频文件按照预设标准进行分段,得到以段落为单位记录乐曲信息的数据;根据段落间的相似性对段落分类;选取合适的连续段落插入原乐曲,使其达到用户需求时长的80%到120% ;对于插入后的乐曲,选取抗性符合预设需求的段落,对该段落进行长度的时域修改,并重复该步骤,直到达到用户需求时长。优选的,所述音频文件是以采样点来记录乐曲信息。优选的,所述方法还包括预设指定个数采样点为ー帧,获取以帧为単位记录乐曲信息的数据。优选的,所述方法还包括采用音频处理工具提取音频文件中各个帧的特征值。优选的,所述段落间相似性的度量以两个段落内所有帧的特征值组成的向量的距离为依据。优选的,定义抗性为对乐曲进行时域修改(延展或者压缩)后乐曲效果的变化,抗性好则表示对乐曲进行时域修改后乐曲效果变化小。与现有技术相比,本专利技术具有以下优点本专利技术涉及,在数字音频时域延展前,根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段,保证插入操作后音频片段之间自然衔接。在插入操作后,通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展,重复进行至达到延展要求,最大限度地降低音频延展对于音频质量的影响,保证整首乐曲在延展后的播放效果,由于乐曲在被延展后听觉效果与原乐曲接近,没有破坏乐曲的欣赏性。附图说明图I是本专利技术具体实施方式所述的ー种基于音频特征的数字音频延展方法的示意图;图2是本专利技术具体实施方式所述的方法的延展过程中,各个步骤的结构示意图。具体实施例方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进ー步详细的说明。參照图1,示出了本专利技术ー种基于音频特征的数字音频延展方法的示意图,(I)将原始数字音频按照指定个数的采样点进行划分,得到ー个音频帧序列,记为fi> f2> f3>.......し、fm,如图 2(a)所示。在本专利技术的实施例中,上述原始数字音频的音频格式可以为WAV格式,其采样率为fHz,原始时长为T秒。通常指定采样点个数为N= 512Xn(n—般取1,2,4,8),音频结尾采样点个数不足N个则用0补足。则每个帧的时长t = f,单位为秒,上述音频帧序列的帧的个数m = 7 =(2)对于上述音频巾贞序列V t2、t3、.......し、fm,分别提取它们的音频特征值,得到ー个音频巾贞特征值序列ft^ft^ftp.......ft^、ftm,如图2(a)所示。在本专利技术的实施例中,上述的音频特征值可以为基频、过零率、梅尔倒谱系数的均值、谱质心或者它们中几个特征值的加权平均。(3)采用指定长度的方法,将上述音频帧序列进行切分,得到ー个音频片段序列Sl、S2、S3……Sn-PSn,同时,根据上述音频帧特征值序列,得到一个音频片段特征向量序列V1^ v2> v3>.......Vn-P vn,如图 2(b)所示。在本专利技术的实例中,上述指定的长度为24,所以上述的音频片段特征向量为24维的向量。(4)根据用户输入的目标时长Tu和上述原始数字音频时长Tv,计算得出时域音频延展率P =尹。在本专利技术实例中,上述时域音频延展率的取值范围为I < p < I m,Tv的初始值为每个帧的时长乘以上述音频帧序列的长度m。 (5)将上述时域音频延展率p与系统设定的最大延展阀域Pmax作比较,若P小于或者等于最大延展阀域P_,则跳转至步骤10,否则,跳转至步骤6。在本专利技术的实例中,上述系统设定的最大延展阀域的取值范围为I く Pniax < 2,设 Pmax I 2 o(6)对上述n个音频片段中的任意两个音频片段Si、&通过计算它们所对应的上述音频片段特征向量序列中Vi、Vj的距离Dy,得到它们的相似度屯=^■,重复该步骤,遍历n个音频片段中的任意两个音频片段,得到音频片段两两之间的相似度,构成nXn维的音频片段相似度矩阵Mnxn,如图2(c)所示。在本专利技术的实例中, 采用欧拉距离计算上述特征向量序列中Vi、'的距离。Dm =Dj,i,Cli,j = dp,上述相似度矩阵Mnxn为上三角矩阵。(7)根据上述音频片段相似度矩阵Mnxn,将上述n个音乐片段分成w类,记为C1.c2、c3.....Cx.....Cw,满足类Cx中的任意ー个音频片段Si,在类Cx中至少存在ー个音频片段Sp它们的相似度Cli, j大于或者等于系统指定阀域I,且在类Cx以外不存在音频片段sk,它与Cx内的任意ー个音频片段相似度も,,大于或者等于系统指定阀域I。在本专利技术的实施例中,上述系统指定阀域I的取值范围为0 < I < + °°,设定相似度阀域为I = 2。在图2(c)所显示的矩阵中,S1、SX的相似度Cl1,x > 2且sn、sx的相似度dn,x > 2,而Sl、sk的相似度Cl1,, < 2,sn、sk的相似度dn,k < 2,sx、sk的相似度dx,k < 2。如图2 (d)所不,S:、sx> Sn属于类C1, Sk不属于类C:。(8)用上述类序列CpCpQ、. . .、CX、. . .、CW中的类名的下标为类中的每ー个音频片段用上标的形式进行标识,得到带标识的音频片段序列Sレsf' s|, ......,s|,遍历带标识的音频片段序列,得到所有插入点以及对应的可插入子序列,插入点く与之间的空隙和对应的可插入子序列S-L1, ....... S,r S〖应满足在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段 < 和stg的标识符相对应;同时,在带标识的音频片段序列中存在两个相邻的带标识的音频片段,这两个带标识的音频片段的标识符分别与带标识的音频片段4和Sし,的标识符相对应;其中,a、b、c为正整数,用于下标,满足I < b彡c < n,I < a < n ;p,q,r,t为正整数,用于上标,满足I彡p, q, r, t彡W。在图2(e)中,如Si' Sf, S!'' ... ,S J这样ー个带标识的音频片段序列,可以得到如图2(f)中所示的插入点S11与sf之间的空隙、可插入子序列S;'''本文档来自技高网...

【技术保护点】
一种基于音频特征的数字音频延展方法,其特征在于,所述方法包括:将原始数字音频文件按照预设标准进行分段,得到以段落为单位记录乐曲信息的数据;根据段落间的相似性对段落分类;选取合适的连续段落插入原乐曲,使其达到用户需求时长的80%到120%;对于插入后的乐曲,选取抗性符合预设需求的段落,对该段落进行长度的时域修改,并重复该步骤,直到达到用户需求时长。

【技术特征摘要】

【专利技术属性】
技术研发人员:王朝坤王建民汪浩刘璋
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利