一种基于瓶颈特征的复杂音频分割聚类方法技术

技术编号:15824076 阅读:73 留言:0更新日期:2017-07-15 05:51
本发明专利技术公开了一种基于瓶颈特征的复杂音频分割聚类方法,包括如下步骤,首先构造一个带瓶颈层的深度神经网络;接着读入复杂音频流,对复杂音频流进行端点检测,然后提取非静音段的音频特征并输入深度神经网络,从深度神经网络的瓶颈层提取瓶颈特征;以瓶颈特征作为输入,采用基于贝叶斯信息准则的音频分割方法,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;最后,采用谱聚类算法对分割后的音频段进行聚类,得到复杂音频的音频类型个数,并将相同音频类型的音频段合并在一起。本发明专利技术采用的瓶颈特征是一种深层变换特征,比传统音频特征能更有效刻画复杂音频类型的特性差异,在复杂音频分割聚类中获得更加优异的效果。

【技术实现步骤摘要】
一种基于瓶颈特征的复杂音频分割聚类方法
本专利技术涉及音频信号处理与模式识别技术,特别涉及一种基于瓶颈特征的复杂音频分割聚类方法。
技术介绍
随着多媒体采集设备、互联网及云存储平台的发展与普及,海量复杂音频内容分析与检索的需求日益迫切。复杂音频分割、聚类作为一种无监督的方法,是音频内容分析的重要手段之一。虽然可以采用人工标注的方法找出音频流中的各音频类型,但人工标注成本高、主观性强、效率低,而有监督的音频分类方法需要预先知道音频流中的音频类型、提前训练特定类型的分类器。因此无监督的复杂音频分割、聚类方法应用范围更广,更适合海量复杂音频数据的内容分析。传统的复杂音频分割聚类方法采用的特征大多来源于语音识别领域,如梅尔频率倒谱系数,感知线性预测系数等。由于复杂音频中的各类音频事件来源各异,没有语音那样的特定结构单元(音素或音节),在语音识别中能有效刻画语音单元差异的传统音频特征并不一定能有效刻画复杂音频类型之间的特性差异。因此,提取有效刻画复杂音频类型差异的特征是提升复杂音频分割与聚类性能的关键。
技术实现思路
本专利技术的目的在于克服现有技术的不足和缺点,提供一种基于瓶颈特征的复杂音频分割本文档来自技高网...
一种基于瓶颈特征的复杂音频分割聚类方法

【技术保护点】
一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器;S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;S3、瓶颈特征提取:提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征;S4、音频分割:采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分...

【技术特征摘要】
1.一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,包括如下步骤:S1、带瓶颈层的深度神经网络构造:读入训练数据并提取梅尔频率倒谱系数特征,再通过无监督预训练和有监督精确调整两个步骤构造一个带瓶颈层的深度神经网络特征提取器;S2、端点检测:读入复杂音频流,通过基于门限判决的静音检测方法找出音频流中所有的静音段和非静音信号段,并将各个非静音信号段拼接成一个长信号段;S3、瓶颈特征提取:提取S1步骤中的梅尔频率倒谱系数特征并输入深度神经网络特征提取器,从深度神经网络特征提取器的瓶颈层提取瓶颈特征;S4、音频分割:采用基于贝叶斯信息准则的方法检测长信号段中的音频类型改变点,根据这些改变点把长信号段分割成若干个音频段,使得每个音频段只包含一种音频类型且相邻音频段的音频类型不同;S5、音频聚类:采用谱聚类算法对各音频段进行聚类,得到音频类型个数,并将相同音频类型的音频段合并在一起。2.根据权利要求1所述的一种基于瓶颈特征的复杂音频分割聚类方法,其特征在于,步骤S1中带瓶颈层的深度神经网络构造具体包括以下步骤:S1.1、读入训练数据并提取梅尔频率倒谱系数特征,具体步骤如下:S1.1.1、预加重:设置数字滤波器的传递函数为H(z)=1-αz-1,其中α为一个系数且取值为:0.9≤α≤1,读入的音频流通过该数字滤波器后实现预加重;S1.1.2、分帧:设置音频帧的帧长为25毫秒、帧移为10毫秒,帧长和帧移所对应的采样点个数分别为N=0.025×fs和S=0.01×fs,其中fs为音频采样频率,将读入的音频流切分成音频帧x′t(n),1≤t≤T,0≤n≤N-1,其中T和N分别表示帧数和每帧的采样点数;S1.1.3、窗函数ω(n)为汉明窗:将每帧音频信号x′t(n)与汉明窗ω(n)相乘得到加窗后的音频信号xt(n):xt(n)=ω(n)×x′t(n)n=0,1,...,N-1;t=1,2,...,T,S1.1.4、提取梅尔频率倒谱系数特征:S1.1.4.1、对第t帧音频信号xt(n)做离散傅立叶变换得到线性频谱Xt(k):S1.1.4.2、将上述线性频谱Xt(k)通过梅尔频率滤波器组得到梅尔频谱,再进行对数运算得到对数频谱St(m),其中梅尔频率滤波器组为若干个带通滤波器Hm(k),0≤m<M,M为滤波器的个数,每个滤波器具有三角形滤波特性,其中心频率为f(m),当m值较小时相邻f(m)的间隔较小,随着m的增加相邻f(m)的间隔逐渐变大,每个带通滤波器的传递函数为:其中,0≤m<M,f(m)定义如下:其中,fl、fh为滤波器的最低频率和最高频率,B-1为B的逆函数:B-1(b)=700(eb/1125-1),因此由线性频谱Xt(k)到对数频谱St(m)的变换为:S1.1.4.3、将上述对数频谱St(m)经过离散余弦变换变换到倒谱域,得到第t帧音频信号的梅尔频率倒谱系数特征,即Ct(p):S1.1.4.4、对每帧音频信号重复步骤S1.1.4.1-S1.1.4.3,得到所有音频帧的梅尔频率倒谱系数特征,将它们按帧的顺序组合成一个梅尔频率倒谱系数特征矩阵;S1.2、预训练:采用逐层堆叠受限玻尔兹曼机的方法构造一个深度置信网,得到预训练的网络参数;受限玻尔兹曼机采用基于能量的通用分布模型去表示任意概率分布,其能量函数定义为:其中v,h分别代表可视层单元和隐含层单元的状态矢量,wij表示可视层第i个节点与隐含层第j个节点的连接权重,vi和ai分别表示可视层的第i个节点的状态和偏移量,hj和bj分别表示隐含层的第j个节点的状态和偏移量,vis和hid分别表示可视层和隐含层的节点集合;当所有参数都确定时,可以得到受限玻尔兹曼机能量函数关于v和h的联合概率分布:由联合分布得到边缘概率分布:条件概率为:高斯-伯努利受限玻尔兹曼机的条件概率分布可以表示为:其中表示是均值为方差为V的高斯分布,表示输入为的Sigmoid函数,Sigmoid函数σ(x)的表达式为σ(x)=1/[1+exp(-x)];伯努利-伯努利受限玻尔兹曼机的条件概率分布表示为:在给定训练集其中ns为训练样本数目,训练一个受限玻尔兹曼机就是通过调整参数θ={W,a,b}来表征给定的训练样本,使得在该参数下由相应受限玻尔兹曼机表示的概率分布尽可能地与训练数据相符,其中W表示权重系数,a表示可视层的偏移量,b表示隐含层的偏移量;训练受限玻尔兹曼机的目标就是最大化似然函数:即:其中p(d(t))为对样本d(t)的似然估计;深度置信网的构造过程具体包括如下步骤:S1.2.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化,采用对比散度算法训练一个高斯-伯努利受限玻尔兹曼机,具体过程如下:S1.2.1.1、将连接权重初始化,值为10-3,偏移量、似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数均初始化为0,迭代次数设置为30;S1.2.1.2、对每一次迭代,取初始值d(0),d(0)={di(0)},i∈vis,为训练样本集合D中的任意一个样本d,执行k步Gibbs采样得到d(k),其中在第s步(s=0,2...,k-1)过程如下:S1.2.1.2.1、隐含层中的每一个节点的激活概率可以表示为:S1.2.1.2.2、产生[0,1]区间的随机数rj,得到隐含层状态h(s):S1.2.1.2.3、根据隐含层状态h(s),得到可视层每一个节点的激活概率为:S1.2.1.2.4、产生[0,1]上的随机数ri,重构可视层输入d(s+1):S1.2.1.3、经过k步Gibbs采样后得到的d(k)近似估计受限玻尔兹曼机参数的梯度:其中p(hi=1|d(k))表示在可视层限定为已知的训练样本d(k)时隐含层的激活概率,由于该RBM为高斯-伯努利RBM,则S1.2.1.4、得到似然函数对权重的偏导数、似然函数对可视层以及隐含层偏移量的偏导数ΔW,Δa和Δb,其中S1.2.1.5、更新参数:式中η为权重学习率,设置为0.01;S1.2.2、保持上一个受限玻尔兹曼机的权重和偏移量不变,将上一个受限玻尔兹曼机的隐含层作为下一个受限玻尔...

【专利技术属性】
技术研发人员:李艳雄王琴李先苦张雪张聿晗
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1