当前位置: 首页 > 专利查询>天津大学专利>正文

去相关稀疏映射音乐流派有监督自动分类方法技术

技术编号:6083715 阅读:257 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及音频信号处理。为提供一种能够提高音乐流派自动分类准确率,方便音乐音频数据库内容组织和检索,也可用于其它基于内容音乐信息检索,提高检索性能的基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统,本发明专利技术采用的技术方案是,基于去相关稀疏映射音乐流派有监督自动分类方法,包括下列步骤:a建立有监督训练数据库;b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特征;c对提取的特征数据采用PCA(主分量分析)技术去噪和降维;d将特征矩阵按流派类别分块;e确定y的种类为argmini||y-Aδi(x)i||2,i=1,2,...,k,δ(x)的非零值为第i类。本发明专利技术主要应用于音频信号处理。

Supervised sparse classification, music genre, supervised automatic classification method

The present invention relates to audio signal processing. In order to provide a kind of automatic music genre can improve the classification accuracy, easy music audio database content organization and retrieval, can also be used for other content based music information retrieval and improve the retrieval performance of a minimum norm sparse mapping of the music genre based on the supervised classification method and system, the technical scheme of the invention is based on the decorrelation sparse mapping music genre automatic classification methods, including the following steps: establishing a supervised training database; B feature extraction of short-term characteristics of music and rhythm on the training of music samples, short music features MFCC and timbre characteristics; feature data extraction of C by PCA (principal component analysis) technique for denoising and dimensionality reduction; d the characteristic matrix according to the genre category block; e y argmini||y-A to determine the types of delta I (x) i||2, I = 1, 2,..., K, 8 (x) of the non-zero value for class I . The invention is mainly applied to audio signal processing.

【技术实现步骤摘要】

本专利技术涉及音频信号处理,具体讲涉及去相关稀疏映射音乐流派有监督自动分类 方法。
技术介绍
当今数字化与网络时代化,数据存储技术和多媒体压缩技术如JPEG、MPEG等技术 的快速发展,导致数字多媒体数据的存储量增加,也导致互联网上音频数据的增加。目前, 图像、音频和视频等多媒体内容已成为互联网信息高速公路上所传送数据的主要部分,而 音乐又是音频的主要部分,随着互联网的发展,越来越多的人能够更加方便、快捷、经济地 接触到数字音乐,人们面临的问题不再是缺少媒体内容,而是如何在浩如烟海的多媒体世 界中找到自己所需要的信息。音乐流派是人类创造的用于区分和描述音乐,然而由于历史 和文化等原因音乐流派没有严格的定义与界限,每一种音乐流派的特征都是由其成员的特 征决定的,这些特征又是由乐器,节奏和音乐的和声决定的。目前音乐流派的分类是靠人工 完成的,当面对网络上海量的音乐时,人工分类不足以完成如此巨大的工作量,这时需要借 助计算机、人工智能等以取代人工分类,实现音乐流派的自动分类。目前,在现有的基于音乐内容的专利中,大多是基于音乐内容的音乐检索。2009年 4月1日公布的、公开号为CN101398825、名称为用于快速音乐分类和检索的方法和设备的 中国专利技术专利申请公布说明书提供了一种基于内容的音乐分类方法,该专利提取短时音乐 特征,即MFCC和音质特征,采用基于支持向量机(SVM)进行分类。近年来,基于最小一范数稀疏映射已经成功应用于模式识别与分类,在医学领域 癌症与肿瘤的分类、人脸识别、卫星图像分类、说话人识别和种子分类方面取得了较好的分 类效果。目前未发现基于最小一范数稀疏映射用于音乐流派有监督自动分类的报道。
技术实现思路
为克服现有技术的不足,提供一种能够提高音乐流派自动分类准确率,方便音乐 音频数据库内容组织和检索,也可用于其它基于内容音乐信息检索,提高检索性能的基于 最小一范数稀疏映射的音乐流派有监督自动分类方法及系统,本专利技术采用的技术方案是, 一种,包括下列步骤a建立有监督训练数据库;b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特 征;c对提取的特征数据采用PCA(主分量分析)技术去噪和降维;d将特征矩阵按流派类别分块,则A = 为特征矩阵,K为音乐流派 种类的个数,y为测试样本,求出方程y = Ax的最小一范数解。e 确定 y 的种类为 argmirii I Iy-ASi(X)iI |2,i = 1,2,· · ·,k,δ (x)的非零值为第i类。所述的建立有监督训练数据库是通过相关渠道建立包括η种音乐流派的音乐文 件夹,可以通过互联网下载或者专辑中获得,其中每一种音乐流派的数据库要尽可能包含 不同的歌手,不同的专辑。所述在步骤b之前包括以下步骤对输入的音乐文件截取两个30秒的片段;对截 取每个30秒的片段,选取1秒为一个文本窗的长度,且文本窗与文本窗之间无重叠;对一个 文本窗内选取512点为一个分析窗的长度,分析窗的帧移为256个样本点;对一个分析窗 w的数据预加重、加窗、分帧;预加重包括让输入的音乐文件通过滤波器,预加重滤波器一 般是一阶的,形式如H(Z) = l-uz—1,u的典型值在0.94 0.97之间;所加窗的窗函数类型 为汉明窗(hamming);取帧长为512个样本点,帧移为256个样本点;提取美尔频率倒谱系 数(MFCC)特征需要设置相关参数的值,设置的参数包括MFCC的通道为M,帧长为512个 样本点,帧移为256个样本点,取前5维MFCC。所述的对训练音乐样本提取音色和节奏特征是用时域、频域和小波域的 方法提取特征,其中时域特征样本信号在时间域上通过零的次数和在一个文本 窗内低于平均能量的帧的比率;频域特征spectral-power,spectral-rolloff, spectral-centroid, spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness, spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC,小波域特征beat histogram、 DffCH(Daubechiesffavelet Coefficients Histogram);其中首先定义,xk = abs (fft (χ)),下面公式中所涉及N为一个分析窗内的样本点的个 数,即512点。Spectral-power 数学定义如下s=101g(xk)spectral-rolloff 是衡量频谱波形的一种方式,数学公式定义如下 权利要求1.一种基于,其特征是,包括下列步骤a建立有监督训练数据库;b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特征; c对提取的特征数据采用PCA(主分量分析)技术去噪和降维; d将特征矩阵按流派类别分块,则A = 为特征矩阵,K为音乐流派种类 的个数,y为测试样本,求出方程y = Ax的最小一范数解。e 确定 y 的种类为 arg Hiini | Iy-ASi(X)iI 12,i = 1,2,. . .,k,δ (χ)的非零值为第 i类。2.如权利要求1所述的方法,其特征是,所述的建立有监督训练数据库是通过相关渠 道建立包括η种音乐流派的音乐文件夹,可以通过互联网下载或者专辑中获得,其中每一 种音乐流派的数据库要尽可能包含不同的歌手,不同的专辑。3.如权利要求1所述的方法,其特征是,在步骤b之前包括以下步骤对输入的音乐文 件截取两个30秒的片段;对截取每个30秒的片段,选取1秒为一个文本窗的长度,且文本 窗与文本窗之间无重叠;对一个文本窗内选取512点为一个分析窗的长度,分析窗的帧移 为256个样本点;对一个分析窗w的数据预加重、加窗、分帧;预加重包括让输入的音乐文 件通过滤波器,预加重滤波器一般是一阶的,形式如H(Z) = l-uz—1,u的典型值在0.94 0.97之间;所加窗的窗函数类型为汉明窗(hamming);取帧长为512个样本点,帧移为256 个样本点;提取MFCC特征需要设置相关参数的值,设置的参数包括MFCC的通道为M,帧 长为512个样本点,帧移为256个样本点,取前5维MFCC。4.如权利要求1所述的方法,其特征是,所述的对训练音乐样本提取音色和节奏 特征是用时域、频域和小波域的方法提取特征,其中时域特征zero-crossing-rate 禾口 Low-energy ;步页域特征spectral_power, spectral-rolloff, spectral-centroid, spectral-fulx, spectral-spread, spectral-skewness, spectral-kurtosis, spectral-brightness , spectral-entropy, spectral-irrgularity, spectral-low-energy, spectral-flatness 及 MFCC。小波域特征b本文档来自技高网
...

【技术保护点】
1.一种基于去相关稀疏映射音乐流派有监督自动分类方法,其特征是,包括下列步骤:a建立有监督训练数据库;b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特征;c对提取的特征数据采用PCA(主分量分析)技术去噪和降维;d将特征矩阵按流派类别分块,则A=[A1,A2,...,AK]为特征矩阵,K为音乐流派种类的个数,y为测试样本,求出方程y=Ax的最小一范数解。e确定y的种类为arg mini||y-Aδi(x)i||2,i=1,2,...,k,δ(x)的非零值为第i类。

【技术特征摘要】

【专利技术属性】
技术研发人员:关欣徐星李锵
申请(专利权)人:天津大学
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1