【技术实现步骤摘要】
一种基于离散基尼系数的音频指纹降维方法
本专利技术属于智能应用型声场领域,具体涉及一种基于离散基尼系数计算的音频指纹降维方法。
技术介绍
近年来,智能化一直深受人们的喜爱,被人们广泛的研究与讨论,音频的智能识别更是人工智能发展的重要基石,音频的智能识别离不开音频的特征提取,在音频的众多特征中,音频指纹是近年来最受欢迎的一种,音频指纹是指可以代表一段音频重要声学特征的基于内容的紧致数字签名,其主要目的是用少量的数字信息代表大量音频数据。它相对于传统的音频特征具有数据量较小、抗噪性能高、特征提取流程相对简单等优点,被广泛的用在音乐识别、广告监管、版权保护等领域中。但音频指纹有个缺点就是指纹维度较高,这使得在音频识别中延缓了识别速度,且占用计算机很大内存。对此,若能降低音频指纹的维度,就可以在很大程度上减少音频指纹的数据量,同时也能够提高音频检索的速率,增强音频的识别性能。
技术实现思路
针对音频指纹特征的高维度问题,本专利技术在音频指纹各维度引入指纹离散基尼系数,通过音频指纹各维度的离散基尼系数大小反映出不同 ...
【技术保护点】
1.一种基于离散基尼系数的音频指纹降维方法,其特征在于包括以下步骤:/n步骤1,分类构建目标声音库/n根据音频特点种类或已有数据情况,将音频进行分类建库;/n步骤2,分类提取样本音频的指纹特征/n从已构建的音频库中选取各类音频数据作为原始样本音频,按类提取原始样本指纹特征并引入离散基尼系数对指纹特征进行降维,具体流程为:/nStep2.1:对原始样本音频预处理,预处理包括:带通滤波、预加重、加窗分帧;/nStep2.2:对预处理后的音频数据进行指纹特征提取/n(1)对已分帧音频信号进行离散傅里叶变换,将音频信号每一帧数据进行离散傅里叶变换,变换公式如下:/n
【技术特征摘要】
1.一种基于离散基尼系数的音频指纹降维方法,其特征在于包括以下步骤:
步骤1,分类构建目标声音库
根据音频特点种类或已有数据情况,将音频进行分类建库;
步骤2,分类提取样本音频的指纹特征
从已构建的音频库中选取各类音频数据作为原始样本音频,按类提取原始样本指纹特征并引入离散基尼系数对指纹特征进行降维,具体流程为:
Step2.1:对原始样本音频预处理,预处理包括:带通滤波、预加重、加窗分帧;
Step2.2:对预处理后的音频数据进行指纹特征提取
(1)对已分帧音频信号进行离散傅里叶变换,将音频信号每一帧数据进行离散傅里叶变换,变换公式如下:
其中,X(k)为频域信号,x(p)为时域信号,k为频率索引,T为离散傅里叶变换的样本长度;
(2)对离散傅里叶变换后的频域信号进行频谱子带划分,从频谱中选取33个非重叠的频带,分布于20-4000Hz范围,频带之间是等对数间隔的,其中,第m子带的起始频率也即第m-1子带的终止频率f(m)可表示为下式:
其中Fmin为映射下限,Fmax为映射上限,M为子带个数,此处为33;
(3)计算每帧音频的各个子带能量,分别求其上述选取的33个非重叠频带的能量,则第n帧的第m个子带能量的公式如下:
其中,f(m)为第m个子带起始频率,f(m+1)为第m个子带的终止频率,x(k)为第n帧离散傅里叶变换后的频域信号;
(4)生成每帧音频的子指纹,具体为:对上述每帧所求的33个子带能量作比特差分判别,生成每帧音频的32位二进制码,即为每帧音频的子指纹,其中,F(n,m)为32位二进制码对应的二进制比特信息,具体判别公式如下:
其中,E(n,m)为第n帧的第m个子带能量,m=1,2,…,32;
步骤3,对各类样本的音频指纹特征进行降维
Step3.1:求取各类...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。