一种基于音频指纹的语音检索方法及系统技术方案

技术编号:26597900 阅读:114 留言:0更新日期:2020-12-04 21:20
本发明专利技术涉及一种基于音频指纹的语音检索方法及系统。该方法包括:提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵;基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵;根据所述行降维后的特征矩阵构建音频指纹数据库;利用归一化汉明距离算法,将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。本发明专利技术能够提高对长语音片段的检索效率和检索精度以及音频指纹的检索鲁棒性。

【技术实现步骤摘要】
一种基于音频指纹的语音检索方法及系统
本专利技术涉及音频检索领域,特别是涉及一种基于音频指纹的语音检索方法及系统。
技术介绍
随着互联网数字音频数量的爆炸式增长,使得在音频大数据中进行高速检索成为亟待解决的难题。音频指纹检索技术采用简短的音频指纹数据代替音频本身进行检索,可以有效地提高音频检索的效率,但音频大数据对应的指纹数据量也相当庞大,传统的音频指纹检索方法已经难以满足音频大数据环境下的快速精确检索需求。因此,音频检索技术受到众多研究者的广泛关注。目前,学者们已经在音频指纹、特征提取、降维等方面提出了很多方法,但通常都是选择对传统的Philips方法和Shazam方法进行改进。音频检索主要有3类方法:关键词检测、关键说话人检测、关键音频检测,虽然这些技术比较成熟,不过仍存在很多的缺陷。随着数据量的增加,对应指纹数据量也随之增加,维数灾难问题也随之显现,在高维度搜索相似指纹时会由于维数灾难而使得计算量和数据量指数型增长。为了解决上述问题,通常需要选择合适的降维方法进行降维,在保证能够保留大部分原音频信息的同时,尽可能的降低音频特征维数本文档来自技高网...

【技术保护点】
1.一种基于音频指纹的语音检索方法,其特征在于,包括:/n提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;/n将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;/n基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵;/n基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵;/n根据所述行降维后的特征矩阵构建音频指纹数据库;/n利用归一化汉明距离算法,将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。/n

【技术特征摘要】
1.一种基于音频指纹的语音检索方法,其特征在于,包括:
提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;
将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;
基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵;
基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵;
根据所述行降维后的特征矩阵构建音频指纹数据库;
利用归一化汉明距离算法,将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。


2.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征,之前还包括:
对所述原始语音进行加窗分帧处理,确定加窗分帧处理后的原始语音。


3.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵,具体包括:
对所述组合后的特征矩阵进行归一化处理,确定归一化处理后的特征矩阵;
计算所述归一化处理后的特征矩阵的信息熵,确定信息熵矩阵;
基于所述信息熵矩阵,将特征分量从大到小进行排序,确定列降维后的特征矩阵。


4.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵,具体包括:
将所述原始语音进行分帧处理,分成n帧,将分帧后的语音信号平均分为五段,每段语音信号包含的帧数为z;
在所述每段语音信号的帧数范围[f1,f(z-30)]内,对每帧语音信号进行快速傅里叶变换,得到频域信号,并确定每帧语音信号的对数能量特征;
基于所述每帧语音信号的对数能量特征,对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧fmax;并以所述帧fmax为起点,向后取30个帧,将帧数范围[fmax,f(max+30)]作为所述每段语音信号的待提取特征帧;
构建一个n×1的空矩阵,并将所述空矩阵中待提取特征帧的位置置1,剩余位置置0,确定特征选择矩阵;
将所述列降维后的特征矩阵与所述特征选择矩阵相乘,确定行降维后的特征矩阵。


5.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述根据所述行降维后的特征矩阵构建音频指纹数据库,具体包括:
根据所述行降维后的特征矩阵构建音频指纹;
将所述音频指纹的每列进行转置处理并进行组合,确定重构的音频指纹;
确定语音库中所有语音信号的音频指纹;
根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索表;
根据所述线性检索表生成音频指纹数据库。


6.一种基于音频指纹的语音检索系统,其特征在于,包括:
特征提...

【专利技术属性】
技术研发人员:张秋余许福久张其文段宏湘白建赵雪娇
申请(专利权)人:兰州理工大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1