一种音频检索方法技术

技术编号:16662883 阅读:36 留言:0更新日期:2017-11-30 11:58
本发明专利技术提供一种音频检索方法,包括:S1、获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。本发明专利技术具有并不需要高维距离计算,并且基于语音型的特点优化传统的表示级检索方法,在没有完善领域字典的情况下也能快速准确的技术优势。

【技术实现步骤摘要】
一种音频检索方法
本专利技术涉及信号处理
,更具体地,涉及一种音频检索方法。
技术介绍
基于内容的音频检索根据检索的依据可以分为表示级检索和语义级检索。目前的研究中,针对语音类型的检索大都是通过语义级检索来实现,其中以语音识别为核心的语音文档检索发展已经比较成熟,针对不同的领域,需要设计不同的词典,针对性较强。但是,针对于特定应用场景的语音识别必须以专业词库为基础,特别类似农业等领域专有词很多,不同地域的差异很大的复杂语境下,专业词库的设计比较复杂。相比之下,表示级检索方法虽然相对简单一些,但是具有更好的普适性,受应用场景的限制小,在相专用词典比较匮乏的情况下,如果能够较快的通过表示级检索来实现语音样例的检索,不失为一种替代选择。近些年来,越来越多的学者开始关注表示级检索算法。表示级检索以音频样例检索为主要方式,使用更一般的音频特征来进行检索,需要经过音频预处理、特征提取、音频分割、音频分类和索引检索等步骤。近些年来,针对表示级检索方法的研究不多,大都集中于广告检测、片头、片尾曲重复性检测等实时性音频样例检索,也有一些针对于音乐类型数据的特定表示级检索方法研究,但是针对语音样例的表示级检索方法研究不多。直接采用传统的顺序匹配需要进行大量的高维距离计算,在面对海量数据库的检索时的时间难以忍受。
技术实现思路
本专利技术提供一种克服上述问题或者至少部分地解决上述问题的一种音频检索方法。根据本专利技术的一个方面,提供一种音频检索方法,包括:一种音频检索方法,包括:S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。优选地,所述步骤S2之前还包括:根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录,获得所述倒排索引表。优选地,所述步骤S1包括:S1.1、基于STE动态阈值和有效静音阈值,对所述样例音频进行静音检测,获得所述样例音频的有效静音特征;S1.2、根据所述样例音频的有效静音特征的变化帧数阈值,对所述样例音频的有效静音特征进行求余运算,获得所述样例音频的静音词,作为所述查询静音词。优选地,所述获得所述倒排索引表的步骤,进一步包括:获得各音频包含的静音词;对于任意一个音频,将所述音频的静音词中出现次数最多的若干个静音词作为停用词,将非停用词以按时序排列且两两相邻的静音词对的形式作为词项,添加至倒排索引词典;对于所述倒排索引词典中的任意一个词项,设置所述词项对应的音频中的IDF以及倒排表指针,根据包含所述词项的音频的唯一标识以及所述词项在所述音频中的TF和位置序列,获得所述词项的、与所述倒排表指针对应的倒排记录。优选地,所述步骤S2包括:S2.1、在所述倒排索引词典中检索与所述查询静音词相同的词项,作为检出静音词,根据所述检出静音词获得对应的音频,作为所述候选音频,同时获得所述词项在所述候选音频中的IDF以及倒排表指针;S2.2、根据所述倒排表指针,获得所述检出静音词的、与所述倒排表指针对应的倒排记录,根据所述倒排记录,获得所述检出静音词在所述候选音频中的TF。优选地,所述步骤S3包括:S3.1、对于任意一个候选音频,根据所有所述检出静音词在所述候选音频中的反文件频率和词频频率TF,获得所述候选音频的TF-IDF权重和;S3.2、设置个数阈值,根据候选音频的个数与所述个数阈值的关系以及各所述候选音频的TF-IDF权重和,获得作为目标音频的候选音频。优选地,所述步骤S3.2包括:当所述候选音频的个数为1时,遍历所有检出静音词的位置序列,若检出静音词的位置序列唯一,则将所述候选音频作为目标音频。优选地,所述步骤S3.2包括:当所述候选音频的个数大于所述个数阈值时,将各所述候选音频的TF-IDF权重和由高到低进行排序,将排序靠前一定数量的候选音频作为目标音频。优选地,还包括:获得所述查询静音词的音频特征向量,作为第一音频特征序列;获得所述检出静音词在相应的候选音频中的音频特征向量,作为所述相应的候选音频的第二音频特征序列;相应地,所述步骤S3.2还包括:当所述候选音频的个数小于所述个数阈值且大于1时,将各所述候选音频的TF-IDF权重和由高至低进行排序,获得排序靠前一定数量的候选音频,作为第二候选文件,构成候选音频集合;根据欧式距离,获得所述第一音频特征序列与每个第二候选音频的第二音频特征序列的相似度;对于任意一个所述第二候选文件,根据所述第一音频特征序列与该第二候选音频的第二音频特征序列的相似度,以及所述第二候选音频中的检出静音词的个数,获得该第二候选音频与样例音频的相关度;根据所有第二候选音频与样例音频的相关度由大到小进行排序,将排序靠前的一定数量的第二候选音频作为目标音频。优选地,所述音频特征向量为21维的音频特征向量,所述21维的音频特征向量包括LSTER、HZCRR、SC方差、SE均值、SED均值、BW均值及12维的MFCC系数均值。本申请提出的一种音频检索方法,通过以静音词作为倒排索引的索引项,同时根据静音词在候选音频中的IDF和TF,获得目标音频。相比现有技术,本专利技术具有并不需要高维距离计算,并且基于语音型的特点优化传统的表示级检索方法,在没有完善领域字典的情况下也能快速准确的技术优势。附图说明图1为根据本专利技术实施例的音频检索方法的流程示意图;图2为根据本专利技术实施例的音频的识别结果示意图;图3为根据本专利技术实施例的在音频结尾处可能出现的三种情况的示意图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。为了克服现有技术的上述问题,本专利技术实施例提供了一种音频检索方法,如图1所示,包括:S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。倒排索引源于实际应用中需要根据属性的值来查找记录。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(英文简称:II,英文全称:invertedindex)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(invertedfile),也称之为倒排表,用于给定词项给出它在文档中所有出现的位置。倒排索引词典是由一定数量的词项构成的,每个词项即是倒排索引时使用的索引项,且每一个索引项具有两个属性:(1)IDF(中文:反文档频率,英文全称:inversedocumentfrequency),是DF(中文:文档频率,英文全称:documentfrequency)的倒数;(2)倒排表指针,用于指向该索引项对应的倒排表,在检索时根据该倒排表指针就找到倒排表。TF-IDF(英文全称:termfrequency–inversedocumentfrequency,中文名本文档来自技高网...
一种音频检索方法

【技术保护点】
一种音频检索方法,其特征在于,包括:S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。

【技术特征摘要】
1.一种音频检索方法,其特征在于,包括:S1、根据样例音频的有效静音特征以及有效静音特征的变化帧数阈值,获得样例音频的静音词,作为查询静音词;S2、根据倒排索引表,获得包含所述查询静音词的候选音频以及所述查询静音词在所述候选音频中的IDF和TF;S3、根据候选音频的个数以及所有所述查询静音词在所述候选音频中的IDF和TF,获得作为目标音频的候选音频。2.如权利要求1所述的音频检索方法,其特征在于,所述步骤S2之前还包括:根据各音频包含的静音词、每个静音词对应的IDF以及倒排记录,获得所述倒排索引表。3.如权利要求1所述的音频检索方法,其特征在于,所述步骤S1包括:S1.1、基于STE动态阈值和有效静音阈值,对所述样例音频进行静音检测,获得所述样例音频的有效静音特征;S1.2、根据所述样例音频的有效静音特征的变化帧数阈值,对所述样例音频的有效静音特征进行求余运算,获得所述样例音频的静音词,作为所述查询静音词。4.如权利要求2所述的音频检索方法,其特征在于,所述获得所述倒排索引表的步骤,进一步包括:获得各音频包含的静音词;对于任意一个音频,将所述音频的静音词中出现次数最多的若干个静音词作为停用词,将非停用词以按时序排列且两两相邻的静音词对的形式作为词项,添加至倒排索引词典;对于所述倒排索引词典中的任意一个词项,设置所述词项对应的音频中的IDF以及倒排表指针,根据包含所述词项的音频的唯一标识以及所述词项在所述音频中的TF和位置序列,获得所述词项的、与所述倒排表指针对应的倒排记录。5.如权利要求4所述的音频检索方法,其特征在于,所述步骤S2包括:S2.1、在所述倒排索引词典中检索与所述查询静音词相同的词项,作为检出静音词,根据所述检出静音词获得对应的音频,作为所述候选音频,同时获得所述词项在所述候选音频中的IDF以及倒排表指针;S2.2、根据所述倒排表指针,获得所述检出静音词的、与所述倒排表指针对应的倒排记录,根据所述倒排记录,获得所述检出静音词在所述候选音频中的TF。6.如权...

【专利技术属性】
技术研发人员:高万林李佳璇刘云玲宋越张莉冯慧于丽娜
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1