基于模式的音频检索方法和系统技术方案

技术编号：10119338 阅读：121 留言：0更新日期：2014-06-11 11:30

本发明专利技术提供了一种基于模式的音频检索方法和系统。所述音频检索方法包括：基于模式对多个源音频数据进行标记，以获取各源音频数据的音频标记序列；获取目标音频数据的音频标记序列；基于目标音频数据的音频标记序列和各源音频数据的音频标记序列，根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度；以及输出匹配度高于预定匹配度阈值的源音频数据，作为检索结果。利用本发明专利技术的方法和系统，能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索，从而提供更准确合理的音频检索结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于模式的音频检索方法和系统
本专利技术总体上涉及多媒体信息检索领域，特别地，涉及基于模式的音频检索方法和系统。
技术介绍
互联网的广泛普及推动了多媒体信息技术的高速发展。可从互联网上获得的多媒体数据量急速增长。例如，在YouTube网站上每分钟上传的音视频文件达48小时之多。海量的数据使得不可能逐一进行浏览，而且对数据的索引和检索也更具挑战。如何从资料库中准确地找到所需题材的数据文件是多媒体信息检索领域的研究热点之一。例如，婚庆设计公司可能希望根据少量婚庆典礼样本，找到海量素材用以制作最终的婚庆文件。电台的节目制作人或者视频网站的制作团队，希望基于有限资料从海量数据中搜索到感兴趣的节目类型，为快速的节目制作提供帮助。此外，用户可能希望对自有的多媒体数据库进行自动的标记归档，从而进行更有效的管理。相比于基于视频的检索，基于音频的检索适用范围更广，例如在只能获得音频数据的情况下（例如，无线电广播）。音频包含了有助于理解内容的相当大量的信息，而且相比于视频来说音频文件通常较小。因此，在例如由于网络上传容量限制而不得不将视频文件压缩至略模糊的情况下，音频却可以制作得较为清晰。然而，现有技术的音频索引和检索方法有诸多缺陷。首先，现有的音频索引和检索方法需要大量的手工标记。例如对于音频网站，通常存在大量的无标记文件或者简单标记的文件，这些文件之间没有很好的描述，而且缺乏与其他数据有效的相关性推荐连接。工作人员只能人工对部分著名节目或者访问量高的文件进行手工标记和推荐连接。因此，这样的音频索引和检索方法仅能用于特定领域和有限的数据样本集。其次，现有的音频索引和检索方法...
基于模式的音频检索方法和系统

【技术保护点】
一种基于模式的音频检索方法，包括：基于模式对多个源音频数据进行标记，以获取各源音频数据的音频标记序列；获取目标音频数据的音频标记序列；基于目标音频数据的音频标记序列和各源音频数据的音频标记序列，根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度；以及输出匹配度高于预定匹配度阈值的源音频数据，作为检索结果。

【技术特征摘要】
1.一种基于模式的音频检索方法，包括：基于模式对多个源音频数据进行标记，以获取各源音频数据的音频标记序列；获取目标音频数据的音频标记序列；基于目标音频数据的音频标记序列和各源音频数据的音频标记序列，根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度；以及输出匹配度高于预定匹配度阈值的源音频数据，作为检索结果；其中，基于模式对多个源音频数据进行标记包括：(a)对每个源音频数据进行划分，以获得多个分段；(b)基于所获得的多个分段，利用聚类算法确定每个源音频数据的音频类序列；(c)根据针对多个所述源音频数据所确定的音频类序列，基于模式构建判决树；(d)针对判决树上的每个叶节点，训练分段标记模型；(e)利用所训练的分段标记模型，获得每个源音频数据的音频标记序列并调整对该源音频数据的划分；以及(f)在满足预定迭代条件的情况下，重复上述操作(b)至(e)。2.根据权利要求1所述的方法，其中，对每个源音频数据进行划分包括以下的任何一个或多个：依照源音频数据中的静音进行划分；依照预定时长的音频窗对源音频数据进行划分；以及按时间均匀划分源音频数据。3.根据权利要求1所述的方法，其中，基于所获得的多个分段利用聚类算法确定每个源音频数据的音频类序列包括：利用从所获得的多个分段提取的音频特征来构建混合高斯模型GMM；和基于所构建的GMM，利用聚类算法基于特定音频特征和音频类距离，确定源音频数据的音频类序列。4.根据权利要求1所述的方法，其中，根据针对多个所述源音频数据所确定的音频类序列基于模式构建判决树包括：定义所确定的音频类序列中的音频类作为判决树的根节点；基于被定义为根节点的音频类在音频类序列中的上下文，构建模式问题集；以及基于所构建的模式问题集，对所确定的音频类序列中的音频类进行分支，从而构建判决树的叶节点。5.根据权利要求3所述的方法，其中，针对判决树上的每个叶节点训练分段标记模型包括：针对判决树上的每个叶节点，训练隐马尔可夫模型HMM和持续时间模型。6.根据权利要求1所述的方法，其中，利用所训练的分段标记模型获得源音频数据的音频标记序列并调整对源音频数据的划分包括：利用所训练的分段标记模型，确定源音频数据的音频类距离；基于所训练的分段标记模型，利用从所述源音频数据提取的音频特征和所确定的音频类距离进行Viterbi解码；以及根据Viterbi解码结果，获得源音频数据的音频标记序列，并调整对源音频数据的划分。7.根据权利要求1所述的方法，其中，对源音频数据进行划分以获得多个分段包括：确定源音频数据是否为语音数据；以及基于所述确定的结果，对源音频数据进行划分以获得多个分段。8.根据权利要求1所述的方法，其中，所述预定迭代条件包括以下的任何一个或多个：对源音频数据的划分的调整量不小于预定分段差值；以及迭代次数小于预定迭代次数阈值。9.根据权利要求1所述的方法，其中，获取目标音频数据的音频标记序列包括：基于所训练的分段标记模型，对所述目标音频数据进行Viterbi解码，以获得该目标音频数据的音频标记序列。10.根据权利要求1至9中任一项所述的方法，其中，根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度包括：确定与目标音频数据和源音频数据相关的音频类之间的音频类距离；通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较，基于所确定的音频类距离来计算序列匹配得分；通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数，计算计数匹配得分；以及以各自的加权值组合所计算的序列匹配得分和计数匹配得分，计算目标音频数据与源音频数据的匹配度。11.一种基于模式的音频检索系统，包括：标记装置，配置为基于模式对多个源音频数据进行标记，以获取各源音频数据的音频标记序列；目标获取装置，配置为获取目标音频数据的音频标记序列；匹配度确定装置，配置为基于所述目标获取装置获取的目标音频数据的音频标记序列和所述标记装置获取的各源音频数据的音频...

【专利技术属性】
技术研发人员：张世磊，涂旭东，金锋，金琴，刘文，秦勇，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人