基于模式的音频检索方法和系统技术方案

技术编号:10119338 阅读:121 留言:0更新日期:2014-06-11 11:30
本发明专利技术提供了一种基于模式的音频检索方法和系统。所述音频检索方法包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。利用本发明专利技术的方法和系统,能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索,从而提供更准确合理的音频检索结果。

【技术实现步骤摘要】
基于模式的音频检索方法和系统
本专利技术总体上涉及多媒体信息检索领域,特别地,涉及基于模式的音频检索方法和系统。
技术介绍
互联网的广泛普及推动了多媒体信息技术的高速发展。可从互联网上获得的多媒体数据量急速增长。例如,在YouTube网站上每分钟上传的音视频文件达48小时之多。海量的数据使得不可能逐一进行浏览,而且对数据的索引和检索也更具挑战。如何从资料库中准确地找到所需题材的数据文件是多媒体信息检索领域的研究热点之一。例如,婚庆设计公司可能希望根据少量婚庆典礼样本,找到海量素材用以制作最终的婚庆文件。电台的节目制作人或者视频网站的制作团队,希望基于有限资料从海量数据中搜索到感兴趣的节目类型,为快速的节目制作提供帮助。此外,用户可能希望对自有的多媒体数据库进行自动的标记归档,从而进行更有效的管理。相比于基于视频的检索,基于音频的检索适用范围更广,例如在只能获得音频数据的情况下(例如,无线电广播)。音频包含了有助于理解内容的相当大量的信息,而且相比于视频来说音频文件通常较小。因此,在例如由于网络上传容量限制而不得不将视频文件压缩至略模糊的情况下,音频却可以制作得较为清晰。然而,现有技术的音频索引和检索方法有诸多缺陷。首先,现有的音频索引和检索方法需要大量的手工标记。例如对于音频网站,通常存在大量的无标记文件或者简单标记的文件,这些文件之间没有很好的描述,而且缺乏与其他数据有效的相关性推荐连接。工作人员只能人工对部分著名节目或者访问量高的文件进行手工标记和推荐连接。因此,这样的音频索引和检索方法仅能用于特定领域和有限的数据样本集。其次,现有的音频索引和检索方法仅仅基于音频标记本身进行建模,这会使得索引和检索结果不准确。例如,同样是水流声,在自然河流背景模式下和家庭厨房背景模式下的意义是完全不同的。再例如,鼓掌声在娱乐节目、谈话节目或体育节目中也是有所不同的。如果用户输入一段河流流水声作为样本,希望从多媒体数据库中检索出类似的素材,那么现有的音频检索方法会不区分地给出包括自然河流模式下和家庭厨房模式下的水流声的数据文件。显然,在不考虑上下文的情况下,很多音频检索的结果是不准确的。再次,现有的音频检索方法通常采用单次顺序检索策略,即先将音频数据分段,接着针对每段进行分类识别。由此,先前步骤中的错误会影响后续步骤的执行结果,导致逐步累积到最后的检索结果中,使得检索结果不准确甚至完全偏离检索目标。因此,需要一种无需人工参与标记而自动执行的音频检索方法和系统。进一步,需要一种基于背景模式并可以考虑音频类相似度的音频检索方法和系统。再进一步,需要一种能够自动消除累积误差从而提供更为准确的检索结果的音频检索方法和系统。
技术实现思路
本专利技术的一个目的在于,自动对源音频数据进行基于模式的标记和建模,并考虑音频类相似度地提供准确的音频检索结果。为此,本专利技术的音频检索方法和系统通过迭代分段与聚类整合处理来对源音频数据进行自动音频标记,在每次迭代中构建基于背景模式的判决树并针对判决树上的叶节点训练分段标记模型,最后基于模式比较并结合音频类相似度来提供音频检索结果。根据本专利技术的第一方面,提供了一种基于模式的音频检索方法,包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。在一个实施例中,基于模式对多个源音频数据进行标记包括,针对每个源音频数据执行如下操作:(a)对每个源音频数据进行划分,以获得多个分段;(b)基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;(c)根据针对多个所述源音频数据所确定的音频类序列,基于模式构建判决树;(d)针对判决树上的每个叶节点,训练分段标记模型;(e)利用所训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及(f)在满足预定迭代条件的情况下,重复上述操作(b)至(e)。根据本专利技术的第二方面,提供了一种基于模式的音频检索系统,包括:标记装置,配置为基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;目标获取装置,配置为获取目标音频数据的音频标记序列;匹配度确定装置,配置为基于所述目标获取装置获取的目标音频数据的音频标记序列和所述标记装置获取的各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及检索输出装置,配置为输出由所述匹配度确定装置确定的匹配度高于预定匹配度阈值的源音频数据,作为检索结果。在一个实施例中,所述标记装置包括:划分装置,配置为对每个源音频数据进行划分,以获得多个分段;聚类装置,配置为基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;判决树构建装置,配置为根据所述聚类装置针对多个所述源音频数据确定的音频类序列,基于模式构建判决树;模型训练装置,配置为针对由所述判决树构建装置构建的判决树上的每个叶节点,训练分段标记模型;分段调整装置,配置为利用由所述模型训练装置训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及迭代条件判断装置,配置为判断是否满足预定迭代条件。利用本专利技术的方法和系统,能够无需人工参与标记而自动执行音频检索。利用本专利技术的方法和系统,能够基于背景模式迭代地进行音频类标记,从而提供更准确合理的音频检索结果。利用本专利技术的方法和系统,能够考虑音频类相似度并结合背景模式地进行音频检索。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了适于用来实现本专利技术实施方式的示例性计算机系统/服务器的框图。图2是例示了根据本专利技术实施例的基于模式的音频检索方法的总流程图。图3示意性地示出了音频类序列的一个示例。图4是例示了根据本专利技术实施例的用于对源音频数据进行基于模式的音频类标记的处理的流程图。图5示意性地示出了聚类处理的一个示例。图6是例示了根据本专利技术实施例的用于基于模式构建判决树的处理的流程图。图7示意性地示出了判决树构建处理的一个示例。图8是例示了根据本专利技术实施例的用于确定目标音频数据与源音频数据之间的匹配度的处理的流程图。图9示出了根据本专利技术实施例的基于模式的音频检索系统的功能框图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。所属
的技术人员知道,本专利技术可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本专利技术还可以实现为在一个或多个计算机可读介质中的计算机本文档来自技高网
...
基于模式的音频检索方法和系统

【技术保护点】
一种基于模式的音频检索方法,包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。

【技术特征摘要】
1.一种基于模式的音频检索方法,包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果;其中,基于模式对多个源音频数据进行标记包括:(a)对每个源音频数据进行划分,以获得多个分段;(b)基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;(c)根据针对多个所述源音频数据所确定的音频类序列,基于模式构建判决树;(d)针对判决树上的每个叶节点,训练分段标记模型;(e)利用所训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及(f)在满足预定迭代条件的情况下,重复上述操作(b)至(e)。2.根据权利要求1所述的方法,其中,对每个源音频数据进行划分包括以下的任何一个或多个:依照源音频数据中的静音进行划分;依照预定时长的音频窗对源音频数据进行划分;以及按时间均匀划分源音频数据。3.根据权利要求1所述的方法,其中,基于所获得的多个分段利用聚类算法确定每个源音频数据的音频类序列包括:利用从所获得的多个分段提取的音频特征来构建混合高斯模型GMM;和基于所构建的GMM,利用聚类算法基于特定音频特征和音频类距离,确定源音频数据的音频类序列。4.根据权利要求1所述的方法,其中,根据针对多个所述源音频数据所确定的音频类序列基于模式构建判决树包括:定义所确定的音频类序列中的音频类作为判决树的根节点;基于被定义为根节点的音频类在音频类序列中的上下文,构建模式问题集;以及基于所构建的模式问题集,对所确定的音频类序列中的音频类进行分支,从而构建判决树的叶节点。5.根据权利要求3所述的方法,其中,针对判决树上的每个叶节点训练分段标记模型包括:针对判决树上的每个叶节点,训练隐马尔可夫模型HMM和持续时间模型。6.根据权利要求1所述的方法,其中,利用所训练的分段标记模型获得源音频数据的音频标记序列并调整对源音频数据的划分包括:利用所训练的分段标记模型,确定源音频数据的音频类距离;基于所训练的分段标记模型,利用从所述源音频数据提取的音频特征和所确定的音频类距离进行Viterbi解码;以及根据Viterbi解码结果,获得源音频数据的音频标记序列,并调整对源音频数据的划分。7.根据权利要求1所述的方法,其中,对源音频数据进行划分以获得多个分段包括:确定源音频数据是否为语音数据;以及基于所述确定的结果,对源音频数据进行划分以获得多个分段。8.根据权利要求1所述的方法,其中,所述预定迭代条件包括以下的任何一个或多个:对源音频数据的划分的调整量不小于预定分段差值;以及迭代次数小于预定迭代次数阈值。9.根据权利要求1所述的方法,其中,获取目标音频数据的音频标记序列包括:基于所训练的分段标记模型,对所述目标音频数据进行Viterbi解码,以获得该目标音频数据的音频标记序列。10.根据权利要求1至9中任一项所述的方法,其中,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度包括:确定与目标音频数据和源音频数据相关的音频类之间的音频类距离;通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较,基于所确定的音频类距离来计算序列匹配得分;通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数,计算计数匹配得分;以及以各自的加权值组合所计算的序列匹配得分和计数匹配得分,计算目标音频数据与源音频数据的匹配度。11.一种基于模式的音频检索系统,包括:标记装置,配置为基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;目标获取装置,配置为获取目标音频数据的音频标记序列;匹配度确定装置,配置为基于所述目标获取装置获取的目标音频数据的音频标记序列和所述标记装置获取的各源音频数据的音频...

【专利技术属性】
技术研发人员:张世磊涂旭东金锋金琴刘文秦勇
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1