一种基于覆盖率最优化法的内容检索方法及系统技术方案

技术编号:14658564 阅读:197 留言:0更新日期:2017-02-17 00:20
本发明专利技术涉及一种基于覆盖率最优化法的内容检索方法及系统,包括:提取若干数据库存储内容的视频指纹和音频指纹;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果,并将搜索结果返回给用户。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种基于覆盖率最优化法的内容检索方法及其系统。
技术介绍
如今,互联网多媒体资源的可用性和可扩展性发展突飞猛进。因此,音频和视频信息检索技术的发展和进步变得越来越重要和受追捧。然而,现有的方法往往专注于单独的视觉内容或音频内容,而缺乏适当的方法来结合视觉和音频信息。实际上,一套处理密集多任务的系统首先需要将用于检索内容的信息尽可能最小化。尽管音频检索只需要较小的比特率,但由于其是自然的声音,所以相比于信息量更大的二维视频帧,音频检索响应的时间更长。因此,希望优化比特流从而将比特率最小化,同时保持良好的检索性能。本专利技术公开的方法及其系统用于解决现有技术中的一个或者多个问题。
技术实现思路
本专利技术一方面公开了一种内容检索方法。所述方法包括提取若干数据库存储内容的指纹,包括若干视频指纹和若干音频指纹内容。内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列。所述方法包括判断视频帧的代表性视频指纹和音频序列的代表性音频指纹,生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围,并且根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中。所述方法还包括接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹,根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果,并向用户返回搜索结果。本专利技术另一个方面公开了一种内容检索系统,包括:视频/音频指纹提取模块,用于从数据库的存储内容中,提取若干视频指纹和音频指纹;所述内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;以及生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;指纹数据库,用于根据所述存储限制,存储选中的代表性视频指纹和代表性音频指纹在;目标查询视频/音频预处理模块,用于接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;目标查询视频/音频指纹提取模块,用于提取至少一个用于表示查询信息的查询指纹;搜索模块,用于根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。本专利技术的其他方面可以根据本专利技术的说明书,权利要求书以及附图进行理解。附图说明1:图1为本专利技术实施例中应用环境示意图。2:图2为本专利技术实施例中计算系统示意图。3:图3为本专利技术实施例中基于覆盖率最优化法的视频/音频内容检索系统示意图。4:图4为本专利技术实施例中将视频/音频序列分为不同的视频/音频成分的流程图。5:图5为本专利技术实施例中多种模块在利用指纹实现覆盖率最优化的视频/音频内容检索系统中执行的流程图。6:图6为本专利技术实施例中表示视频/音频内容的指纹示意图。7:图7为本专利技术实施例中算法中的状态转换示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。除非另外指出,在各图中相同的参考数字用于相同的部件。多媒体内容的爆炸性增长使其在互联网上越来越容易被获取,因此如何有效地组织和即时地检索这些内容显得尤为重要。例如,利用搜索引擎只搜索几个单词或段落就显得非常方便。然而,如果考虑的是一个没有先验知识的感兴趣的视频剪辑,情况就会变得有所不同,因为用户可能无法在言语上描述它,从而可能导致大部分的工作都变成徒劳。创建一个可靠的内容(如视频)检索系统并不是一件容易的事情。首先,需要综合通过利用音频或视觉信息进行内容检索。对于音频检索,第一步需要将一系列“特性”隔离于音频,这组特征即为音频序列的“指纹”。指纹的概念,在音频检索系统中,是为了将含有大量比特的音频对象映射为有限数量的比特,后者即为所谓的指纹,所述指纹需要有充足的辨识度,以便两个指纹可以被明显地分开或被认为是互相类似。在视频检索中,视频序列中单个图像帧的辨别度已足够使其在大型数据集中被搜索到。这使得无论每帧之间的信息是什么,每一帧本身都可以被认为是一个独立的单元。因此,可以直接使用适当的帧或代表帧进行数据库搜索,而不需要收集所有的连续帧,而冗余的帧间信息更是没有必要收集。术语“视频指纹”指的是一种技术,在所述技术中,软件先后识别,提取,压缩视频的特征组件,使视频被所合成的“指纹”唯一确定。所述技术包括关键帧分析、颜色和运动变化序列分析,功能和对象分析,相机镜头分析等,然后分析结果可被用作视频序列的指纹。由于互联网内容通常涉及音频和视频两方面,本专利技术提供了一种基于视频/音频指纹技术的内容检索系统。图1为本专利技术实施例的工作环境100。如图1所示,环境100包括用户终端102,服务器104,用户106和网络110,也包括其他一些设备。用户终端102包括任何合适类型的用户设备,比如电视机(TV),包括等离子电视机,液晶电视机,投影电视机,非智能或智能电视机。用户终端102包括其他的计算系统,比如个人电脑(PC),平板或笔记本电脑,或智能手机等。此外,用户终端102可以是任何适当的能够呈现内容的设备,能够在一个或多个频道呈现多个节目,并能够通过遥控器实现控制(图中未画出)。服务器104包括任何合适类型的服务器计算机或若干向用户提供个性化内容的服务器计算机。服务器104也可以促进沟通、数据存储,以及其他服务器和用户终端102之间的数据处理。用户终端102和服务器104通过一个或多个通信网络110相互通信,比如有线电视网络、电话网络、和/或卫星网络等。用户106利用用户终端102查询和检索各种内容或观看节目和执行其他感兴趣的活动,或者如果用户终端102安装了运动传感器或深度照相机,用户就可以简单地使用手或肢体语言来控制用户终端102。用户106可以是单个用户或多个用户,比如家庭用户。用户终端102,和/或服务器104可以在任何合适的电子计算平台上执行。图2显示的是能够执行用户终端102,和/或服务器104的计算系统的框图。如图2中所示,计算系统200包括处理器202,存储介质204,显示器206,通信模块208,数据库214,以及外围设备212。某些设备可被省略,也可以包括其他设备。处理器202包括任何合适的一个或多个处理器。具体的,处理器202包括用于多线程或并行处理的多个核心。存储介质204包括内存模块,如ROM、RAM、闪存模块,和大容量存储器,如光盘和硬盘等。存储介质204可以存储由处理器202执行时,实现各种步骤的计算机程序。此外,外围设备212包括多种传感器和其他的输入/输出设备,比如键盘和鼠标,通信模块208包括若干网络接口设备,用于在通信网络中建立连接。数据库214包括一个或多个数据库,用于存储特定的数据,或在存储的数据中执行特定操作,比如数据库检索。用户终端102和/或服务器104安装内容检索系统,便于用户106使用。图3显示的是基于利用指纹技术实现覆盖率最优化概念的内容(如视频和/或音频)检索系统300。如图3所示,内容检索系统300包括目标查询视频/音频302,目标查询视频/音频预处理模块304,目标查询视频/音频指纹提取模块306、搜索模块308,本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610727826.html" title="一种基于覆盖率最优化法的内容检索方法及系统原文来自X技术">基于覆盖率最优化法的内容检索方法及系统</a>

【技术保护点】
一种内容检索方法,其特征在于,所述方法包括:从数据库的存储内容中,提取若干视频指纹和音频指纹;所述存储内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。

【技术特征摘要】
2015.08.25 US 14/835,0041.一种内容检索方法,其特征在于,所述方法包括:从数据库的存储内容中,提取若干视频指纹和音频指纹;所述存储内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收搜索结果中用户的选择项目;以及在数据库中检索与所述选择项目相对应的内容。3.根据权利要求1所述的方法,其特征在于,所述至少一个用于表示查询信息的查询指纹包括:视频查询指纹和音频查询指纹;以及所述最匹配的指纹与视频查询指纹或者音频查询指纹相匹配。4.根据权利要求1所述的方法,其特征在于,所述视频指纹是视频帧的固定大小的特征向量;以及所述音频指纹是音频序列的密度分布的固定数量的原始关键点。5.根据权利要求1所述的方法,其特征在于,使用预设的指纹提取算法从查询信息中提取所述视频指纹和音频指纹,所述预设的指纹提取算法与所述从数据库的存储内容中提取视频指纹和音频指纹的算法相同。6.根据权利要求1所述的方法,其特征在于,所述生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围的步骤具体包括:根据覆盖率最优化法,生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围。7.根据权利要求6所述的方法,其特征在于,所述生成数据比率和覆盖范围的步骤具体包括:所述存储限制是由代表性视频指纹和代表性音频指纹的总数量确定的存储空间。8.根据权利要求6所述的方法,其特征在于,所述覆盖范围是指在用户接受范围内返回的搜索结果数量,所述搜索结果包含正确的搜索结果。9.根据权利要求6所述的方法,其特征在于,所述覆盖率最优化法是指在给定的存储限制下,寻找最大的,包含正确的搜索结果的覆盖范围。10.根据权利要求9所述的方法,其特征在于,所述覆盖率最优化法通过如下算式计算所述最大的覆盖范围:使得:BV×NV+BA×NA≤Rbudget其中,NV和NA分别表示代表性视频指纹和代表性音频指纹;fV(NV)和fA(NA),分别表示视频和音频的最优化过程,所述α∈[0,1;BV和BA分别表示每个视频代表性指纹和音频代表性指纹的大小;Rbudget表示数据速率。11.一种内容检...

【专利技术属性】
技术研发人员:汪灏泓宁广涵张帜任小波
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1