【技术实现步骤摘要】
本专利技术涉及信息
,尤其涉及一种基于覆盖率最优化法的内容检索方法及其系统。
技术介绍
如今,互联网多媒体资源的可用性和可扩展性发展突飞猛进。因此,音频和视频信息检索技术的发展和进步变得越来越重要和受追捧。然而,现有的方法往往专注于单独的视觉内容或音频内容,而缺乏适当的方法来结合视觉和音频信息。实际上,一套处理密集多任务的系统首先需要将用于检索内容的信息尽可能最小化。尽管音频检索只需要较小的比特率,但由于其是自然的声音,所以相比于信息量更大的二维视频帧,音频检索响应的时间更长。因此,希望优化比特流从而将比特率最小化,同时保持良好的检索性能。本专利技术公开的方法及其系统用于解决现有技术中的一个或者多个问题。
技术实现思路
本专利技术一方面公开了一种内容检索方法。所述方法包括提取若干数据库存储内容的指纹,包括若干视频指纹和若干音频指纹内容。内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列。所述方法包括判断视频帧的代表性视频指纹和音频序列的代表性音频指纹,生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围,并且根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中。所述方法还包括接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹,根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果,并向用户返回搜索结果。本专利技术另一个方面公开了一种内容检索系统,包括:视频/音频指纹提取模块,用于从数据库的存储内容中,提取若干视 ...
【技术保护点】
一种内容检索方法,其特征在于,所述方法包括:从数据库的存储内容中,提取若干视频指纹和音频指纹;所述存储内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。
【技术特征摘要】
2015.08.25 US 14/835,0041.一种内容检索方法,其特征在于,所述方法包括:从数据库的存储内容中,提取若干视频指纹和音频指纹;所述存储内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;提取至少一个用于表示查询信息的查询指纹;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收搜索结果中用户的选择项目;以及在数据库中检索与所述选择项目相对应的内容。3.根据权利要求1所述的方法,其特征在于,所述至少一个用于表示查询信息的查询指纹包括:视频查询指纹和音频查询指纹;以及所述最匹配的指纹与视频查询指纹或者音频查询指纹相匹配。4.根据权利要求1所述的方法,其特征在于,所述视频指纹是视频帧的固定大小的特征向量;以及所述音频指纹是音频序列的密度分布的固定数量的原始关键点。5.根据权利要求1所述的方法,其特征在于,使用预设的指纹提取算法从查询信息中提取所述视频指纹和音频指纹,所述预设的指纹提取算法与所述从数据库的存储内容中提取视频指纹和音频指纹的算法相同。6.根据权利要求1所述的方法,其特征在于,所述生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围的步骤具体包括:根据覆盖率最优化法,生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围。7.根据权利要求6所述的方法,其特征在于,所述生成数据比率和覆盖范围的步骤具体包括:所述存储限制是由代表性视频指纹和代表性音频指纹的总数量确定的存储空间。8.根据权利要求6所述的方法,其特征在于,所述覆盖范围是指在用户接受范围内返回的搜索结果数量,所述搜索结果包含正确的搜索结果。9.根据权利要求6所述的方法,其特征在于,所述覆盖率最优化法是指在给定的存储限制下,寻找最大的,包含正确的搜索结果的覆盖范围。10.根据权利要求9所述的方法,其特征在于,所述覆盖率最优化法通过如下算式计算所述最大的覆盖范围:使得:BV×NV+BA×NA≤Rbudget其中,NV和NA分别表示代表性视频指纹和代表性音频指纹;fV(NV)和fA(NA),分别表示视频和音频的最优化过程,所述α∈[0,1;BV和BA分别表示每个视频代表性指纹和音频代表性指纹的大小;Rbudget表示数据速率。11.一种内容检...
【专利技术属性】
技术研发人员:汪灏泓,宁广涵,张帜,任小波,
申请(专利权)人:TCL集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。