用于管理视频内容的方法和装置制造方法及图纸

技术编号:8390895 阅读:143 留言:0更新日期:2013-03-08 02:51
通过分析指定视频文件的至少一个关联描述标签和与数据存储中的视频文件相关联的标签之间的语义关系,管理数据存储中存储的视频文件。使用分析的结果在所述数据存储中存储的视频文件中选择视频文件的集合。将指定视频文件的内容与所选集合的内容进行比较以确定内容的相似度。响应于搜索查询,可使用确定的结果来更新与数据存储中视频文件的相似度相关的信息,例如,在提供结果时使用所述信息。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用 于管理视频内容的方法和装置,并且更具体地,但是非排它的,涉及用户可以向视频托管(hosting)站点上传视频内容以供其他用户访问的环境。
技术介绍
在视频托管网站中,诸如YouTube, Google Video (谷歌视频)和Yahoo ! Video(雅虎!视频),可由用户将视频内容上传到站点并通过搜索引擎使其它用户能够获得所述视频内容。可以相信的是,当前的web视频搜索引擎基于用户录入的特定文本查询,根据视频内容的相关性分数来提供经过排名的搜索结果的列表。然后,用户必须考虑该结果以查找感兴趣的视频或多个视频。由于用户容易向托管网站上传视频,获得视频以及再次发布经过一些修改的视频,视频搜索结果中潜在地存在大量复制、或相近的复制、内容。举例来说,复制的视频内容可包括具有不同的格式、编码参数、诸如颜色或亮度的光度变化、用户编辑和内容修改的视频。这样可能使得用户查找自己实际所期望的内容变得困难或不方便。例如,基于来自YouTube, Google Video (谷歌视频)和Yahoo ! Video (雅虎!视频)的查询的样本,可以发现在搜索结果中列出了平均有超过27%的近似复制视频,对于更流行的视频,结果中会有更多的复制。假设搜索结果的很高百分率的复制视频,用户必须花费大量时间对其进行筛选以找到他们所需要的视频,并且必须重复地观看那些已经浏览过的相似视频的拷贝。当用户从网站搜索视频时,他们通常对第一屏上所示出的结果感兴趣。复制的结果会降低视频搜索、获取和浏览的用户体验。此外,这些复制的视频内容增加了网络存储开销和通过网络传递复制的视频内容的开销。
技术实现思路
根据本专利技术的第一方面,一种管理视频内容的方法,包括使特定视频文件具有描述指定视频文件的内容的至少一个关联标签。分析所述至少一个关联标签同与数据存储中的多个视频文件相关联的标签之间的语义关系。使用分析的结果从多个视频文件中选择视频文件的集合。将指定视频文件的内容与所选集合的内容进行比较,以确定内容的相似度。将所述确定的结果用于更新与数据存储中视频文件的相似度相关的信息。通过使用来自标签的语义信息来识别可能具有相似内容的这些视频文件,其允许从在通过将指定视频与所述集合中包括的那些视频进行比较的复制检测之前可用的总数的文件中选择用于进一步处理的视频文件的集合。通过减少必须考虑的内容的数量,使得更为有效并且更少资源集中地应用视频复制检测技术。特别有益的是在数据存储中保持与视频文件的相似度相关的信息,以用于改善视频搜索结果,且其还可能有益于其他目的,例如,用于对存档内容进行组织。视频复制和相似度检测在其潜在的搜索、主题追踪和版权保护中具有潜力。标签可以是用户生成的。例如,当用户向托管网站上传视频文件时,可以邀请他们添加关键词或其他描述符。存在对用户使用准确的且提供有用信息的标签的激励,使得可能希望查看该内容的其他用户能够方便的找到该内容。然而,添加标签或多个标签的用户不需要是向数据存储添加视频文件的人。例如,可能为人分配对已经存档的内容进行索引的工作。在一种方法中,提供标签而是由用户分配标签时可能涉及一定程度的自动化,但这样可能趋于提供更低价值的语义信息。当要向数据存储添加指定的视频文件时,可以应用所述方法。然而,其可以用于管理之前已经添加到数据存储中的视频内容,以便举例来说,对与数据存储所保持的视频内容的相似度有关的信息进行改进。在一个实施例中,数据存储中包括的视频文件中的任意一个可以被视为指定的视频文件并且用作查找数据存储中的相似视频文件的查询。根据本专利技术的另一方面,一种被编程或配置为执行根 据第一方面的方法的设备。附图说明现在将仅通过实例并且参考附图来描述本专利技术的一些实施例,其中图I示例性地示出了根据本专利技术的实现方式;图2示例性地示出了图I的实现方式的视频复制检测步骤的一部分。具体实施例方式参照图1,视频托管网站包括视频数据库1,其保持视频内容、与视频内容相关联的标签以及与内容的关系相关的信息。当用户上传了新的视频2时,他们还可以将标签分配给视频内容。标签是以某种方式描述视频文件的内容的关键词或术语。标签提供了视频内容的个性化查看并且因此提供了视频语义信息的一部分。第一步是使用标签来选择视频数据库I中已经包括的视频,其中所述视频在语义上与新上传的视频I相关。这将通过标签关系处理器3来执行,其接受与新视频2相关联的标签和与来自数据库I的之前上传的视频相关联的标签。由于用户通常会为视频内容分配多于一个的标签,因此还需要确定标签之间的关系。通常,存在两种类型的关系AND (和)或者OR (或)。对标签应用不同的关系给出不同的结果。在标签之间仅应用AND关系,将促使选择与标签中的每一个相关联的那些视频。这可能导致排除实际上与新上传的视频在语义上相关的一些视频。例如,如果将新上传的视频标记为“Susan Boyle”(苏珊大妈)和“from Scotland”(来自苏格兰)并且应用AND关系,则所选的视频必须将“Susan Boyle”和“from Scotland”这两者作为相关联的标签。由于标签“from Scotland”和“Susan Boyle” 一起出现的频率非常低,所以所选择的视频集合不包括仅利用“Susan Boyle”进行标记的许多视频。然而,后者在语义上最可能与新上传的视频相关。在标签之间仅应用OR关系,可能导致选择比所需视频更多的视频。例如,如果将新上传的视频标记为“apple”和“ipod”,则所选的集合可能包括与“iphone”相关的视频和包括与“apple-fruit (苹果-水果)”相关的视频,但是后者在语义上与新上传的视频不相关。在3处进行标签关系分析,语义信息用于提供对用于进一步处理的视频文件集合的有益选择,以检测复制或相近复制。为了在多个标签之间导出正确的关系,基于来自同之前添加到数据库I的现有视频文件相关联的大量标签的集合知识(collectiveknowledge),来测量标签同现(cooccurrence)信息。标签同现包含用于在语义域中捕捉标签相似度的有益信息。当标签一起出现的概率较高,高于指定值时,意味着使用AND关系来选择通过多个标签获取的视频。当标签同现的功率较低,低于指定值时,基于多个标准来选择与这些标签相关联的视频,所述标准例如是标签出现的频率、标签的流行度、或其它合适参数。这样的选择有助于降低要被考虑的视频文件的总数。因此,对于特定的新上传的视频,如果存在用户分配的多于一个的标签,则由处理器3导出标签之间的关系。由于在视频托管网站中存在大量被标记的视频,来自现有视频的标签提供了用于确定标签关系的集合知识。根据标签关系的测量来计算标签同现频率。存在用于计算标签同现的多种方法。例如,使用方程权利要求1.一种管理视频内容的方法,包括 获取具有描述指定视频文件的内容的至少一个关联标签的指定视频文件; 分析所述至少一个关联标签和与数据存储中的多个视频文件相关联的标签之间的语义关系; 使用分析的结果从多个视频文件中选择视频文件的集合; 将指定的视频文件的内容与所选集合的内容进行比较,以确定内容的相似度;以及 使用确定的结果来更新与数据存储中视频文件的相似度相关的信息。2.根据权利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:Y·任F·常T·伍德R·恩索尔
申请(专利权)人:阿尔卡特朗讯公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1