检索视觉媒体制造技术

技术编号:10102384 阅读:164 留言:0更新日期:2014-05-30 23:28
本公开的示例可以包括方法、系统和具有可执行指令的计算机可读介质。用于检索视觉媒体的示例性方法能够包括接收与目标内容关联的文本查询。基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体,并且从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测所选择的关键帧中的内容类型的实例,以及将内容类型的类似实例分组成聚类。所述目标内容与具有最大数量的类似实例的聚类相关联。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本公开的示例可以包括方法、系统和具有可执行指令的计算机可读介质。用于检索视觉媒体的示例性方法能够包括接收与目标内容关联的文本查询。基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体,并且从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测所选择的关键帧中的内容类型的实例,以及将内容类型的类似实例分组成聚类。所述目标内容与具有最大数量的类似实例的聚类相关联。【专利说明】检索视觉媒体
技术介绍
由于人们共享照片和视频,并且通过响应于对网络的速度和带宽能力提高的商业努力,在因特网上视觉媒体的量越来越多。因特网数据传递速度正在增加。促进参与性信息共享的WEB 2.0应用(诸如社交联网站点,博客,社交媒体和其他应用)在数量上增长。基于图像的和视频共享网站(诸如 FLICKR? (Google, Inc.), PI CASA? (Google, Inc.),YOUTUBE? (Google, Inc.)等)越来越受欢迎。所有这些能力和发展正在使得在线基于内容的图像操作非常有用。由于新的视觉媒体一直被上传到因特网,高效地组织、索引、和检索期望的视觉媒体的方法是恒定且日益增长的挑战。组织视觉媒体能够是极大的努力。人通常是诸如照片、图像和视频帧之类的视觉媒体中的首要主题。在视觉媒体数据集中容易且快速地找到特定人物的视觉媒体的能力是高度需要的。搜索包括特定人物的视觉媒体能够具有很多应用。视觉媒体内容在视觉上被最佳评估。然而,传统搜索工具通常是基于文本的,最初被设计成返回文本结果,并且最近扩展成涉及图像搜索的应用。也就是说,搜索输入被限制成文本,诸如人名、名词、或被搜索的视觉媒体的书面描述。由于例如许多人能够具有相同的名字,这可以返回许多不同人的视觉媒体,基于文本的搜索单独地相对于视觉媒体的结果可能不精确。用户通常不对响应于文本搜索查询(例如,被称为“BobSmith”的所有人的图像)而返回的所有结果感兴趣,而是对所返回图像的某些部分(诸如他们知道的“Bob Smith”的图像)感兴趣。因此,对视觉媒体搜索结果的某种排序能够对用户有益。【专利附图】【附图说明】图1图示根据本公开的一个或多个示例的用于检索视觉媒体的基于文本的搜索入口。图2A图示根据本公开的一个或多个示例的响应于基于文本查询而返回的视觉媒体的显示。图2B图示根据本公开的一个或多个示例的重新排列的视觉媒体的显示。图3图示根据本公开的一个或多个示例用于检索视觉媒体的方法的流程图。图4图示根据本公开的一个或多个示例用于检索视觉媒体的示例性计算系统的框图。图5图示根据本公开的一个或多个示例的与处理资源通信的示例性计算机可读介质(CRM)的框图。【具体实施方式】本公开的示例可以包括方法、系统以及具有可执行指令的计算机可读介质和/或逻辑。根据本公开的一个或多个示例,示例性方法能够包括接收与目标内容关联的文本查询。基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体。从第一组所识别的视觉媒体中选择关键帧。所述方法进一步包括检测所选择的关键帧中的内容类型的实例,并且将所述内容类型的类似实例分组成聚类(cluster)。目标内容与具有最大数量的类似实例的聚类关联。如本文所使用的,术语“包括”意为包括但不限于,术语“包含”意为包含但不限于。术语“基于”意为至少部分基于。本公开提供用于例如通过使用网络(诸如,因特网)来搜索以找到一个或多个特定人物的视觉媒体的系统和方法。根据本公开的示例,系统和/或方法的输入能够是文本查询,诸如要被搜索的一个或多个人物中的一个或多个的名称。系统和/或方法的输出能够是包含所述一个或多个人物的视觉媒体的列表和/或视觉媒体的显示。该列表可以包括包含所述一个或多个人物的每个所返回的视觉媒体中的视觉媒体的位置和/或其分段。例如,列表可以指示对象出现在特定的视觉媒体中的某些时间和/或位置。利用此类结果,用户可以查看和/或编辑所述一个或多个人物的视觉媒体。也就是说用户可以选择所返回的视觉媒体的部分以用于构成新的视觉媒体。例如,新的视频可以由从多个所返回的视频中提取的一个或多个人物的一个或多个分段所形成。此类新的视觉媒体可以包括来自原始静态图像或从视频中提取的静态图像。本公开的系统和方法也可以适用于发现频繁地与作为该搜索的被识别目标的一个或多个人物一起出现的人。能够构成示出作为该搜索的被识别目标的一个或多个人物和其他人一起的视觉媒体。本公开的用于搜索以找到视觉媒体的系统和方法的结果也能够被用来生成人们与作为该搜索的被识别目标的一个或多个人物共同出现(co-appearance)的统计数据。当搜索特定人物的视觉媒体时,从文本查询所返回的结果可能会被混淆。部分视觉媒体可能根本不包含该特定人物,或甚至可能与该特定人物不相关。例如,对于“JohnSmith”的文本搜索能够产生针对除感兴趣的特定John Smith之外的被称为John Smith许多不同人的视觉媒体。通过将面部聚类(face clustering)应用于位于前列的所返回的视觉媒体的帧,能够获得人的面部特征,这随后能够被用来找到更多的相关视觉媒体。视觉媒体的输入样本(诸如在通过示例性方法的查询中)不是必须的,并且不需要分类器的训练。同样,特定人物的被定位的视觉媒体分段能够被用于重新目的化(repurpose)。图1图示根据本公开的一个或多个示例用于检索视觉媒体的基于文本的搜索入口。基于文本的搜索入口 100能够是搜索引擎106,例如与因特网关联的网页或其他数据库。基于文本的搜索入口 100能够是可以从中应用本公开技术的商业可用的搜索引擎106的前端,或者能够是用于独立的视觉媒体搜索系统(例如,私有视觉媒体数据集)的前端。搜索入口 100能够包括通过其来接收文本查询104的搜索字段102。文本查询104能够是例如一个或多个人的名称或受欢迎的视觉媒体的另一个描述符。例如,文本查询104能够是诸如“总统”或“教皇”之类的头衔,或是诸如“第一个黑人总统”或“电影《乱世佳人》中的男主角”之类的描述。对于文本查询104,视觉媒体搜索系统能够搜索视觉媒体(例如,图像、视频)的集合,并且因此基于与视觉媒体中的特定视觉媒体关联的文本描述(诸如,元数据)而返回视觉媒体结果。关联的文本描述能够是与视觉媒体关联的可见和/或不可见文本信息的形式。与视觉媒体关联的可见文本信息能够包括在视频和图像上标记或标签,所述标记能够连同视频/图像一起显示。与视觉媒体关联的不可见文本信息能够包括存储在与视觉媒体关联的文件中与特定视觉媒体关联的元数据(诸如捕获的时间、日期和/或地点、主题的描述等)。根据本公开的一个或多个示例,用于检索视觉媒体的各种方法能够涉及经由因特网来检索视觉媒体(例如,存储在云中的图像,YOUTUBE?视频)。利用基于文本的搜索引擎,能够返回许多视频。然而,在所返回的视频之中,由于文本注释的噪声性质,部分视频可能与正在被搜索的特定的一个或多个人物不相关。也就是说,文本注释可能是一般的、不准确的、模糊的、不精确的等。此外,在相关的视频之中,其部分可能不包含所述一个或多个人。例如,注释为“Johnny的毕业派对”的视频可以捕获出席的那些相关人,而不是感兴趣的对象Johnny。视频也可以不按所本文档来自技高网...

【技术保护点】
一种用于检索视觉媒体的方法,包括:使用处理器接收与目标内容关联的文本查询;使用处理器基于文本查询与视觉媒体的元数据的对应而识别第一组视觉媒体;使用处理器从第一组所识别的视觉媒体中选择关键帧;使用处理器检测在所选择的关键帧中的内容类型的实例;使用处理器将所述内容类型的类似实例分组成聚类;以及使用处理器将目标内容与具有最大数量的类似实例的聚类关联。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:T张K刘X孙
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1