用于搜索多媒体内容的用户界面方法和设备技术

技术编号:13127873 阅读:94 留言:0更新日期:2016-04-06 13:50
本发明专利技术的各实施例涉及:与用于对查询和查询结果进行查询以基于例如视频的多媒体内容中的内容搜索所需场景的方法相关的用户界面方法和设备,所述用于搜索内容的方法包括以下步骤:通过用户界面接收用于搜索内容的查询输入;通过使用与所述内容相关联的描述信息来检测与所述查询相对应的部分内容中的至少一个,作为查询结果;基于与部分内容中的至少一个中的每一个相对应的播放时段来确定用于显示所述查询结果的位置;通过考虑部分内容的长度和/或所述查询结果之间的相对距离,确定与查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸;以及根据所确定的查询结果的位置和相关尺寸至少部分地显示至少一个查询结果。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及用于支持查询输入和查询结果输出以检测多媒体内容中的所需帧、场景或镜头并向用户提供检测到的帧、场景或镜头的用户界面技术。
技术介绍
随着计算技术的发展,例如音乐、视频、图像等的多媒体内容的创建以及多媒体内容的传输和购买已经变得简单,并且因此内容的数量和质量已经非常迅速地提高。例如,可以在例如智能电话、便携式多媒体播放器(PMP)、平板计算机、控制台游戏机、台式计算机等的电子设备中存储人拍摄的许多图像、记录的图像、购买的音乐文件和下载的电影文件等,并且可以在每个电子设备中搜索内容,或者还可以搜索/共享通过有线/无线通信装置连接的另一电子设备的内容。此外,可以通过视频点播(VoD)服务实时地搜索视频或通过经由互联网访问例如Youtube的视频共享网站来搜索视频并可以显示找到的视频。同时,视频内容技术向具有高压缩率的编码/解码技术应用高分辨率和高音质的多媒体内容。结果,对于无论何时何地只要用户喜欢就搜索电子设备中的大量内容并对用户想要的场景进行划分和搜索的用户愿望增加,并且要处理的数据量和复杂度也增加。
技术实现思路
技术问题因此,运动图像专家组(MPEG)_7标准被提出作为能够分析多媒体内容并基于分析的内容有效地显示多媒体内容的整体或一部分的代表性描述技术。MPEG-7被正式称为多媒体内容描述接口,并与国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会下的MPEG中的多媒体数据的基于内容的搜索的内容表达方案的国际标准相对应。MPEG-7定义能够表达视听(AV)数据的内容的描述符的标准、定义用于系统地描述AV数据和语义信息的结构的计划的描述方案(DS)以及作为用于定义描述符和描述方案的语言的描述定义语言(DDL)。MPEG-7处理多媒体数据的内容的表达方法,并可以被主要划分为针对包括语音或声音信息的音频数据的基于内容的搜索、针对包括图片或图表的静止图像数据的基于内容的搜索、以及针对包括视频的视频数据的基于内容的搜索。例如,可以使用作为MPEG(运动图像专家组)-7内的一类「概述DS」(描述方案)的「序列概述DS」来描述与图像或音频数据同步的样本(sample)视频帧序列。当用户请求样本视频时,MPEG-7文档可以生成,通过可扩展样式表语言(XSL)转换为超文本标记语言(HTML),并在网络中示出。通过例如MPEG-7的技术,定义用于表达关于例如视频、音频数据、图像等的多媒体内容的信息的元数据结构,因此可以使用根据标准生成的MPEG-7文档来提供根据用户的各种查询找到的结果。MPEG-7是通过基于可扩展标记语言(XML)的文档做出的并用于描述内容中的内容的属性。因此,未提供提取或搜索内容中的内容的方法,使得正在发展执行查询并搜索搜索结果的各种方法。当应用这种技术时,可以基于相应多媒体内容的样本提供电影预告片服务,或可以提供包括短视频的索引服务或搜索所需场景的服务。MPEG-7与代表性内容内容描述方法相对应,但是可以使用其他描述方法。视频是使用压缩方案编码的,并具有例如MPEG、WindowS媒体视频(WMV)、RealMedia可变比特率(RMVB)、M0V、H.263、H.264等的编解码器类型。可以使用例如包括在压缩数据中的运动矢量、残余信号(离散余弦变换(DCT))、整数系数和宏块类型的各种信息来处理用于识别和跟踪压缩数据中的对象的技术。这种算法可以包括基于马尔可夫随机场(MRF)的模型、相异性最小化算法、概率数据关联滤波(PDAF)算法、概率空时宏块滤波(PSMF)算法等。图像的分析元素可以包括轮廓、颜色、对象形状、质地、形式、面积、静止/运动图像、音量、空间关系、变形、对象的来源和特征、颜色的改变、亮度、模式、字符、记号、上色、符号、手势、时间等,并且音频数据的分析元素可以包括频率形状、音频对象、音色、和声、频率分布、声压、分贝、语音的节奏内容、声源的距离、空间结构、音色、声音的长度、音乐信息、声音效果、混合信息、持续时间等。文本包括字符、用户输入、语言的类型、时间信息、内容相关信息(出品人、导演、标题、演员名字等)、注释等。可能单独找到或考虑各种信息与适合于该情况的信息一起找到这种信息。例如,可以仅基于男演员的名字来搜索视频中的场景。然而,除此以外,如果搜索“男演员在下雨天拿着雨伞跳舞同时演唱“雨中唱歌”的歌曲的场景”,则必须考虑复杂的情况以通过视频图像分析和音频分析找到相应场景。在这种情况下,可以将男性图像、下雨场景、雨伞和动作检测应用为要在视频磁轨中找到的描述符,可以在音频磁轨中搜索男性语音模式、歌曲和语音的内容,并且可以在字幕磁轨的文本中搜索短语“雨中唱歌”。因此,可以分析要在每个磁轨中找到的查询内容,以根据一个或更多个磁轨中的每一个来合适地应用查询内容。通常,视频分析使用分析通过连续收集基本关键帧生成的镜头和通过多个收集的镜头而具有语义关系的场景的方法。镜头指的是不停地拍摄或记录直至一个摄像机结束从头开始的拍摄。镜头集合在一起以形成场景,并且一系列场景集合在一起以形成序列。基于图像解析,可以分析图像内的对象之间的关系、图像之间的对象、运动和图像改变,并可以提取关于图像的信息。在音频数据的情况下,可以使用扬声器识别、语义语音识别、基于声音的感情识别、空间印象等分析相应情况和时间戳。在字幕的情况下,可以根据图像中存在字幕并且单独地存在字幕文件的情况通过图像分析或文本分析来分析并提取信息,并可以在MPEG7或类似场景中对提取出的信息结构化。可以在各种方法中找到提取出的信息。可以基于例如实例查询(QBE)、草图(sketch)查询(QBS)或语音识别的方案来输入文本或可以输入要搜索的信息,并且搜索所需场景、声音或字符,以确定与情境相匹配的位置。在QBE中,用户搜索所需图像并对所需图像和类似图像进行比较。在QBS中,用户绘制所需的整个图像,以找到类似图像。作为对图像进行分析、查询和搜索的方法,已经引入了各种技术。所述方法包括IBM的QB 1C、卡内基梅隆大学的Informedia、MIT的照片簿(photobook)、哥伦比亚大学的VisualSeek、伯克利大学的Chabot、索尼的US注册专利n0.US7284188、LG的韩国注册专利n0.KR10-0493635、ETRI的韩国注册专利n0.KR10-0941971、KBS技术研究机构的自动元数据发生器(OMEGA)系统、Blinkx的视频搜索引擎131;[111?(111^口://www.blinkx.com)、Riya.com的Like.com等,并且还包括除上述以外的其他方法。本专利技术的各实施例提供了关于输入查询并搜索查询结果以基于例如视频的多媒体内容找到所需场景的方法的用户界面方法和装置。本专利技术的各实施例提供了用于在视频的进度条上显示与一个或更多个查询结果相对应的缩略图或样本场景视频(视频章节功能),以允许用户容易地并且直观地掌握查询结果在视频中的时间位置和长度,并在一个屏幕上搜索查询结果中的所需场景的方法和装置。本专利技术的各实施例提供了通过以下方法执行容易搜索的方法和装置:提供在查询结果的数量很大并且因此查询结果在屏幕上被显示得非常小或一些查询结果被隐藏时使用的放大镜功能和针对聚焦到的查询结本文档来自技高网...

【技术保护点】
一种由电子设备搜索内容的方法,所述方法包括:通过用户界面接收用于搜索所述内容中的内容的查询的输入;通过使用与所述内容相关的描述信息来检测与所述查询相对应的所述内容的至少一部分内容,作为所述查询的结果;确定显示查询结果的位置;考虑到所述内容的所述部分内容的长度和所述查询结果之间的相对距离中的至少一个,确定与所述查询结果相对应的场景标记的尺寸或显示所述查询结果的区域的尺寸;以及根据所确定的所述查询结果的位置和相关尺寸至少部分地显示一个或更多个查询结果。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:郑哲虎新承爀柳辅铉朱宰石
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1