当前位置: 首页 > 专利查询>索尼公司专利>正文

用于音频辨识的扩展的视频镜头媒体引擎制造技术

技术编号:8300826 阅读:190 留言:0更新日期:2013-02-07 04:18
本发明专利技术公开了用于音频辨识的扩展的视频镜头媒体引擎。用于自动分析多媒体数据的系统、方法和计算机程序产品被公开。实施例接收多媒体数据;检测具有指定的音频特征的部分;并且输出多媒体数据的相应子集和生成的元数据。包括下载的或流传输的电影中的语音、非语音的声音和隐藏字幕在内的音频内容特征像人们可能做的那样被识别,然而实质上是实时的。特定说话者、最有意义的内容声音以及字词和相应的时间戳经由数据库比较被辨识,并且可按照匹配概率的次序被呈现。实施例响应性地预先取得相关数据、辨识地点并且提供相关广告。内容特征也可被发送给搜索引擎从而进一步的相关内容可被识别。用户反馈和确认可随时间过去而改进实施例。

【技术实现步骤摘要】

本专利申请一般地涉及管理多媒体数据,并且更具体地涉及基于所选择的多媒体音频内容来收集、分类、总结、编辑、标记、共享以及执行定向(directed)搜索和广告。
技术介绍
在线视频的发展的确是显著的。Comscore公司估计超过75%的美国因特网用户观看在线视频。他们平均每月花235分钟来观看总计达50亿份视频。内容类型通常决定了观看体验。例如,优质内容向用户提供丰富且交互式的观看体验。诸如故事概要、演员表和导演简档(profile)、评级、用户评论和章节划分之类的伴随内容的元数据也对整体体验有所贡献。在web上可获得的优质内容通常是收费的并且通常持续30分钟或更长。 相反,免费内容大多是用户生成的并且提供“无装饰的(no frills)”观看体验。文本、特殊场合的缩略图、用户评级以及链接是此观看体验的一部分。观看通常被限制为通过“盲目”搜寻的“开始到结束”回放(没有对内容的可视指南)。免费内容流的平均长度为1-5分钟,Comscore公司估计在线视频的平均持续时间为2. 9分钟。假设海量在线内容的大多数是免费的(且是用户生成的),那么存在如下的不断增长的需求需要改进免费内容的目前“无装饰的”观看体验。在线视频体验的增强是许多人和机构共有的目标。结果,开发出了许多解决方案。针对优质内容的选择的解决方案是元数据。元数据是与如下内容有关的信息,该内容可表现为用以提供故事概要、演员和导演简档、删除了的场景以及章节划分的文本、图像、视频或音频,此信息允许定制的回放。此外,元数据通过相关链接、用户评论和评级被补充。元数据将描述性和交互性层添加到内容回放。内容创建者、发行者以及其间的公司已认识到它的价值,并且已经使元数据成为优质内容供应的整体所需部分。遗憾的是,针对优质内容的元数据创建处理因其依赖于手动创建而并未扩展到免费内容。手动处理用户生成的免费内容是经济上不切实际的提议,因此需要自动的方法。这些方法可作用于内容的音频和视频方面以提取有意义的信息。它们可被认为是制作机器生成的元数据。自动方法落入以下三个类别中的一个音频/视频分析、编解码器技术和产业标准。受到学术界最多关注的类别是音频/视频分析。这些方法分析内容的音频和视频数据并且试图提取对用户而言有意义的关键信息。压缩域(compressed domain)视频分析、运动分析、物体分割、文本检测、谱分析以及话音到文本转换是用于提取关键信息的一些技术。大多数方法提供良好的准确性,然而它们的复杂性限制了在实时应用中的使用以及在资源受限消费类设备上的使用。因此,大多数音频/视频分析是离线执行的。编解码器技术为免费内容提供了替代的自动元数据生成处理。在这种情况下,关于内容的关键信息在编码处理期间被封装在压缩的流中。回放处理提取它们并将它们与内容一起呈现。诸如MPEG2、MPEG4-Part2、AVC(H. 264)、VCI和其他先进的编解码器之类的编解码器标准定义了特别的简档以支持此能力。遗憾的是,该方法将高复杂度加至编码和解码处理,这限制了它的广泛使用。第三种方法是工业标准的使用。诸如MPEG-7、MPEG-21和HTML-5之类的标准试图通过实现对内容中关键信息的搜索、共享和增强显示来丰富在线视频体验。MPEG-7和MPEG-21的流行性一直受限,因为它们不解决从内容中提取关键信息的根本问题。而是,这些标准提供在设备间查询和共享信息的机制。HTML-5最近在媒体报道中获得了显著的关注。它提出针对视频标签的主要修正,该视频标签实现对显示在浏览器上的回放内容的动态且交互式的访问。视频窗定位、着色、边缘效果和技巧模式控制是由该标准提出的效果中的一些。HTML-5可能是卓越的,因为其承诺通过其丰富的图形操作和音频/视频效果来增强在线视频体验。总之,免费内容需要添加诸如关键帧、场景分类和概要等之类的元数据以反映出像优质内容所提供的那样的丰富视频体验。然而,与优质内容不同,预期该数据由用户来生成并标记到流上是不切实际的。为了成为一个可行的选择,数据需要被实时地生成,同时仅·需要适度的计算资源。以上讨论的目前方法因各种因素而不能满足此要求。音频和视频分析技术可能有能力创建元数据,然而因其复杂性,需要远超出消费类媒体设备的能力的计算资源。此外,这些技术不是实时性的,因此最适合用于离线创建。编解码器技术已经证明了其在编码处理期间将关键信息嵌入到流中的能力。然而,编码复杂度和缺乏对解码器/播放器的支持限制了其使用。包括HTML-5在内的工业标准也不提供全面的解决方案,因为它们未能解决元数据创建的核心问题。本专利申请描述了针对这些挑战的解决方案。
技术实现思路
用于执行多媒体数据自动分析的系统、方法和计算机程序产品被公开并在此被要求保护。下载的或流传输的电影或视频剪辑(video clip)可被分析以像人们可能做的那样基于音频响度和视频运动水平来识别动作场景、安静场景和可能的跳变点。索引或菜单可然后基于消费者偏好被创建,并被用于播放感兴趣的场景、产生定制的宣传片或者按需用元数据编辑和标记电影。结果可被发送到可视化搜索引擎用于进一步的搜索,用于替换商业消息,或者经由社交网络共享。实施例还可以通过内容特征来分类并群聚(cluster)用户选择的输入。示例性实施例接收多媒体数据,识别具有指定内容特征的至少一个多媒体数据部分,并且响应性地输出至少一个所识别的多媒体数据部分。针对多媒体数据,元数据也被生成。分析优选地是实时发生的,并且可以由资源受限消费类应用(比如媒体播放器插件工具)来执行。分析可包括基于人类感知来执行启发式算法。在一个实施例中,分析基于时间划分或图片组边界对帧子集进行操作。分析可包括将话音转换为文本和/或执行面部识别。分析可对如下视频特征进行操作,这些视频特征包括(a)压缩域运动向量和位置分布,(b)压缩域宏块大小和相应分布以及块类型和相应位置,(C)压缩域帧类型,和/或(d)原始颜色直方图和相关联的统计特性。分析还可以对如下的音频特征进行操作,这些音频特征包括(a)采样的音频帧的RMS功率,(b)经由短期傅里叶变换计算出的谱质心,和/或(C)非线性梅尔测度(Mel scale)频率上的短期MFC功率谱表示。分析可将动作场景识别为具有提高的音频水平和/或提高的运动向量大小(magnitude)的多媒体数据部分。动作场景识别还可包括选择具有提高的运动向量大小的P帧子集,然后针对每个所选P帧,解码相应的音频帧、针对相应的音频帧计算RMS功率值并且最终选择具有最高RMS功率值的音频帧。分析还可将低运动场景识别为既具有最大相邻宏块又具有最小运动向量大小的多媒体数据部分。低运动场景识别还可包括选择P帧子集,然后针对每个所选P帧,提取宏块和运动向量、确定宏块大小和运动向量大小并且最终选择具有最大相邻宏块和最小运动向量大小的P帧。分析还可将预览点识别为具有较宽颜色分布的多媒体数据部分。预览点识别还可包括将多媒体数据划分为不重叠的部分,然后针对每个部分,提取三个均等分隔的候选帧、·计算每个候选帧的颜色直方图并且最终选择具有最大标准偏差的候选帧。分析还可将MFCC视为特征向量并且响应性地识别具有人的对话和音乐的至少一个的多媒体数据部分。多媒体数据可包括音频内容、视频内容、压缩的多媒体本文档来自技高网
...

【技术保护点】
一种用于自动分析多媒体数据的方法,包括:接收多媒体数据;识别具有目标音频内容特征的至少一个多媒体数据部分;辨识所识别特征的至少一个方面;以及响应性地输出对所述方面的指示。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:普里彦·甘塔堤雷克董·恩古因阿布希舍克·帕提尔迪鹏杜·萨哈
申请(专利权)人:索尼公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1