用于音频辨识的扩展的视频镜头媒体引擎制造技术

技术编号：8300826 阅读：190 留言：0更新日期：2013-02-07 04:18

本发明专利技术公开了用于音频辨识的扩展的视频镜头媒体引擎。用于自动分析多媒体数据的系统、方法和计算机程序产品被公开。实施例接收多媒体数据；检测具有指定的音频特征的部分；并且输出多媒体数据的相应子集和生成的元数据。包括下载的或流传输的电影中的语音、非语音的声音和隐藏字幕在内的音频内容特征像人们可能做的那样被识别，然而实质上是实时的。特定说话者、最有意义的内容声音以及字词和相应的时间戳经由数据库比较被辨识，并且可按照匹配概率的次序被呈现。实施例响应性地预先取得相关数据、辨识地点并且提供相关广告。内容特征也可被发送给搜索引擎从而进一步的相关内容可被识别。用户反馈和确认可随时间过去而改进实施例。

全部详细技术资料下载

【技术实现步骤摘要】

本专利申请一般地涉及管理多媒体数据，并且更具体地涉及基于所选择的多媒体音频内容来收集、分类、总结、编辑、标记、共享以及执行定向(directed)搜索和广告。
技术介绍
在线视频的发展的确是显著的。Comscore公司估计超过75%的美国因特网用户观看在线视频。他们平均每月花235分钟来观看总计达50亿份视频。内容类型通常决定了观看体验。例如，优质内容向用户提供丰富且交互式的观看体验。诸如故事概要、演员表和导演简档(profile)、评级、用户评论和章节划分之类的伴随内容的元数据也对整体体验有所贡献。在web上可获得的优质内容通常是收费的并且通常持续30分钟或更长。相反，免费内容大多是用户生成的并且提供“无装饰的(no frills)”观看体验。文本、特殊场合的缩略图、用户评级以及链接是此观看体验的一部分。观看通常被限制为通过“盲目”搜寻的“开始到结束”回放(没有对内容的可视指南)。免费内容流的平均长度为1-5分钟，Comscore公司估计在线视频的平均持续时间为2. 9分钟。假设海量在线内容的大多数是免费的(且是用户生成的)，那么存在如下的不断增长的需求需要改进免费内容的目前“无装饰的”观看体验。在线视频体验的增强是许多人和机构共有的目标。结果，开发出了许多解决方案。针对优质内容的选择的解决方案是元数据。元数据是与如下内容有关的信息，该内容可表现为用以提供故事概要、演员和导演简档、删除了的场景以及章节划分的文本、图像、视频或音频，此信息允许定制的回放。此外，元数据通过相关链接、用户评论和评级被补充。元数据将描述性和交互性层添加到内容回放。内容创建者、...

【技术保护点】
一种用于自动分析多媒体数据的方法，包括：接收多媒体数据；识别具有目标音频内容特征的至少一个多媒体数据部分；辨识所识别特征的至少一个方面；以及响应性地输出对所述方面的指示。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：普里彦·甘塔堤雷克，董·恩古因，阿布希舍克·帕提尔，迪鹏杜·萨哈，
申请(专利权)人：索尼公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人