当前位置: 首页 > 专利查询>雅虎公司专利>正文

用于内容识别的音频指纹制造技术

技术编号:10334166 阅读:106 留言:0更新日期:2014-08-20 18:41
用于识别流过电视的多媒体内容的方法和系统包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制并基于该声学调制生成该特定区段的区别向量,其中该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频指纹,更具体地涉及用于所连接的电视的音频指纹。
技术介绍
电视观看已经在多年间发生了改变。技术的进步已经允许电视制造商将互联网和web特征集成到电视机中,来提供通过这些电视机连接和访问在线交互媒体、互联网TV、OTT内容(over-the-top content)、和按需流媒体的能力。除了电视机之外,一些诸如机顶盒、蓝光播放器、游戏控制器、和其他协同设备之类的外部设备也装备了这些互联网和web特征以便使得传统的、没有所集成的这些特征的电视机能够通过这些外部设备访问互联网和web特征。利用这些带互联网功能的电视机,观看者能够搜索和找到在web上可用、本地可用、或者直接由内容提供商提供的视频、电影、照片、和其他内容,该内容提供商例如是有线内容提供商、卫星内容提供商、其他用户等等。并入到TV和外部设备中的互联网特征还提供了与社交网络站点的集成,从而允许观看者在进行传统的TV观看的同时进行社交互动。 带有互联网功能的电视机拥有众多的应用以允许用户搜索并选择用于观看的内容。然而,要被观看的内容的身份(identity)和/或内容的源在电视机处可能不是可用的。如果能够通过指纹来识别被选择用于观看的内容从而使得与该内容有关的附加信息和宣传内容(包括与内容相关的事件)能够被呈现给观看者,那么这将是有利的。在当前的信息时代,示出任何与该内容有关的附加信息能够增加用户的参与度和用户的满意度。 这是产生本专利技术的实施例的背景。
技术实现思路
本专利技术的实施例描述了在电视上允许对被选择用于观看的多媒体内容进行识别的方法和系统。互联网使能的电视机或外部设备的处理器执行的算法从被选择用于在电视设备处呈现的多媒体内容中取回音频信号、通过检查该音频信号的调制特性来执行该音频信号中的一部分的指纹化、以及使用指纹来识别与来自内容提供商的内容有关的信息。内容信息可被用于识别与该内容有关的附加信息或宣传媒体,或者用于生成在该内容旁边呈现的事件。 实施例提供了一种使用音频信号确定诸如视频内容之类的多媒体内容的源的方式。由于大多数受保护的内容在给定音频的情况下是可识别的,因此分析多媒体内容的图像不如分析所广播的话语和音乐那么重要。当前的实施例提供了通过执行以下动作聚焦在一小段音频信号上来识别整个内容的方式:提取被选择用于呈现的多媒体内容的音频部分、对该音频部分进行指纹化、以及将该指纹与数据库中可用的多媒体内容的相应音频部分进行匹配来确定该多媒体内容。当前实施例提供了一种高效算法,该算法聚焦于音频信号的一部分的调制特性上来匹配从多个内容提供商中获得的多媒体内容。算法还提供了这样的能力:通过在本地缓存中存储与内容有关的信息并执行对流向电视机的音频信号的周期性验证来验证该音频信号是针对同一内容的。算法通过以下动作来执行周期性验证:生成流式音频信号的新指纹并与本地缓存中的内容信息进行比较来确定信号是否继续与本地缓存中的内容相匹配或者是否有偏离。如果存在偏离,那么算法启动在数据库服务器上的搜索以找寻与其中存储的内容的匹配并且匹配周期继续。如果不存在偏离,那么不需要查询数据库服务器来找寻匹配,从而在提供对于内容的高效和精确匹配的同时产生了资源优化和匹配速度。 应当认识到,本专利技术能够以多种方式(例如,方法和系统的方式)实现。本专利技术的数个创造性实施例被描述如下。 在一个实施例中,公开了一种用于识别流过电视的多媒体内容的方法。该方法包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制(acoustic modulation)并基于该声学调制生成该特定区段的区别向量。该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。 在另一实施例中,公开了一种用于识别流过电视的内容的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别声学调制以基于该声学调制生成针对特定区段的向量。该向量标识了与该特定区段的数据点有关的多个浮点数并且定义了音频信号的特定区段的独有音频指纹。内容数据库被搜索来识别带有具有最接近于该特定区段的多个浮点数的数据点的音频区段的一个或多个内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库,该多个音频区段表示从多个内容提供商处获得的多个内容的多个音频信号的不同部分。带有某一音频区段的内容被识别出,该音频区段具有最接近特定区段的浮点数的数据点。使用带有与该特定区段相匹配的音频区段的内容的内容标识符来查询内容提供商数据库。响应于该查询,从内容提供商数据库中接收内容的一部分。该内容的一部分包括匹配特定区段的内容记录以及针对预定量时间的附加记录。从内容提供商数据库接收的内容的一部分被用于对流经电视的音频信号的后续匹配。 在另一实施例中,公开了一种用于匹配流经电视的内容的宣传媒体的方法。该方法包括从被选择用于在电视处呈现的内容中取回音频信号。音频信号被划分到较小间隔的多个区段中。分析音频信号的特定区段来识别调制特征并生成与关联于音频区段的数据点有关的多个浮点数的向量。该向量定义了音频区段的独有指纹。内容数据库被搜索来识别带有具有最接近于音频信号的特定区段的多个浮点数的数据点的音频区段的内容。内容数据库是对于多个音频区段的预计算出的数据点的存储库,该多个音频区段表示与从多个内容提供商处获得的多个内容相关联的多个音频信号的不同部分。使用特定区段的指纹来从服务数据库中识别出与该内容有关的宣传媒体。从内容提供商数据库中接收内容的一部分,从广告活动数据库中接收与所识别的宣传媒体有关的元数据和资产(assets)。使用所取回的元数据和资产对宣传媒体的多媒体内容进行组装以在电视上在与音频信号流有关的内容旁边进行呈现。 因此,专利技术的实施例提供了用于通过使用声学调制对从内容中提取的音频信号的一部分进行指纹化以及将该指纹与存储在内容数据库中的内容进行匹配来识别流经电视机的内容的源的高效搜索和匹配算法。匹配算法<本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/62/201280061913.html" title="用于内容识别的音频指纹原文来自X技术">用于内容识别的音频指纹</a>

【技术保护点】
一种用于识别流经电视的多媒体内容的方法,所述方法由所述电视的处理器执行,包括:从被选择用于在所述电视处呈现的多媒体内容中取回音频信号;将所述音频信号划分为较小间隔的多个区段;分析特定区段来识别所述特定区段中的声学调制,该分析基于所述声学调制生成所述特定区段的区别向量,该向量定义了所述音频信号的所述特定区段的独有音频指纹;以及使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查询,以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息,所述内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的所述多媒体内容有关的信息。

【技术特征摘要】
【国外来华专利技术】2011.12.20 US 13/332,3311.一种用于识别流经电视的多媒体内容的方法,所述方法由所述电
视的处理器执行,包括:
从被选择用于在所述电视处呈现的多媒体内容中取回音频信号;
将所述音频信号划分为较小间隔的多个区段;
分析特定区段来识别所述特定区段中的声学调制,该分析基于所述声
学调制生成所述特定区段的区别向量,该向量定义了所述音频信号的所述
特定区段的独有音频指纹;以及
使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查
询,以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息,所述
内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的
所述多媒体内容有关的信息。
2.如权利要求1所述的方法,其中所述音频信号是从由内容提供商
流向所述电视的多媒体内容中捕获的,或者是从数字多媒体记录设备中获
得的。
3.如权利要求1所述的方法,其中所述较小的间隔是5秒左右的预
定义间隔。
4.如权利要求1所述的方法,其中分析还包括:
生成声学声谱图来识别音频信号的所述特定区段在一个或多个频率处
的声学调制特性,其中所述声学调制特性散布于多个通道;
在每个通道处检查所述声学调制来测量量值,所述量值标识了在每个
频率处每个通道中的能量值;以及
将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特
定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数,
其中所述向量标识了表示所述音频信号的特定区段的独有指纹的数据点的
多个浮点数。
5.如权利要求4所述的方法,其中对所述声波调制的检查以及对量
值的测量是使用快速傅里叶变换技术实现的。
6.如权利要求4所述的方法,其中查询还包括:
搜索所述内容数据库以识别带有音频区段的一个或多个多媒体内容,
该音频区段具有最接近于所述音频信号的特定区段的所述多个浮点数的数
据点,所述内容数据库为多个音频区段的预计算出的数据点的存储库,所
述多个音频区段表示从多个内容提供商获得的多媒体内容的多个音频信号
的不同部分;
使用迭代计算法计算所识别的多媒体内容的每个音频区段的数据点与
所述特定区段的浮点数之间的距离;以及
选择具有最接近于所述浮点数的数据点的多媒体内容,其中该多媒体
内容是使用独有标识符来进行引用的。
7.如权利要求6所述的方法,还包括使用所述独有标识符从所述内
容提供商取回与条目有关的多媒体内容,所述多媒体内容包括匹配所述特
定区段的多媒体内容以及与当前正在所述电视处呈现的音频信号有关的、
预定量时间的附加多媒体内容,所取回的多媒体内容被存储在所述电视的
本地缓存中以用于对继续流经所述电视的内容的音频信号的后续验证。
8.如权利要求6所述的方法,还包括:
当不止一个多媒体内容具有最接近于所述特定区段的浮点数的数据点
时,
通过选择当前被选择在所述电视处呈现的所述内容的音频信号的
一个或多个附加区段来执行附加匹配。
9.如权利要求1所述的方法,还包括:
识别来自服务数据库的、与被安排用于呈现的多媒体内容有关的事件
或宣传媒体,所述事件或宣传媒体是通过使用来自所述特定区段的指纹中
的信息来识别的;
从广告活动数据库取回与所识别的事件或宣传媒体有关的元数据和资
产;以及
使用所取回的元数据和资产来组装与所述事件或宣传媒体相关联的应
用或多媒体内容,所组装的、与事件或宣传媒体有关的应用或多媒体内容
在电视处在与所述音频信号有关的多媒体内容的旁边呈现。
10.一种用于识别流经电视的内容的方法,所述方法由所述电视的处
理器执行,包括:
从被选择用于在所述电视处呈现的内容中取回音频信号;
将所述音频信号划分为较小间隔的多个区段;
分析特定区段来识别所述特定区段中的声学调制,该分析基于所述声
学调制生成所述特定区段的向量,所述向量标识了与所述特定区段的数据
点有关的多个浮点数,所述向量定义了所述音频信号的所述特定区段的独
有音频指纹;
搜索内容数据库以识别带有音频区段的一个或多个内容,该音频区段
具有最接近于所述特定区段的所述多个浮点数的数据点,所述内容数据库
为多个音频区段的预计算出的数据点的存储库,所述多个音频区段表示从
多个内容提供商获得的多个内容的多个音频信号的不同部分;
获得具有这样的音频区段的内容的内容标识符,该音频区段具有最接
近于所述特定区段的浮点数的数据点;
使用所述内容标识符向内容提供商数据库查询与带有匹配特定音频区
段的音频区段的内容有关的信息;以及
响应于所述查询,从所述内容提供商数据库接收所述内容的一部分,
该部分内容包括匹配所述特定区段的内...

【专利技术属性】
技术研发人员:马尔科姆·斯莱尼安德瑞斯·赫尔南德斯·沙夫霍瑟
申请(专利权)人:雅虎公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1