用于内容识别的音频指纹制造技术

技术编号：10334166 阅读：106 留言：0更新日期：2014-08-20 18:41

用于识别流过电视的多媒体内容的方法和系统包括从被选择用于在电视处呈现的多媒体内容中取回音频信号。所取回的音频信号被划分到较小间隔的多个区段中。分析特定的区段来识别声学调制并基于该声学调制生成该特定区段的区别向量，其中该向量定义了音频信号的特定区段的独有指纹。使用该特定区段的向量来查询服务器上的内容数据库以获得匹配该特定区段的指纹的多媒体内容的内容信息。内容信息被用于识别与所接收的用于呈现的音频信号相匹配的多媒体内容的源和多媒体内容。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及音频指纹，更具体地涉及用于所连接的电视的音频指纹。
技术介绍
电视观看已经在多年间发生了改变。技术的进步已经允许电视制造商将互联网和web特征集成到电视机中，来提供通过这些电视机连接和访问在线交互媒体、互联网TV、OTT内容(over-the-top content)、和按需流媒体的能力。除了电视机之外，一些诸如机顶盒、蓝光播放器、游戏控制器、和其他协同设备之类的外部设备也装备了这些互联网和web特征以便使得传统的、没有所集成的这些特征的电视机能够通过这些外部设备访问互联网和web特征。利用这些带互联网功能的电视机，观看者能够搜索和找到在web上可用、本地可用、或者直接由内容提供商提供的视频、电影、照片、和其他内容，该内容提供商例如是有线内容提供商、卫星内容提供商、其他用户等等。并入到TV和外部设备中的互联网特征还提供了与社交网络站点的集成，从而允许观看者在进行传统的TV观看的同时进行社交互动。带有互联网功能的电视机拥有众多的应用以允许用户搜索并选择用于观看的内容。然而，要被观看的内容的身份(identity)和/或内容的源在电视机处可能不是可用的。如果能够通过指纹来识别被选择用于观看的内容从而使得与该内容有关的附加信息和宣传内容(包括与内容相关的事件)能够被呈现给观看者，那么这将是有利的。在当前的信息时代，示出任何与该内容有关的附加信...
<a href="http://www.xjishu.com/zhuanli/62/201280061913.html" title="用于内容识别的音频指纹原文来自X技术">用于内容识别的音频指纹</a>

【技术保护点】
一种用于识别流经电视的多媒体内容的方法，所述方法由所述电视的处理器执行，包括：从被选择用于在所述电视处呈现的多媒体内容中取回音频信号；将所述音频信号划分为较小间隔的多个区段；分析特定区段来识别所述特定区段中的声学调制，该分析基于所述声学调制生成所述特定区段的区别向量，该向量定义了所述音频信号的所述特定区段的独有音频指纹；以及使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查询，以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息，所述内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的所述多媒体内容有关的信息。

【技术特征摘要】
【国外来华专利技术】2011.12.20 US 13/332,3311.一种用于识别流经电视的多媒体内容的方法，所述方法由所述电
视的处理器执行，包括：
从被选择用于在所述电视处呈现的多媒体内容中取回音频信号；
将所述音频信号划分为较小间隔的多个区段；
分析特定区段来识别所述特定区段中的声学调制，该分析基于所述声
学调制生成所述特定区段的区别向量，该向量定义了所述音频信号的所述
特定区段的独有音频指纹；以及
使用音频信号的所述特定区段的向量对服务器上的内容数据库进行查
询，以获得与所述特定区段的指纹相匹配的多媒体内容的内容信息，所述
内容信息被用于从内容提供商获得与匹配所接收的用于呈现的音频信号的
所述多媒体内容有关的信息。
2.如权利要求1所述的方法，其中所述音频信号是从由内容提供商
流向所述电视的多媒体内容中捕获的，或者是从数字多媒体记录设备中获
得的。
3.如权利要求1所述的方法，其中所述较小的间隔是5秒左右的预
定义间隔。
4.如权利要求1所述的方法，其中分析还包括：
生成声学声谱图来识别音频信号的所述特定区段在一个或多个频率处
的声学调制特性，其中所述声学调制特性散布于多个通道；
在每个通道处检查所述声学调制来测量量值，所述量值标识了在每个
频率处每个通道中的能量值；以及
将所述音频信号的特定区段的所述向量计算为在与所述音频信号的特
定区段相关联的时间段针对每个频率在每个通道中所测量的量值的函数，
其中所述向量标识了表示所述音频信号的特定区段的独有指纹的数据点的
多个浮点数。
5.如权利要求4所述的方法，其中对所述声波调制的检查以及对量
值的测量是使用快速傅里叶变换技术实现的。
6.如权利要求4所述的方法，其中查询还包括：
搜索所述内容数据库以识别带有音频区段的一个或多个多媒体内容，
该音频区段具有最接近于所述音频信号的特定区段的所述多个浮点数的数
据点，所述内容数据库为多个音频区段的预计算出的数据点的存储库，所
述多个音频区段表示从多个内容提供商获得的多媒体内容的多个音频信号
的不同部分；
使用迭代计算法计算所识别的多媒体内容的每个音频区段的数据点与
所述特定区段的浮点数之间的距离；以及
选择具有最接近于所述浮点数的数据点的多媒体内容，其中该多媒体
内容是使用独有标识符来进行引用的。
7.如权利要求6所述的方法，还包括使用所述独有标识符从所述内
容提供商取回与条目有关的多媒体内容，所述多媒体内容包括匹配所述特
定区段的多媒体内容以及与当前正在所述电视处呈现的音频信号有关的、
预定量时间的附加多媒体内容，所取回的多媒体内容被存储在所述电视的
本地缓存中以用于对继续流经所述电视的内容的音频信号的后续验证。
8.如权利要求6所述的方法，还包括：
当不止一个多媒体内容具有最接近于所述特定区段的浮点数的数据点
时，
通过选择当前被选择在所述电视处呈现的所述内容的音频信号的
一个或多个附加区段来执行附加匹配。
9.如权利要求1所述的方法，还包括：
识别来自服务数据库的、与被安排用于呈现的多媒体内容有关的事件
或宣传媒体，所述事件或宣传媒体是通过使用来自所述特定区段的指纹中
的信息来识别的；
从广告活动数据库取回与所识别的事件或宣传媒体有关的元数据和资
产；以及
使用所取回的元数据和资产来组装与所述事件或宣传媒体相关联的应
用或多媒体内容，所组装的、与事件或宣传媒体有关的应用或多媒体内容
在电视处在与所述音频信号有关的多媒体内容的旁边呈现。
10.一种用于识别流经电视的内容的方法，所述方法由所述电视的处
理器执行，包括：
从被选择用于在所述电视处呈现的内容中取回音频信号；
将所述音频信号划分为较小间隔的多个区段；
分析特定区段来识别所述特定区段中的声学调制，该分析基于所述声
学调制生成所述特定区段的向量，所述向量标识了与所述特定区段的数据
点有关的多个浮点数，所述向量定义了所述音频信号的所述特定区段的独
有音频指纹；
搜索内容数据库以识别带有音频区段的一个或多个内容，该音频区段
具有最接近于所述特定区段的所述多个浮点数的数据点，所述内容数据库
为多个音频区段的预计算出的数据点的存储库，所述多个音频区段表示从
多个内容提供商获得的多个内容的多个音频信号的不同部分；
获得具有这样的音频区段的内容的内容标识符，该音频区段具有最接
近于所述特定区段的浮点数的数据点；
使用所述内容标识符向内容提供商数据库查询与带有匹配特定音频区
段的音频区段的内容有关的信息；以及
响应于所述查询，从所述内容提供商数据库接收所述内容的一部分，
该部分内容包括匹配所述特定区段的内...

【专利技术属性】
技术研发人员：马尔科姆·斯莱尼，安德瑞斯·赫尔南德斯·沙夫霍瑟，
申请(专利权)人：雅虎公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人