改进的数据检索方法和系统技术方案

技术编号:2854308 阅读:153 留言:0更新日期:2012-04-11 18:40
一种获得与内容项关联的数据的方法,包含步骤:获得(32)内容项的标识符,利用该标识符执行(33)数据库查找以得到数据以及如果数据库查找没能获得该数据则将内容项提交(37)给输出端(210)以便由人类(200)来处理,其特征在于:自动地将内容项分类到若干类别之一中的步骤(35),以及基于内容项的分类而有条件地执行至少一个其它步骤。在一个实施例中,只有当(36)数据库查找没能获得该数据并且将内容项分类到若干预定类别之一中时才将内容项提交给输出端。服务器(300)和计算机程序产品用于执行该方法。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种获得与内容项关联的数据的方法,包含步骤获得内容项的标识符,利用该标识符来执行数据库查找以获得数据以及如果数据库查找没能获得该数据则将内容项提交给输出端以便由人类来处理。本专利技术进一步涉及一种用于获得与内容项关联的数据的系统,包含用于获得内容项的标识符的装置,用于利用该标识符来执行数据库查找以获得数据的装置,以及如果数据库查找没能获得该数据时用于将内容项提交给输出端以便由人类处理的装置。本专利技术进一步涉及一种计算机程序产品。由于越来越多的内容都在变得可利用,因此,自动广播监控器,即无线电台或电视台播放表的自动生成变得越来越重要。用于自动内容标识的已知技术常常是基于水印或指纹的。基于水印的系统从嵌入在内容项中的水印的有效负载中提取内容项的标识符。基于指纹的系统计算项的最相关感知特征的表示并利用其作为标识符。将若干内容项的标识符与诸如名称、艺术家、流派等等这样的它们的关联数据一起保存在数据库中。通过获得其标识符并且利用该标识符作为查询关键字或查询参数来在数据库中执行查找或查询而检索特定内容项的数据。然后该查找返回与标识符关联的数据。当正在广播标识符在数据库中的歌曲、视频剪辑、影片或其他内容时,这种系统进行自动识别。然而,不管数据库多大,总是会广播那些其标识符不在数据库中的内容。例如,还不能识别标识符没有添加到数据库中的新发行的歌曲。而且由于系统的成本随着数据库的尺寸而线性增长,因此拥有很大型数据库也很没有成本效率。此外,在一个国家中由无线电台广播的98%的歌曲是属于仅来自于一个小的歌曲集合(典型地是20.000到30.000首)中。假定它们想识别每个广播的内容项,当前的广播监控器提供者使人类收听或观看所有未识别的内容。由于这是一种手工操作,因此,提供者承受了大量的成本。一种音频指纹的应用是其中消费者可利用他的移动电话来识别他不知晓名称的歌曲的服务。为了最佳的消费者满意度,必不可少的是消费者想识别的歌曲的指纹是处于数据库中的可能性。因此,将所有对该指纹服务的电话呼叫记录到音频文件中并且例如是一周一次地手动识别所有(或某个百分比)的这些文件。这样做是为了最佳化指纹数据库的内容,因此最大化了消费者想识别的歌曲的指纹存在于数据库中的可能性。用于视频的类似应用也是可能的。美国专利5,862,223中公开了一种专家匹配方法和装置,其中将用户请求指定给人类专家以便由那些专家来回答。当收到请求时,由人类专家为类似请求搜索数据库来以避免重复工作。如果未发现类似请求,利用在该请求中发现利用的关键字或主题基于请求的分类而为适当的专家执行搜索。美国专利申请2003/0037010公开了一种用于检测数字作品的未授权传输的方法。由所关心的如MP3、AVI、ASF或OGG这样的文件类型来辨认并识别所关心的作品。查询数据库以确定所讨论的作品是否匹配数据库中的内容。通过数据库查找获得内容项的元数据。如果数据库查找失败,则手动地提供该元数据。利用作品标识符来搜索数据库。如果数据库搜索显示该作品被识别为版权保护,则采取适当的处理(例如块传输)。本专利技术的一个目的是提供一种根据前文的方法,其降低了现有技术所需的手工劳动。根据本专利技术通过这样一种方法来实现这个目的,该方法的特征在于自动将内容项分类到若干类别之一中的步骤,以及基于内容项的分类而有条件地执行至少一个其它步骤。通过将自动分类技术与内容识别技术进行组合,显著地降低了必须手动处理数据库中的失败查找的成本。本专利技术建立在这样一个理解的基础上,即自动分类步骤允许理性判断数据库查找和/或向人类提交内容项是否将用于有用目的。在以上提及的现有技术文献中,没有公开或暗示这种理解。在美国专利5,862,223中,对分类既不有条件地执行数据库搜索也不执行专家搜索。即不考虑将请求所分类的类别而执行这两个步骤。该类别用于促进搜索,而不是为了决定没有必要搜索。在美国专利申请2003/0037010中,辨认内容为MP3或AVI的步骤仅用于选择适当的内容标识符模块,而不是决定数据库查找不必要。当辨认出内容为MP3或AVI时,查询元数据数据库或具有注册内容的数据库不是有条件的。基于所有要处理的内容都是可识别的这个隐含假定而建立这些系统。因此,永远不会跳过数据库查找,并且如果数据库查找失败,总是提交该内容以便人工识别是有意义的。因而,即使所讨论的内容只不过是不可能识别的随机噪声,这些系统将也总是执行数据库查找并提交该内容以便人工识别。在本专利技术的第一方面,该方法包含当且仅当将内容项分类到若干预定类别之一中时执行数据库查找。避免了保证会失败的这种查找方式。例如,如果将内容项分类到“音乐”类别中,则在具有音乐的数据库中的查找可能会成功,但是不会发现分类为“噪声”的内容项,因此可以将其忽略。在本专利技术的第二方面,该方法包含当且仅当数据库查找没能获得数据并且将内容项分类到若干预定类别之一时向输出端提交内容项。这降低了操作员必须收听或观看的内容数量。例如在广播音频监听的情况中,采用一种在“音乐”和“非音乐”间进行区分的简单的两类分类器。在这个情况中,仅必须手动识别那些未被指纹识别的并且分类为“音乐”的音频。由于大多数未识别的音频由语音组成,因此可实现手工劳动的显著降低。还提供将传递给操作员的数据量最小化的优点。必须将服务器未辩认出的所有内容传送到操作员可以从中收听或观看它们的终端。这意味着潜在大量的音频或视频内容必须传送给操作员。如果操作员位于一个物理上很远的地点,那么所需带宽可能很昂贵。根据本专利技术,不需要传送那些分类为不可识别的内容,这降低了所需带宽。在进一步的实施例中,该方法包含根据内容项分类到其中的那个类别而从多个输出端中选择该输出端。可利用指定流派(流行的、古典的等)来标记未识别的内容的更成熟的分类器增加了自动将未识别的内容分给在相应流派中具有专门技术的适当人员的额外可能性。在进一步的实施例中,该方法包含通过计算内容项的指纹而获得标识符。如音频或视频剪辑这样的内容项的指纹是所讨论的项最相关感知特征的表示。有时将这种指纹也称作是“(鲁棒)散列”。在进一步的实施例中,该方法包含通过从嵌入在内容项中的水印的有效负载中提取标识符而获得该标识符。水印检测可能需要大量的处理,尤其是在视频水印检测的情况中。根据本专利技术的第三方面,如果要通过指纹计算或水印有效负载提取而获得该标识符,那么当且仅当将内容项分类到若干预定类别之一中时执行这些操作是有益的。在水印的情况中,通过分类并忽略被辨认为不含有水印的内容,降低了所需的处理量。例如是广告或随机噪声这样的可被分类在表示未出现水印的类别中的内容现在不必受到水印检测。在指纹计算的情况中,在某些结构中,在物理上远离执行数据库查找地点的地点进行指纹计算。在这种结构中,也计算如语音或噪声这样的不可识别的内容的指纹、或不必识别的如商业广告节目或新闻的内容的指纹。通过应用分类器以“剔除”这种不可识别的内容,降低了需要传送到数据库查找部分中的指纹数量。这也降低了要传送的数据量。本专利技术的另一个目的是提供一种根据前文的系统,其降低了在先技术所需的手工劳动。根据本专利技术通过这样一种系统来实现这个目的,该系统的特征在于至少一个装置适用于依靠将内容项分类到若干类别之一中的装置的输出端而进行操作。在一本文档来自技高网...

【技术保护点】
一种获得与内容项关联的数据的方法,包括步骤:获得(32)内容项的标识符,利用标识符来执行(33)数据库查找以获得数据,以及如果数据库查找没能获得该数据则将内容项提交(37)给输出端(210)以便由人类(200)处理,其特征在于:自动地将该内容项分类到若干类别之一中的步骤(35),以及基于内容项的分类而有条件地执行至少一个其它步骤。

【技术特征摘要】
【国外来华专利技术】EP 2003-3-13 03100639.81.一种获得与内容项关联的数据的方法,包括步骤获得(32)内容项的标识符,利用标识符来执行(33)数据库查找以获得数据,以及如果数据库查找没能获得该数据则将内容项提交(37)给输出端(210)以便由人类(200)处理,其特征在于自动地将该内容项分类到若干类别之一中的步骤(35),以及基于内容项的分类而有条件地执行至少一个其它步骤。2.权利要求1的方法,包括当且仅当(44)将内容项分类到若干预定类别之一中时,执行数据库查找。3.权利要求1的方法,包括当且仅当(36)数据库查找没能获得数据并且将内容项分类到若干预定类别之一中时,将内容项提交(37)给输出端。4.权利要求1、2或3的方法,包括基于将内容项分类到其中的类别而从多个输出端中选择输出端。5.权利要求1的方法,包括通过计算内容项的指纹而获得该标识符。6.权利要求1的方法,包括...

【专利技术属性】
技术研发人员:HAAM德鲁伊特JA海特斯马AJLM马安多克斯
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1