本发明专利技术公开一种稳固的取指纹系统。该系统识别未知多媒体内容(U(t)),这是通过从所述内容提取指纹(一系列散列字)并且在其中存储了多个已知内容(K(t))的指纹的数据库中检索近似的指纹来完成的。为了更有效地在数据库中存储指纹和加快检索,已知信号(K(t))的散列字(H(n))在存储到数据库(14)之前通过因子M子采样。该已知信号(K(t))的散列字(H(n))被分成M个交叉的子系列(HO(n)…HM-1(n))。该交叉的子系列(17)在计算机(15)的控制下有选择地被应用于数据库(14)。只要子系列中存在一个充分地匹配一个存储的指纹,就识别了所述信号。(*该技术在2023年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及用于将识别音频-图象媒体信号的指纹存储到数据库的方法和装置。本专利技术还涉及用于识别未知音频-图象媒体信号的方法和装置。
技术介绍
指纹(在文献中也被称之为签名或散列)是信息信号的数字提要。在密码学中,散列在很长时间内被用作验证大型文件的正确接收。最近,为识别多媒体内容而引入散列的概念。识别诸如音频或视频剪辑的未知内容,这是通过将从所述剪辑提取的指纹和存储在数据库中的指纹集合比较来完成的。与密码学的极其脆弱(在一个大型文件中翻转一个比特将导致完全不同的散列)的散列相比,从音频-图象内容中提取的指纹是稳固的。对于大的范围,诸如压缩或解压缩、A/D或D/A转换的处理是恒定的。一个现有的取指纹系统在Content-Based MultimediaIndexing(CBMI)conference in Brescia(Italy),2001由Haitsma etal.发表的Robust Hashing for Content Identification中公开。如这篇论文描述的,指纹从内容的基于感知的基本特性,即是从音频频谱频带中的能量分布中提取。对于视频信号,已经提出将视频图象中的亮度等级分布作为构建稳固指纹的基础。通过将信号分成一系列(可能重叠的)帧,并提取每个帧中表示信号的基于感知的基本特性的散列字以获得散列字的各个系列来创建指纹。为了识别未知剪辑,数据库接收有关的散列字系列,并检索最近似的所存储的散列字系列。通过确定系列的多少个比特与数据库中的散列字系列匹配来测量相似性。如果BER(比特错误率,不匹配比特的百分比)在特定的阈值之下,该剪辑被识别为源于数据库中最类似的散列字系列的歌曲或电影。现有的取指纹方法的一个问题是数据库的大小。在Haitsma et al.的论文中,音频信号被分成带有31/32重叠的0.4秒的帧。这样每11.6ms(=0.4/32)产生一个新帧。对于每个帧,提取32比特的散列字。由此,5分钟的歌曲需要大概100k字节,即5(分钟)×60(秒)×4(字节每散列字)/0.0116(秒每散列字)。更不必说数据库需要巨大的容量以允许识别歌曲的大量清单。类似的考虑适用于视频取指纹系统。专利技术目的和概要本专利技术的一个目的是提供用于在数据库中存储指纹的方法和系统,以缓解上述的问题。本专利技术的另一个目的是提供用于在数据库中识别未知音频-图象信号的方法和系统。为此,本专利技术提供在独立权利要求1中定义的用于在数据库中存储指纹的方法。该方法与现有技术的不同之处在于,只有散列字的子采样序列被存储在数据库中。用在该权利要求中的单词“序列”被称之为完整长度的信号(歌曲或电影)。通过因子M达到存储量的缩小。在该数据库中识别未知音频-图象的方法在独立权利要求4中定义。因为存在M个可能的子采样散列字序列存储在数据库中的不确定性,散列字的完整(即非子采样)系列根据该方法从未知剪辑中提取。在这里使用单词“系列”以引用可能的未知信号的短的剪辑或片段。散列字重叠的子系列被连续地应用于数据库,以便与保存在数据库中的子采样序列相匹配。如果所应用的子系列的其中至少一个具有在特定阈值以下的BER,信号就被识别了。利用本专利技术达到了在维持已知技术识别方法的稳固性和可靠性的同时,减少(通过M因子)了对存储容量的要求。在从属权利要求中定义方法的更多优点的实施例。附图简述附图说明图1根据本专利技术显示用于在数据库中存储和识别音频-图象信号的指纹的装置的示例图。图2是说明如图1中所示的装置的第一操作模式。图3是说明如图1中所示的装置的第二操作模式。图4是由图1中所示的计算机执行的操作步骤的流程图。实施例的描述将为音频信号描述本专利技术。图1根据本专利技术显示装置的示意图。该装置用作在数据库中存储未知音频信号的指纹(第一操作模式),以及用于识别未知音频信号(第二操作模式)。将首先描述装置的第一操作模式(存储)。在该模式中,装置接收完整长度的音乐歌曲K(t)。该信号在组帧电路11中被分成时间间隔或大概具有0.4秒长度的帧F(n),并由Hanning窗口用31/32的重叠加权。该重叠用作引入连续帧之间大的相关性。对于音频信号,这成为必要条件,因为应用于待识别的未知信号的组帧可能是不同的。组帧电路11每11.6ms(=0.4/32)生成一个新的帧。散列提取电路112为每个帧生成32比特的散列字H(n)。该散列提取电路的一个实际实施例在专利技术背景一章中的Haitsma et al.的论文中描述。简单概括,电路将每个音频信号帧的频谱分成若干频带并为每个频带产生一个指明在所述频带中的能量是高于还是低于给定阈值的散列位。图2显示了如此获得的散列字21的序列。根据本专利技术,散列字的序列由子采样器13用因子M子采样,以生成一个子序列H’(n)。散列字的子序列和诸如歌名、艺人名字等的识别数据一起组成已知音乐歌曲的指纹。在图2中显示了这样的指纹,其中数字22表示散列字的子序列,数字23表示识别歌曲的名称、艺人等。在计算机15的控制下该指纹存储在数据库14中。在这个例子中,子采样因子M=4被当作例子,5分钟的歌曲需要大概6,000×32比特的存储容量。与没有采用子采样的现有技术相比这可节约75%。在实际中,可为巨大数量的已知音乐歌曲执行上述的存储操作。可以理解,散列字提取(12)和子采样(13)的操作顺序可以颠倒。现在将描述装置的第二操作模式(识别)。在这种模式中,装置接收一部分(比如,3秒)的未知歌曲,即音频剪辑U(t)。该剪辑通过类似(或相同)的上述的组帧电路11和散列提取电路12处理。散列提取抽取电路13抽取剪辑的完整的散列块(未子采样)。对于3秒的剪辑,该操作生成一系列大概256个散列字H(n)。这个表示未知音频剪辑的散列字系列也被称之为散列块。在另一个实施例中,散列块从远程工作站抽取并只被所述装置接收。散列块被应用于交错电路16,将其分成M个交错的子系列或子块H0(n),H1(n),…HM-1(n),其中M是与上述子采样器13中使用的相同的整数。图3说明对于M=4的交错过程。在该图中,数字31表示散列块连续的散列字,数字32表示字块H0(n),数字33表示H1(n),数字34表示HM-1(n)。子块被应用于选择电路17的各个输入。在计算机15的控制下,子块H0(n),H1(n),…HM-1(n)连续地应用于数据库14以用作识别。如果在数据库中找到散列字系列,对于该散列字系列,比特错误率(即,在所述系列和所使用的子块之间不匹配的百分比)在特定的阈值之下,那么包括所述散列字系列的指纹识别出未知音频剪辑。图4是由计算机执行的该识别操作的流程图。在步骤41中,索引m获得初始值0。该索引m被应用于选择电路17,使得选择散列字的第一交错子块H0(n)用于识别。在步骤42中,所选择的子块Hm(n)被应用于数据库。在步骤43中,检测是否在数据库中找到近似的散列字系列。单词“近似”被理解为引用具有最低BER的散列字系列,条件是,所述BER小于给定的阈值T。在数据库中检索最近似散列字系列的策略的一个实际例子在前面提到的Haitsma et al.的论文中公开。检索策略的优选实施例还在申请人所附的未公开的欧洲专利申请01200505.4(PHNL010110)和01202720本文档来自技高网...
【技术保护点】
用于为每个音频-图象信号在数据库中存储识别音频-图象媒体信号的指纹的方法,包括步骤: -将所述音频-图象媒体信号分成一序列的帧;-用因子M子采样所述帧序列以获得子采样的帧序列;-为所述子采样的帧序列的每一个帧提取表示 所述帧内基于感知的基本特性的散列字,以获得散列字的各个子采样的序列;-将散列字的所述子采样的序列作为指纹存储在所述数据库中。
【技术特征摘要】
EP 2002-2-5 02075498.21.用于为每个音频—图象信号在数据库中存储识别音频—图象媒体信号的指纹的方法,包括步骤—将所述音频—图象媒体信号分成一序列的帧;—用因子M子采样所述帧序列以获得子采样的帧序列;—为所述子采样的帧序列的每一个帧提取表示所述帧内基于感知的基本特性的散列字,以获得散列字的各个子采样的序列;—将散列字的所述子采样的序列作为指纹存储在所述数据库中。2.如权利要求1所述方法,其中所述连续的帧是重叠的。3.用于在数据库中存储识别音频—图象媒体信号(K(t))的指纹的装置,该装置包括—组帧装置(11),用于将所述音频—图象媒体信号分成一序列的帧;—子采样装置(13),通过用因子M子采样所述帧序列来获得子采样的帧序列;—装置(12),用于为所述子采样的帧序列的每一个帧提取表示所述帧内基于感知的基本特性的散列字,以获得散列字的各个子采样的序列;—数据库(14),用于将散列字的所述子采样的序列作为指纹存储在所述数据库中。4.识别未知音频—图象媒体信号的方法,该方法包括步骤—将至少一部分未知音频—图象媒体信号分成一系列帧;—为每个帧提取表示所述帧内基于感知的基本特性的散列字,以获得各个散列字系列;—将所述散列字系列分成M个交错的散列字子系列;—将所述M个子系列连续地应用于其中已经为多个多媒体信号存储了散列字的子采样的序列的数据库;—将未知信号识别为多媒体信号,该...
【专利技术属性】
技术研发人员:JA海特斯马,AACM卡克,SM希梅尔,
申请(专利权)人:皇家飞利浦电子股份有限公司,
类型:发明
国别省市:NL[荷兰]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。