多媒体指纹哈希矢量构建方法及其装置制造方法及图纸

技术编号:10813867 阅读:75 留言:0更新日期:2014-12-24 18:30
本发明专利技术涉及多媒体指纹哈希矢量构建方法,包括:步骤1,对当前帧多媒体信号进行时频变换,以获取当前帧多媒体信号的频谱信息;步骤2,在频谱信息中,搜索局部峰值,获取可构成多媒体指纹的待选峰值点集合;步骤3,在待选峰值点集合中选择哈希矢量起点,选取待选哈希矢量终点集合;步骤4,根据当前帧多媒体信号中提取指纹个数的限制,为哈希矢量起点选取哈希矢量终点;步骤5,根据所述哈希矢量终点,为哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量;步骤6,重复步骤3至5,直至完成当前帧中全部哈希矢量起点的多媒体指纹提取。通过上述处理过程,可以有效提高在实际应用场景下多媒体信号指纹正确匹配的成功率。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及多媒体指纹哈希矢量构建方法,包括:步骤1,对当前帧多媒体信号进行时频变换,以获取当前帧多媒体信号的频谱信息;步骤2,在频谱信息中,搜索局部峰值,获取可构成多媒体指纹的待选峰值点集合;步骤3,在待选峰值点集合中选择哈希矢量起点,选取待选哈希矢量终点集合;步骤4,根据当前帧多媒体信号中提取指纹个数的限制,为哈希矢量起点选取哈希矢量终点;步骤5,根据所述哈希矢量终点,为哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量;步骤6,重复步骤3至5,直至完成当前帧中全部哈希矢量起点的多媒体指纹提取。通过上述处理过程,可以有效提高在实际应用场景下多媒体信号指纹正确匹配的成功率。【专利说明】多媒体指纹哈希矢量构建方法及其装置
本专利技术涉及多媒体数据处理领域,具体涉及一种多媒体指纹哈希矢量构建方法及 其装置。
技术介绍
近年来,计算技术、网络技术的迅猛发展,使人类积累了大量的多媒体数据,通过 多媒体数据指纹对多媒体数据进行匹配检索的应用越来越广泛。以音频数据为例,音频数 据是多媒体数据的重要类型,它广泛存在于互联网和个人计算机中。 音频指纹技术是一种音频信息检索技术,过对原始音频信号进行时频变换后在频 域提取特征信息即音频指纹,将特征信息保留下来构建特征库。当需要进行音频检索时,对 待检索音频用同样的方法提取音频指纹,然后到特征库进行匹配,当匹配成功时就能得到 待检索音频的具体信息。 如图1所示,音频指纹用一个哈希矢量来表征,在频谱图中找一特定峰值点作为 矢量起点,在矢量起点的搜索范围内,例如图中矩形标定的范围,搜索到符合条件的峰值点 作为矢量终点,,其中,Fl是矢量起点的频率值,AF是矢量终点和矢量起点之间的频率差, AT是矢量终点和矢量起点的时间差,Indexing= ,如果用8bit信息表示矢量 起点可能的频率值,6bit信息表示搜索范围的时间可能值,6bit信息表示搜索范围的频率 可能值,那么就可以用20bit信息表示一个音频指纹。 在实际应用场景中,受到服务器容量大小,搜索时间长短等条件制约,音频指纹数 据库大小有一定限制,能存储的音频指纹的数量也受限制,因此在提取音频指纹的时候,需 要对搜索范围内符合条件的峰值点进行取舍,构建合适的哈希矢量形成音频指纹。现有技 术是按照待选终点与起点之间的时间距离远近进行排序选择,如图2所示的场景中,在数 据库中对于起点P最多只能构建三个哈希矢量,按照时间距离由近至远,建立的矢量为 。 但是,当音频信号受到干扰出现失真时,很多在原始信号频谱中出现的峰值点会 被噪声谱淹没或者消失。如图3中信号经过干扰失真后,原始信号中的p3,p4峰值点由于能 量较小,会被噪声谱淹没,在需要进行音频指纹检索时,构建的哈希矢量为, 在数据库匹配时只能找到1个匹配指纹。因此在实际应用场景下,如果按照时间距 离远近构建哈希矢量会导致提取出的音频指纹匹配成功率急剧降低。
技术实现思路
本专利技术的目的是提供一种多媒体指纹哈希矢量构建方法,以解决现有技术中对多 媒体信号进行指纹提取和检索时,由于受到噪声干扰,造成指纹匹配度降低的问题。 第一方面,本专利技术实施例提供了一种多媒体指纹哈希矢量构建方法,所述方法包 括: 步骤1,对当前帧多媒体信号进行时频变换,以获取所述的当前帧多媒体信号的频 谱信息; 步骤2,在获取的所述当前帧多媒体信号的频谱信息中,搜索局部峰值,以获取所 述频谱信息中可构成多媒体指纹的待选峰值点集合; 步骤3,在所述待选峰值点集合中选择哈希矢量起点,并根据所选择的所述哈希矢 量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合; 步骤4,根据当前帧多媒体信号中提取指纹个数的限制,为所述哈希矢量起点在所 述待选哈希矢量终点集合中选取哈希矢量终点; 步骤5,根据所述的哈希矢量终点,为所述哈希矢量起点建立该哈希矢量起点对应 的多媒体指纹哈希矢量; 步骤6,重复步骤3至5,直至完成当前帧中的待选峰值点集合中全部哈希矢量起 点的多媒体指纹提取。 基于第一方面,在第一种可能的实施方式中,所述当前巾贞多媒体信号中提取指纹 个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。 基于第一方面的在第一种可能的实施方式中,在第二种可能的实施方式中,在步 骤3之后,还包括: 对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序,以获取 能量加权后的待选矢量终点集合; 根据所述的每一个哈希矢量起点能够提取的多媒体指纹个数的阈值,为所述哈希 矢量起点在所述能量加权后的待选矢量终点集合中,按照能量大小顺序选取哈希矢量终 点。 基于第一方面的在第一种可能的实施方式中,在第三种可能的实施方式中,所述 步骤3之后,还包括: 对所述待选哈希矢量终点集合中的待选矢量终点按照能量大小进行排序,以获取 能量加权后的待选矢量终点集合; 根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频 点能量之和中的占比,获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值; 根据当前哈希矢量起点能够提取的多媒体指纹个数的阈值,为所述当前哈希矢量 起点在所述能量加权后的待选矢量终点集合中,按照能量大小顺序选取哈希矢量终点。 基于第一方面的第一种可能的实施方式,在第四种可能的实施方式中,所述根据 当前帧多媒体信号中提取指纹个数的限制,为所述哈希矢量起点在所述待选哈希矢量终点 集合中选取哈希矢量终点具体包括: 根据当前哈希矢量起点的频点能量在全部待选峰值点集合中全部待选峰值点频 点能量之和中的占比,获取当前哈希矢量起点的能够提取的多媒体指纹个数的阈值; 根据当前哈希矢量起点能够提取的多媒体指纹个数的阈值,为所述当前哈希矢量 起点在所述待选哈希矢量终点集合中,按照时间顺序选取哈希矢量终点。 第二方面,本专利技术实施例提供了一种多媒体指纹哈希矢量构建装置,所述装置包 括: 时频变换单元,用于对当前帧多媒体信号进行时频变换,以获取所述的当前帧多 媒体信号的频谱信息; 搜索单元,用以在获取的所述当前帧多媒体信号的频谱信息中,搜索局部峰值,以 获取所述频谱信息中可构成多媒体指纹的待选峰值点集合; 选取单元,用于在所述待选峰值点集合中选择哈希矢量起点,并根据所选择的所 述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集 合; 确定单元,用于根据当前帧多媒体信号中提取指纹个数的限制,为所述哈希矢量 起点在所述待选哈希矢量终点集合中选取哈希矢量终点; 处理单元,用于根据所述的哈希矢量终点,为所述哈希矢量起点建立该哈希矢量 起点对应的多媒体指纹哈希矢量; 控制单元,用于控制所述选取单元、确定单元和所述处理单元,直至完成当前帧的 待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。 基于第二方面,在第一种可能的实施方式中,所述当前帧多媒体信号中提取指纹 个数的限制为每一个哈希矢量起点能够提取的多媒体指纹个数。 基于第二方面的在第一种可能的实施方式中,在第二种可能的实施方式中,所述 装置还包括: 加权单元,用于对所述本文档来自技高网
...

【技术保护点】
一种多媒体指纹哈希矢量构建方法,其特征在于,所述方法包括:步骤1,对当前帧多媒体信号进行时频变换,以获取所述的当前帧多媒体信号的频谱信息;步骤2,在获取的所述当前帧多媒体信号的频谱信息中,搜索局部峰值,以获取所述频谱信息中可构成多媒体指纹的待选峰值点集合;步骤3,在所述待选峰值点集合中选择哈希矢量起点,并根据所选择的所述哈希矢量起点的时间和频率信息在所述待选峰值点集合中选取待选哈希矢量终点集合;步骤4,根据当前帧多媒体信号中提取指纹个数的限制,为所述哈希矢量起点在所述待选哈希矢量终点集合中选取哈希矢量终点;步骤5,根据所述的哈希矢量终点,为所述哈希矢量起点建立该哈希矢量起点对应的多媒体指纹哈希矢量;步骤6,重复步骤3至5,直至完成当前帧的待选峰值点集合中全部哈希矢量起点的多媒体指纹提取。

【技术特征摘要】

【专利技术属性】
技术研发人员:张德明张琦
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1