文件指纹处理方法及装置制造方法及图纸

技术编号:10445037 阅读:92 留言:0更新日期:2014-09-17 20:33
本发明专利技术实施例提供一种文件指纹处理方法及装置。本发明专利技术文件指纹处理方法,包括:确定文件指纹对应的哈希地址,所述哈希地址指向一个预先分配的存储空间,所述哈希地址指向的存储空间的可用空间长度根据文件指纹分布特性得到;确定所述哈希地址指向的存储空间的首地址;根据所述存储空间的首地址和所述存储空间内已添加信息的长度,在所述存储空间中加入所述文件指纹对应的文件信息,并更新所述存储空间内已添加信息的长度。本发明专利技术实施例保证了音频信息数据的完整性。同时提高了存储空间的利用率和对音频信息进行检索时的匹配成功率。

【技术实现步骤摘要】

本专利技术实施例涉及计算机技术,尤其涉及一种文件指纹处理方法及装置
技术介绍
音频指纹技术是当前流行的一种音频信息检索技术。该技术通过对原始音频信号进行时频变换后在频域提取特征信息即音频指纹,将特征信息保留下来构建特征库。当需要进行音频检索时,对待检索音频用同样的方法提取音频指纹,然后到特征库进行匹配,当匹配成功时就能得到待检索音频的属性信息,如音频名称、歌手名、发行年代等。通常,音频指纹用一个哈希矢量来表征,因此可以构建一个地址长度与哈希矢量的位数对应的哈希表作为特征库。具体地,在音频信号中提取出音频指纹后,在音频指纹对应的哈希地址中加入音频信号对应的信息,包括属性信息、提取的指纹对应在音频信号中的时间片段等。当不同的音频信号提取出相同的音频指纹时,就出现了哈希地址冲突现象。特别是基于海量音频信号建立一个比较完备的数据库时,将会出现大量的地址冲突。如果由于地址冲突导致不能在相应的哈希地址中存储后面处理的音频信号的信息,或者将前面存入的音频信号的信息覆盖掉,都会导致使用数据库进行音频检索时匹配成功率下降。现有音频检索系统在建立哈希表时根据系统限制确定均匀的哈希表深度,在处理地址冲突时,主要的解决方法是增加哈希表的深度,即在同一个哈希地址下开辟更大的空间存放每一个冲突的音频信号对应的信息,但这会造成哈希表的极大冗余,导致音频检索效率低下和存储空间的浪费。
技术实现思路
本专利技术实施例提供一种文件指纹处理方法及装置,用以解决现有技术中在处理海量音频信号建立数据库时出现大量哈希地址冲突造成音频信号不能正常存储,导致音频信号的指纹丢失的问题。第一方面,本专利技术实施例提供一种文件指纹处理方法,包括:确定文件指纹对应的哈希地址,所述哈希地址指向一个预先分配的存储空间,所述哈希地址指向的存储空间的可用空间长度根据文件指纹分布特性得到;确定所述哈希地址指向的存储空间的首地址;根据所述存储空间的首地址和所述存储空间内已添加信息的长度,在所述存储空间中加入所述文件指纹对应的文件信息,并更新所述存储空间内已添加信息的长度。在第一方面的第一种可能的实现方式中,还包括:在所有文件指纹处理完成之后,根据各哈希地址指向的存储空间内已添加信息的长度,释放各存储空间内未使用的空间。根据第一方面、第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述确定文件指纹对应的哈希地址之前,还包括:根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间的可用空间长度;根据各哈希地址指向的存储空间的可用空间长度,为各哈希地址分配对应的存储空间。根据第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间的可用空间长度,包括:根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间占所有哈希地址指向的总存储空间的比例;根据以下公式确定各哈希地址指向的存储空间的可用空间长度:Li=|K*θi|,Li为哈希地址i指向的存储空间的可用空间长度,K为所有哈希地址指向的总存储空间的长度,θi为哈希地址i指向的存储空间占所有哈希地址指向的总存储空间的比例,其中,N为文件指纹的比特数。根据第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据各哈希地址指向的存储空间的可用空间长度,为各哈希地址分配对应的存储空间,包括:创建特征库,所述特征库包括第一空间、第二空间和第三空间;将各哈希地址指向的存储空间的可用空间长度保存在所述第一空间;根据各哈希地址指向的存储空间的可用空间长度,将所述第三空间划分为各哈希地址指向的存储空间,确定各哈希地址指向的存储空间的首地址,并将各哈希地址指向的存储空间的首地址保存在所述第二空间。根据第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述释放各存储空间内未使用的空间之后,还包括:将所述第一空间中保存的所述存储空间的可用空间长度更新为所述存储空间内已添加信息的长度。根据第一方面、第一方面的第一种至第五种可能的实现方式中的任意一种,在第一方面的第六种可能的实现方式中,所述文件指纹为音频指纹,所述文件指纹对应的文件信息包括音频信号的属性信息或所述属性信息的索引,以及所述音频信号中所述音频指纹对应的时间片段;所述确定文件指纹对应的哈希地址之前,还包括:将所述音频信号分为至少一个时间片段;从每个时间片段中提取至少一个音频指纹。根据第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述音频指纹由矢量起点的频率值、矢量终点和矢量起点之间的频率差、矢量终点和矢量起点之间的时间差表征,所述矢量起点和矢量终点根据所述音频指纹对应的时间片段的频谱图确定;所述统计得到的文件指纹分布特性包括:矢量起点的频率值较小的音频指纹多于矢量起点的频率值较大的音频指纹,矢量终点和矢量起点之间的频率差、矢量终点和矢量起点之间的时间差均较小的音频指纹多于矢量终点和矢量起点之间的频率差、矢量终点和矢量起点之间的时间差均较大的音频指纹。第二方面,本专利技术实施例提供一种文件指纹处理装置,包括:哈希地址确定模块,用于确定文件指纹对应的哈希地址,所述哈希地址指向一个预先分配的存储空间,所述哈希地址指向的存储空间的可用空间长度根据文件指纹分布特性得到;首地址确定模块,用于确定所述哈希地址指向的存储空间的首地址;文件信息加入模块,用于根据所述存储空间的首地址和所述存储空间内已添加信息的长度,在所述存储空间中加入所述文件指纹对应的文件信息,并更新所述存储空间内已添加信息的长度。在第二方面的第一种可能的实现方式中,还包括:空间释放模块,用于在所有文件指纹处理完成之后,根据各哈希地址指向的存储空间内已添加信息的长度,释放各存储空间内未使用的空间。根据第二方面、第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,还包括:长度确定模块,用于根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间的可用空间长度;存储空间分配模块,用于根据各哈希地址指向的存储空间的可用空间长度,为各哈希地址分配对应的存储空间。根据第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,长度确定模块包括:比例本文档来自技高网...
文件指纹处理方法及装置

【技术保护点】
一种文件指纹处理方法,其特征在于,包括:确定文件指纹对应的哈希地址,所述哈希地址指向一个预先分配的存储空间,所述哈希地址指向的存储空间的可用空间长度根据文件指纹分布特性得到;确定所述哈希地址指向的存储空间的首地址;根据所述存储空间的首地址和所述存储空间内已添加信息的长度,在所述存储空间中加入所述文件指纹对应的文件信息,并更新所述存储空间内已添加信息的长度。

【技术特征摘要】
1.一种文件指纹处理方法,其特征在于,包括:
确定文件指纹对应的哈希地址,所述哈希地址指向一个预先分配的存储
空间,所述哈希地址指向的存储空间的可用空间长度根据文件指纹分布特性
得到;
确定所述哈希地址指向的存储空间的首地址;
根据所述存储空间的首地址和所述存储空间内已添加信息的长度,在所
述存储空间中加入所述文件指纹对应的文件信息,并更新所述存储空间内已
添加信息的长度。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所有文件指纹处理完成之后,根据各哈希地址指向的存储空间内已添
加信息的长度,释放各存储空间内未使用的空间。
3.根据权利要求1或2所述的方法,其特征在于,所述确定文件指纹对
应的哈希地址之前,还包括:
根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间的
可用空间长度;
根据各哈希地址指向的存储空间的可用空间长度,为各哈希地址分配对
应的存储空间。
4.根据权利要求3所述的方法,其特征在于,所述根据统计得到的文件
指纹分布特性,确定各哈希地址指向的存储空间的可用空间长度,包括:
根据统计得到的文件指纹分布特性,确定各哈希地址指向的存储空间占
所有哈希地址指向的总存储空间的比例;
根据以下公式确定各哈希地址指向的存储空间的可用空间长度:
Li=|K*θi|,Li为哈希地址i指向的存储空间的可用空间长度,K为所有哈
希地址指向的总存储空间的长度,θi为哈希地址i指向的存储空间占所有哈希
地址指向的总存储空间的比例,其中,N为文件指纹的比特数。
5.根据权利要求3或4所述的方法,其特征在于,所述根据各哈希地址
指向的存储空间的可用空间长度,为各哈希地址分配对应的存储空间,包括:
创建特征库,所述特征库包括第一空间、第二空间和第三空间;
将各哈希地址指向的存储空间的可用空间长度保存在所述第一空间;
根据各哈希地址指向的存储空间的可用空间长度,将所述第三空间划分
为各哈希地址指向的存储空间,确定各哈希地址指向的存储空间的首地址,
并将各哈希地址指向的存储空间的首地址保存在所述第二空间。
6.根据权利要求5所述的方法,其特征在于,所述释放各存储空间内未
使用的空间之后,还包括:
将所述第一空间中保存的所述存储空间的可用空间长度更新为所述存储
空间内已添加信息的长度。
7.根据权利要求1~6中任一项所述的方法,其特征在于,所述文件指纹
为音频指纹,所述文件指纹对应的文件信息包括音频信号的属性信息或所述
属性信息的索引,以及所述音频信号中所述音频指纹对应的时间片段;所述
确定文件指纹对应的哈希地址之前,还包括:
将所述音频信号分为至少一个时间片段;
从每个时间片段中提取至少一个音频指纹。
8.根据权利要求7所述的方法,其特征在于,所述音频指纹由矢量
起点的频率值、矢量终点和矢量起点之间的频率差、矢量终点和矢量起点
之间的时间差表征,所述矢量起点和矢量终点根据所述音频指纹对应的时
间片段的频谱图确定;所述统计得到的文件指纹分布特性包括:
矢量起点的频率值较小的音频指纹多于矢量起点的频率值较大的音
频指纹,矢量终点和矢量起点之间的频率差、矢量终点和矢量起点之间的
时间差均较小的音频指纹多于矢量终点和矢量起点之间的频率差、矢量终
点和矢量起点之间的时间差均较大的音频指纹。
9.一种文件指纹处理装置,其特征在于,包括:
哈希地址确定模块,用于确定...

【专利技术属性】
技术研发人员:张德明张琦
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1