一种基于微型计算平台的实时响应大媒体近邻检索方法技术

技术编号:18398866 阅读:18 留言:0更新日期:2018-07-08 19:31
本发明专利技术公开了一种基于微型计算平台的实时响应大媒体近邻检索方法,涉及检索技术领域,技术方案为提出了一种新型的快速生成多媒体二值特征的方法和一种高区分性的后验证距离表,首先,本文根据数据集的聚类特性生成初始中心点,使得算法能够快速收敛到最优解。然后,学习满足序列保持的哈希映射函数,保证所得二值编码能保持数据点之间的原序列关系。最后,根据数据点的二值编码建立高区分性的距离表。本发明专利技术的有益效果是:解决了在微型计算平台上实时响应大媒体数据近邻检索请求的问题,其对存储资源以及计算能力的要求较低,并构建了适应于微型计算平台的近邻检索体系。

【技术实现步骤摘要】
一种基于微型计算平台的实时响应大媒体近邻检索方法
本专利技术涉及检索
,特别涉及一种基于微型计算平台的实时响应大媒体近邻检索方法。
技术介绍
近年来,多媒体技术的快速发展使得网络中的共享多媒体数据呈指数形式增长,人们开始关注海量多媒体数据的近邻检索问题。传统多媒体数据的特征一般为高维浮点型向量,例如SIFT(尺度不变特征变换)特征是128维的浮点型向量,而GIST特征[2]为320维或640维的浮点型向量。若通过计算并比较浮点型特征向量之间的欧式距离来检索多媒体近邻点,其计算复杂度较高,对计算平台的性能要求较苛刻。再者,将所有浮点型数据一次性全部调入计算平台的内存中,需要占用大量的存储资源。上述两点使得微型计算平台无法实时响应海量多媒体的近邻检索请求。为此,人们提出将高维浮点型向量转化为紧凑二进制编码,并根据汉明距离关系检索多媒体近邻点。最早提出利用二值编码检索近邻点的是局部敏感哈希算法,其采用随机的方式生成满足局部敏感特性的线性哈希映射函数。但是,算法的训练过程不依赖于训练数据集,若要得到令人满意的近邻检索结果,其所生成的二进制编码应足够长。为了保证采用紧凑二值编码也能获取较优的近邻检索性能,人们开始探索利用机器学习方法,依据训练数据集,生成满足特定约束条件的二进制编码。谱哈希算法[4]根据数据点之间的相似性构造谱图,并通过分割相似性谱图学习数据点的二值编码。迭代量化哈希算法[5]将超立方体的顶点作为编码中心点,并根据数据点与超立方体顶点之间的距离关系生成数据点的二值编码,但超立方体的顶点是固定不变的,所生成的二值编码的空间分布自适应能力较差。K均值哈希算法[6]提出编码中心点应满足聚类分布特性,从而保证所生成的二值编码符合数据集的空间分布特性。为了能够在汉明空间内得到较优的近邻检索性能,许多哈希算法建立了相似性保持约束条件。二值重建哈希算法[7]要求最小化数据点对的汉明距离和欧式距离之间的差值,核监督哈希算法[8]要求数据点在汉明空间和欧式空间内的相似性具有较高的一致性。上述哈希算法中的定义属于绝对相似性保持约束条件,但近似近邻检索任务更加关注数据点之间的相对相似性。三元损失哈希算法[9]要求三元组之间的相对关系在汉明空间和原空间内是一致的,序列监督哈希算法也基于三元组张量之间的相对关系定义目标函数,顶部排序监督二值编码算法重点关注近邻检索结果中排序较靠前的数据点之间的相对相似性。多数哈希算法采用随机梯度下降算法优化原目标函数,但受二值编码长度以及随机梯度下降算法本身的局限性,单组二值编码已无法准确表达数据点之间的近邻关系。为此,人们探索生成多重二值编码,从而能够较好地解决局部优解的问题。Charikar等人提出多重局部敏感哈希算法(MLSH),其采用随机的方式,生成数据点的多重二值编码,并根据平均汉明距离返回近邻点。K均值局部敏感哈希算法(KLSH)[13]采用随机的方式生成多组初始中心点,并利用随机梯度下降算法优化目标函数学习多组二进制编码。与KLSH算法单独生成每组二值编码的机制不同,联合倒排索引算法(JII)一次性生成数据点的多个二值编码中心点,然后依据它们之间的相似性关系对其分组,从而形成多组二值编码。
技术实现思路
为了实现上述专利技术目的,本专利技术提出了一种基于微型计算平台的实时响应大媒体近邻检索方法。一种基于微型计算平台的实时响应大媒体近邻检索方法,包括如下步骤:a:学习待查询数据集的全局高维浮点特征向量集合F={F1,F2,…,Fn},其中共包含n个特征向量。b:为了保证汉明空间内的近邻检索结果与原空间内的近邻检索结果之间具有较高的一致性,本专利技术定义了序列保持约束条件和聚类分布约束条件。①:序列保持约束条件。在欧式空间内,根据Fm(1≤m≤n,Fm表示F中的第m个高维浮点向量)与F中其余特征向量之间的欧式距离,对F中的浮点向量进行排序,得到结果为:将F中的浮点向量映射为二进制编码后,根据它们之间的汉明距离关系,可得到另一种排序结果:本专利技术中的序列保持约束条件要求数据点的两种不同序列号是一致的,即在不同序列中的同一位置上具有相同的元素,其定义如下所示:表示在欧式空间内序列号为m的特征向量,Ph(·)返回该特征向量在汉明空间内的位置序号,I(·)是判断函数,若特征向量在汉明空间和欧式空间内的排列序号不一致,则目标函数的值将增加。本专利技术通过最小化上述目标函数,使得特征向量的不同序列号之间具有较高的一致性,从而在汉明空间内得到准确率较高的近邻检索结果。②:聚类分布约束条件。若将浮点向量映射成长度为bit的二进制编码,则共存在2bit种二进制编码。对于海量数据库而言,数据点的数量远远大于2bit,会有多个数据点被映射为相同编码。本专利技术要求拥有相同二进制编码的数据点应符合聚类分布特性,其约束条件的定义如下式所示:C(Fm)表示与Fm具有相同二值编码的中心点。c:寻找满足序列保持和聚类分布约事条件的二值编码中心点时,可采用随机梯度下降算法优化R+A。此时,为了保证算法能够快速收敛到所有极小值点,可预先粗略判断目标函数中的极小值点,并在其附近选取初始中心点。由于A的定义与聚类算法的约束条件类似,因此可利用聚类中心点估算目标函数R+A的极小值点。①:均匀采样数据点所分布的区域,然后统计落在每一个采样区域内的高维浮点特征的数量,并将其作为区域的密度值。②:聚类中心点周围一般会聚集大量的数据点,其密度值较大。若某区域的密度值低于平均密度值,则该区域包含聚类中心点的概率值较小,本专利技术将舍弃该区域。③:若两个区域之间的距离较小,则从这两个区域中选择的初始点会使得算法收敛到相同的极值点。因此,本专利技术将合并距离相对较近的高密度区域。④:经过②和③处理之后,将区域中所有数据点的均值作为候选初始中心点集合E'={P1,P2,…,Pt},其中共包含t个候选初始中心点。⑤:若t>2bit(bit表示二值编码的长度,2bit表示编码中心点的数量),则转步骤d。否则,所要寻找的中心点的数量不少于目标函数中可能存在的极小值点的数量,将只需从数据集中再随机选择2bit-t个数据点与E'中的点共同构成初始中心点集合E,并转步骤e寻找最优编码中心点。d:构建多组初始中心点集合。t>2bit,表明所要寻找的中心点的数量少于目标函数中极小值点的数量。若仅根据一组中心点集合,将无法找到目标函数中的所有极小值点。对于这种情况,本专利技术将构建多组初始中心点集合。①:i表示数据点的序列号,j表示初始中心点集合的序列号,二者的初始值均为1。②:初始化空集Ej和E”。③:将E'复制给E”。④:将E”中的第i个数据点放入Ej中,并从E”中删除第i个数据点。⑤:将E”中与Ej中数据点之间的最小距离值δk最大的点加入Ej中,并将其从E”中删除。δk的定义如下式所示:δk返回E”中与Ej中的所有数据点之间的最小距离值,dku表示E”中第k个数据点与Ej中第u个数据点之间的距离值。⑥:不断重复执行步骤⑤,直至Ej中含有2bit个数据点,并将Ej作为一组初始中心点集合。⑦:将i和j的值均加1。⑧:重复执行步骤②③④⑤⑥⑦,直至i和j的值为t,此时将得到t组初始中心点集合。⑨:比较上述得到的t组初始中心点集合,合并相同的集合后本文档来自技高网
...

【技术保护点】
1.一种基于微型计算平台的实时响应大媒体近邻检索方法,其特征在于,包括如下步骤:a:学习待查询数据集的全局高维浮点特征向量集合F={F1,F2,…,Fn},其中包含n个特征向量;b:为了保证汉明空间内的近邻检索结果与原空间内的近邻检索结果之间具有较高的一致性,分别定义了序列保持约束条件R和聚类分布约束条件A;c:采用随机梯度下降算法寻找满足序列保持约束条件和空间分布关系约束条件的二值编码中心点时,为了使得算法能够快速收敛到所有极小值点,需预先粗略判断目标函数中的极小值点,并在其附近初始化算法的输入;由于A的定义与聚类算法的约束条件类似,因此可根据聚类中心点来估算目标函数R+A的极小值点;c01:均匀采样数据点的分布区域,然后统计落在每一个采样区域内的高维浮点特征的数量,并将其作为区域的密度值;c02:中心点附近一般会聚集大量的数据点,密度值较大;若区域的密度值低于平均值,则该区域含有聚类中心点的概率较小,本专利技术将舍弃密度值较小的区域;c03:若两个区域之间的距离较小,则从这两个区域中选择的初始点会使得算法收敛到相同的极值点;因此,将合并距离相对较近的高密度区域;c04:经过所述c02和c03处理之后,将区域中所有数据点的均值作为候选初始中心点集合E'={P1,P2,…,Pt},其中含有t个候选初始中心点;c05:若t>2bit(bit表示二值编码的长度,2bit表示编码中心点的数量),则转步骤d;否则,所要寻找的中心点的数量不少于目标函数中可能存在的极小值点的数量,只需从数据集中再随机选择2bit‑t个数据点与E'中的点共同构成初始中心点集合E,并转步骤e寻找最优编码中心点;d:构建多组初始中心点集合;t>2bit,表明所要寻找的中心点的数量少于目标函数中极小值点的数量;若仅根据一组中心点集合,将无法找到目标函数中的所有极小值点;对于这种情况,进行多组初始中心点集合的构建;e:根据步骤c或d中的初始中心点集合,采用随机梯度下降算法,寻找同时满足序列保持约束条件和聚类分布约束条件的编码中心点集合;f:建立距离表,为保证高区分性,根据所述c04中的候选初始中心点集合E'建立距离表;f01:计算并比较候选初始中心点P1,P2,…,Pt与集合{C1,C2,...,Cl}中的中心点之间的距离值,赋予候选初始中心点与其距离最近的编码中心点相同的二值编码。候选初始中心点的二进制编码集合为{B1,B2,…,Bt},其中Bi={bi1,bi2,…,bil}表示Pi的多组二进制编码,1≤i≤t,bij(1≤j≤l)表示Pi根据编码中心点集合Cj生成的二进制编码;f02:计算距离表的每一个位置中的值。若距离表的位置索引为(b,b'),则将{B1,B2,…,Bt}中能构成二值编码对(b,b')的数据点之间的距离值存储在该位置中;g:在微型计算平台上生成查询多媒体数据的全局浮点特征Fq,并根据{C1,C2,...,Cl}生成Fq的多组二值编码bq1,bq2,…,bql;h:计算Fq的多组二值编码与待查询数据点的多组二值编码之间的平均汉明距离,并按照从小到大的顺序排列待查询数据库中的数据点;若仅有少量数据点共享同一较小的汉明距离值,则将这些数据点作为最终的近邻检索结果,并转步骤j;否则,返回平均汉明距离值较小的数据点作为备选查询结果,并转步骤i;i:根据后验证距离表,重新判断备选查询结果中的数据点与查询数据点之间的相似性,并对其重排序;j:返回查询结果中排名较靠前的二值编码特征所对应的多媒体数据,作为最终的多媒体近邻查询结果。...

【技术特征摘要】
1.一种基于微型计算平台的实时响应大媒体近邻检索方法,其特征在于,包括如下步骤:a:学习待查询数据集的全局高维浮点特征向量集合F={F1,F2,…,Fn},其中包含n个特征向量;b:为了保证汉明空间内的近邻检索结果与原空间内的近邻检索结果之间具有较高的一致性,分别定义了序列保持约束条件R和聚类分布约束条件A;c:采用随机梯度下降算法寻找满足序列保持约束条件和空间分布关系约束条件的二值编码中心点时,为了使得算法能够快速收敛到所有极小值点,需预先粗略判断目标函数中的极小值点,并在其附近初始化算法的输入;由于A的定义与聚类算法的约束条件类似,因此可根据聚类中心点来估算目标函数R+A的极小值点;c01:均匀采样数据点的分布区域,然后统计落在每一个采样区域内的高维浮点特征的数量,并将其作为区域的密度值;c02:中心点附近一般会聚集大量的数据点,密度值较大;若区域的密度值低于平均值,则该区域含有聚类中心点的概率较小,本发明将舍弃密度值较小的区域;c03:若两个区域之间的距离较小,则从这两个区域中选择的初始点会使得算法收敛到相同的极值点;因此,将合并距离相对较近的高密度区域;c04:经过所述c02和c03处理之后,将区域中所有数据点的均值作为候选初始中心点集合E'={P1,P2,…,Pt},其中含有t个候选初始中心点;c05:若t>2bit(bit表示二值编码的长度,2bit表示编码中心点的数量),则转步骤d;否则,所要寻找的中心点的数量不少于目标函数中可能存在的极小值点的数量,只需从数据集中再随机选择2bit-t个数据点与E'中的点共同构成初始中心点集合E,并转步骤e寻找最优编码中心点;d:构建多组初始中心点集合;t>2bit,表明所要寻找的中心点的数量少于目标函数中极小值点的数量;若仅根据一组中心点集合,将无法找到目标函数中的所有极小值点;对于这种情况,进行多组初始中心点集合的构建;e:根据步骤c或d中的初始中心点集合,采用随机梯度下降算法,寻找同时满足序列保持约束条件和聚类分布约束条件的编码中心点集合;f:建立距离表,为保证高区分性,根据所述c04中的候选初始中心点集合E'建立距离表;f01:计算并比较候选初始中心点P1,P2,…,Pt与集合{C1,C2,...,Cl}中的中心点之间的距离值,赋予候选初始中心点与其距离最近的编码中心点相同的二值编码。候选初始中心点的二进制编码集合为{B1,B2,…,Bt},其中Bi={bi1,bi2,…,bil}表示Pi的多组二进制编码,1≤i≤t,bij(1≤j≤l)表示Pi根据编码中心点集合Cj生成的二进制编码;f02:计算距离表的每一个位置中的值。若距离表的位置索引为(b,b'),则将{B1,B2,…,Bt}中能构成二值编码对(b,b')的数据点之间的距离值存储在该位置中;g:在微型计算平台上生成查询多媒体数据的全局浮点特征Fq,并根据{C1,C2,...,Cl}生成Fq的多组二值编码bq1,bq2,…,bql;h:计算Fq的多组二值编码与待查询数据点的多组二值编码之间的平均汉明距离,并按照从小到大的顺序排列待查询数据库中的数据点;若仅有少量数据点共享同一较小的汉明距离值,则将这些数据点作为最终的近邻检索结果,并转步骤j;否则,返回平均汉明距离值较小的数据点作为备选查询结果,并转步骤i;i:根据后验证距离表,重新判断备选查询结果中的数据点与查询数据点之间的相似性,并对其重排序;j:返回查询结果中排名较靠前的二值编码特征所对应的多媒体数据,作为最终的多媒体近邻查询结果。2.根据权利要求1所述的基于微型计算平台的实时响应大媒体近邻检索方法,其特征在于,所述步骤b中,所述序列保持约束条...

【专利技术属性】
技术研发人员:王振孙福振王雷李鑫鑫
申请(专利权)人:山东理工大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1