一种基于分组正交局部敏感哈希的数据融合方法技术

技术编号:19746322 阅读:32 留言:0更新日期:2018-12-12 04:55
一种基于分组正交局部敏感哈希的数据融合方法,首先将各个模态的数据特征向量串接形成初始融合特征向量,然后利用分组正交的局部哈希索引方法,将初始融合特征向量在满足分组正交的条件下映射到哈希索引空间,最后控制哈希投影向量的数量实现降维,完成数据融合。

【技术实现步骤摘要】
一种基于分组正交局部敏感哈希的数据融合方法
本专利技术涉及数据融合领域利用哈希方法来对不同模态的数据特征进行特征融合形成新的数据特征领域,特别是一种基于分组正交局部敏感哈希的数据融合方法。
技术介绍
在大数据时代,数据源是多样的、自然形成的、海量的,数据常常是半结构或无结构的。这就要求数据科学家和分析师能够驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合就成为不可或缺的一步。与此同时,随着计算机技术、通信技术和微电子技术的发展,各种面向复杂应用背景的多源信息系统大量出现,迫使人们要对多种传感器和不同信息源进行更有效的集成,以提高信息处理的自动化程度。因此,从20世纪70年代起,多传感器(或多源)数据融合便作为一门新兴学科迅速发展起来。多源数据融合是人类和其他生物系统中普遍存在的一种基本功能。人类本能地具有将身体上的各种功能器官(眼、耳、鼻、四肢)所探测的信息(景物、声音、气味和触觉)与先验知识进行综合的能力,以便对他周围的环境和正在发生的事件做出估计。由于人类的感官具有不同度量特征,因而可测出不同空间范围内发生的各种物理现象,并通过对不同特征的融合处理转化成对环境的有价值的解释。多源数据融合实际上是对人脑综合处理复杂问题的一种功能模拟。在多传感器(或多源)系统中,各信号源提供的信息可能具有不同的特征:时变的或者非时变的,实时的或者非实时的,快变的或者缓变的,模糊的或者确定的,精确的或者不完整的,可靠的或者非可靠的,相互支持的或者互补的,也可能是相互矛盾或者冲突的。多源数据融合的基本原理就像人脑综合处理信息的过程一样,它充分地利用多个数据资源,通过对各种信号源及其观测信息的合理支配与使用,将各种信号源在空间和时间上的互补与冗余信息依据某种优化准则组合起来,产生对观测环境的一致性解释和描述。数据融合的目标是基于各信号源分离观测的信息,通过对信息的优化组合导出更多的有效信息。这是最佳协同作用的结果,它的最终目的是利用多个信号源协同工作的优势,来提高整个系统的有效性。单传感器(或单源)信号处理或低层次的多源数据处理都是对人脑信息处理过程的一种低水平模仿,而多源数据融合系统则是通过有效地利用多源数据获取资源,来最大限度地获取被探测目标和环境的信息量。多源数据融合与经典信号处理方法之间也存在着本质差别,其关键在于数据融合所处理的多源数据具有更复杂的形式,而且通常在不同的数据层次上出现,亦即数据融合具有层次化的特征。多源数据融合是针对使用多个或多类传感器(信息源)的系统而开展的一种信息处理方法,它又被称作多源关联、多源合成、传感器集成或多传感器融合,但更广泛的说法是多源数据融合或者多传感器数据融合,即数据融合。它的定义有以下几种:1)对来自多源的信息和数据进行检测、关联、估计和综合等多级多方面的处理,以得到精确的状态和身份估计,以及完整、及时的态势评估和威胁估计。2)数据融合是对单源和多源的数据和信息进行关联、相关和组合,以得到更精细的位置和身份估计、完整和及时的态势评估的过程。3)利用计算机技术对按时序获得的若干传感器观测信息在一定准则下加以自动分析、优化综合以完成所需决策和估计任务而进行的信息处理过程。4)数据融合是在多级别、多方面对单源和多源的数据和信息进行自动检测、关联、相关、估计和组合的过程。5)数据融合是组合数据或信息以估计和预测实体状态的过程。与数据仓库、数据一体化不同,数据融合的目的并不是将所有的数据集中在一起经过标准化来产生唯一的真相,而是以产生决策智能为最终目标,将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集。这个分析数据集是个独立而灵活的实体,能够随着数据源的变化来重组、调整和更新。数据融合胜于数据仓库和数据一体化的一点就是它能包容多源数据。多传感器数据融合在解决探测、跟踪识别问题方面,具有以下性能优势:1)生存能力强。在有若干传感器不能利用或者受到干扰,或某个目标不在覆盖范围时,总会有一种传感器可以提供信息;2)扩展了空间覆盖范围。通过多个交叠覆盖的传感器作用区域,扩展了空间覆盖范围,一种传感器可以探测其他传感器探测不到的地方;3)扩展了时间覆盖范围。用多个传感器的协同作用提高检测概率,某个传感器可以探测其他传感器不能顾及的目标或者事件;4)提高了可信度。一种或多种传感器对同一目标或事件加以确认;5)降低了信息的模糊度。多传感器的联合信息降低了目标的不确定性;6)改进了探测性能。对目标的多种测量有效融合,提高了探测的有效性;7)提高了空间分辨率。多传感器可以获得比任何单一传感器更高分辨率;8)增加了测量空间维数。系统不易受到敌方行动或自然现象的破坏。以遥感数据为例,对同一地区的多源遥感影像数据进行分析能够得到比单一信息源更精确、更完全、更可靠的估计和判断。相对于单源遥感影象数据,多源遥感影象数据所提供的信息具有以下特点:冗余性:多源遥感影像数据对环境或目标的表示、描述或解译结果相同;互补性:指信息来自不同的自由度且相互独立;合作性:不同传感器在观测和处理信息时对其它信息有依赖关系。信息分层的结构特性:数据融合所处理的多源遥感信息可以在不同的信息层次上出现,这些信息抽象层次包括像素层、特征层和决策层,分层结构和并行处理机制还可保证系统的实时性。而数据融合技术能够将单一传感器的多波段信息或不同类别传感器所提供的信息加以综合,消除多传感器信息之间可能存在的冗余和矛盾,加以互补,改善遥感信息提取的及时性和可靠性,提高数据的使用效率。与此同时,为了实现数据间高效的相似度计算和相似搜索等问题而提出的局部敏感哈希是为了解决大规模数据中基于相似度的计算和搜索的一种有效数据处理方法:将数据压缩成紧凑的哈希码,通过计算哈希码间的某种简单距离快速估计原始数据的相似度或距离。局部敏感哈希方法也可以看成是一种特殊的降维方法,但是与一般的降维方法不同的是,局部敏感哈希方法有量化的步骤——每个哈希值都是非负整数,甚至是0或1的比特。量化的好处在于哈希值可以用哈希表方便地进行索引。另外,如果每个哈希值是0或者1的比特,那么通过计算哈希码间的海明距离就可以快速估计数据间的相似度。此外,使用局部敏感哈希方法也可以在不降维的情况下实现存储的压缩。例如:使用一组针对向量的局部敏感哈希函数将一个d维的实值向量压缩成长为K的0-1比特串,即使K=d,在存储上也实现了显著的压缩。因此,对于多源异构数据,如果能够有效利用局部敏感哈希的各种特性来实现多源数据融合,将形成更有效的数据表示。融合后的数据既能够达到降维的目的,又能够利用局部敏感哈希保持数据之间的合理有效的相似特性,进而用于后续的分类、检测和预测等任务。
技术实现思路
本专利技术解决的技术问题是:克服现有技术的不足,提供了一种基于分组正交局部敏感哈希的数据融合方法,解决了海量数据环境下,多源异构的多模态数据之间的有效融合和数据降维问题。本专利技术的技术解决方案是:一种基于分组正交局部敏感哈希的数据融合方法,包括如下步骤:(1)将各个模态的数据特征向量串接形成初始融合特征向量;(2)利用分组正交的局部哈希索引方法,将初始融合特征向量在满足分组正交的条件下映射到哈希索引空间;(3)控制哈希投影向量的数量实现降维,完成数据融合。所述的将各个模态的数据特本文档来自技高网
...

【技术保护点】
1.一种基于分组正交局部敏感哈希的数据融合方法,其特征在于包括如下步骤:(1)将各个模态的数据特征向量串接形成初始融合特征向量;(2)利用分组正交的局部哈希索引方法,将初始融合特征向量在满足分组正交的条件下映射到哈希索引空间;(3)控制哈希投影向量的数量实现降维,完成数据融合。

【技术特征摘要】
1.一种基于分组正交局部敏感哈希的数据融合方法,其特征在于包括如下步骤:(1)将各个模态的数据特征向量串接形成初始融合特征向量;(2)利用分组正交的局部哈希索引方法,将初始融合特征向量在满足分组正交的条件下映射到哈希索引空间;(3)控制哈希投影向量的数量实现降维,完成数据融合。2.根据权利要求1所述的一种基于分组正交局部敏感哈希的数据融合方法,其特征在于:所述的将各个模态的数据特征向量串接形成初始融合特征向量的方法为:(1)设定n个模态的数据特征向量f1,f2,…,fn,特征维度分别为d1,d2,…,dn,其中,n为整数;(2)令且f=[f1,f2,…,fn],融合后数据特征向量维度为K=N×L,且K<d,K、N、L为正整数。3.根据权利要求2所述的一种基于分组正交局部敏感哈希的数据融合方法,其特征在于:所述的利用分组正交的局部哈希索引方法,将初始融合特征向量在满足分组正交的条件下映射到哈希索引空间的方法为:(1)生成d×K的随机矩阵H=[v1,v2,…,vK],随机...

【专利技术属性】
技术研发人员:辛宁曹桂兴李久超任术波李聪陈特
申请(专利权)人:中国空间技术研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1