一种WMSN区块链的多媒体混合数据近似近邻二元查询方法技术

技术编号:20117806 阅读:15 留言:0更新日期:2019-01-16 12:04
本发明专利技术涉及一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,首先对多媒体数据进行特征提取;然后利用局部敏感哈希方法对数据集上的特征数据构建协同过滤的二元混合LSH索引框架;最后将查询对象映射到步骤S2构建的中协同过滤的二元混合LSH索引框架中进行查询。本发明专利技术能够在保证查询精度的情况下,降低了查询时间,并消耗更少的存储空间。

An Approximate Nearest Neighbor Binary Query Method for Multimedia Mixed Data in WMSN Block Chain

The present invention relates to a near-neighbor binary query method for multimedia mixed data in WMSN block chain. Firstly, feature extraction of multimedia data is carried out; secondly, a binary mixed LSH index framework for collaborative filtering is constructed by using local sensitive hashing method for feature data on data sets; finally, the query object is mapped to the binary mixed LSH index framework for collaborative filtering constructed by Next 2. Make inquiries. The invention can reduce the query time and consume less storage space while ensuring the query accuracy.

【技术实现步骤摘要】
一种WMSN区块链的多媒体混合数据近似近邻二元查询方法
本专利技术涉及无线多媒体传感器网络(WirelessMultimediaSensorNetworks,WMSN)领域,特别是一种WMSN区块链的多媒体混合数据近似近邻二元查询方法。
技术介绍
无线多媒体传感器网络(WirelessMultimediaSensorNetworks,WMSN)是在无线传感器网络(WSN)上发展起来的具有视频、音频、图像等多媒体信息的新型无线传感器网络。到目前为止,WMSN的应用十分广泛,如安全监控、智能交通、环境监测等。其中有些敏感应用必须防止数据篡改,如农场对产品的监管、智能交通违法证据的监管等,目前一种前沿的思想是采用当前热点区块链技术与IPFS技术来构建基于WMSN的区块链系统,以对非常敏感的数据进行保护。因而在WMSN区块链系统研发中多媒体数据查询将是一项基础性设计。一般性的做法是:在经过WMSN数据预处理后,基于多媒体数据的搜索操作通过对同一网络中存在的大规模数据进行筛选,获取与查询对象相似的数据结果。从现有技术文献来看,对高维度、大规模的数据集快速搜索已经呈现出巨大的应用潜力。但是,对于WMSN这样的多类型数据形式,如何利用不同类型的数据进行协同搜索,提高搜索结果的精度,对于在WMSN区块链的应用来说具有非常重要的意义。WMSN区块链应用通常基于以太坊和IPFS来构建可行的解决方案,WMSN数据在存储到IPFS分布式结构后,进行上链处理,通过智能合约对上链以后的数据在IPFS上进行如查询等操作现有的方法存在以下三个挑战性问题。问题1(空间灾难):大规模WMSN区块链IPFS数据的索引存储本身即需要消耗较大的空间,而现有的方法在保证准确度的情况下构建索引往往需要消耗高于数据集更多倍的空间大小,这对于大规模数据集无疑是一种“空间灾难”;问题2(维度灾难):在处理单一数据类型,例如图片、文本数据,其构建的特征向量都属于高维数据,而对混合数据类型更需要同时考虑多种数据特征,对于大规模WMSN区块链IPFS数据的处理是一种“维度灾难”问题;问题3(增长灾难):在WMSN区块链IPFS分布式存储的背景下,WMSN数据的高速增长需要所构建的索引结构有着较优的可扩展性。对于大规模WMSN区块链IPFS数据的处理是一种“增长灾难”问题。
技术实现思路
有鉴于此,本专利技术的目的是提出一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,能够在保证查询精度的情况下,降低了查询时间,并消耗更少的存储空间。本专利技术采用以下方案实现:一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,具体包括以下步骤:步骤S1:对多媒体数据进行特征提取;步骤S2:利用局部敏感哈希方法对数据集上的特征数据构建协同过滤的二元混合LSH索引框架;步骤S3:将查询对象映射到步骤S2构建的中协同过滤的二元混合LSH索引框架中进行查询。本专利技术利用局部敏感哈希(LocalitySensitiveHashing,LSH)方法构造二元混合数据索引,以保留原数据对象之间内容的相似度,有利于准确地进行搜索;采用近似近邻搜索策略取代最近邻搜索,以降低搜索时间;最后,利用二元混合数据模型应对WMSN中的多类型数据,进行二元混合数据的协同搜索。本专利技术的方法对高维度、大规模、多类型数据的数据形式具有较好的普适性,能够提高搜索结果的准确度;在真实与合成多类型混合数据集上本专利技术方法表现出良好的性能,能够有效节省资源,降低了搜索时间,同时该方法有效地解决了近似近邻的二元混合查询问题,可有效应用于基于WMSN区块链系统中智能合约的WMSN数据查询事务。进一步地,步骤S1具体为:在输入WMSN的原始多类型数据后,通过特征化将多媒体数据转换成为特征向量;在这个过程中,对文本数据进行特征提取时,使用TF-IDF方法或词频方法,以将文本数据转换为汉明空间下的特征向量;对图像数据进行特征提取时,通过提取SIFT特征值进行特征化处理,以将其转换为欧式空间下的特征向量。进一步地,步骤S2具体包括以下步骤:步骤S21:通过(r1,r2,p1,p2)-sensitiveLSH将x1转化为k1个哈希值;步骤S22:通过(d1,d2,p1,p2)-sensitiveLSH将x2转化为k2个哈希值;步骤S23:连接k1和k2个哈希值,即得该数据的混合哈希值;步骤S24:针对数据集中的两种数据类型进行哈希映射构建索引结构;其中,x1表示汉明空间数据,x2表示欧式空间数据,(r1,r2,p1,p2)-sensitiveLSH与(d1,d2,p1,p2)-sensitiveLSH均表示局部敏感哈希变换,r1表示x1中的领域半径,r2表示x2中的领域半径;d1表示汉明空间的距离计算形式(维度),d2表示欧式空间的距离计算形式(维度);p1表示一个概率值,它是在实数区间(0,1)中的一个较大的数值;p2表示另一个概率值,它是在实数区间(0,1)中的一个较小的数值。进一步地,步骤S24具体包括以下步骤:步骤S241:设近似因子c、汉明敏感距离r以及欧式敏感距离d,对于x1部分,构建族,记为H1;对于x2部分,构建族,记为H2;其中,分别表示概率数值,它们都是在实数区间(0,1)中的一个较大的数值;也分别表示概率数值,它们都是在实数区间(0,1)中的一个较小的数值。步骤S242:分别从H1、H2中随机生成k1、k2个哈希函数,并合并成为一个新的哈希函数,记为gi,即步骤S243:独立且随机地选取L个g,记为G={g1,g2,...gL},对于每个二元数据,都会得到L个哈希值,并分别映射到L个哈希表中。进一步地,在索引结构的构造过程中,对于每个点p∈P,其中P为给定度量空间中的一个点集,为了获得p的混合哈希值,首先对p的汉明空间部分进行OPR(OnePermutationwithRotation)处理,得到一个k维的向量,记为H1=[h1,h2,...hk],然后对p的欧式空间部分,应用cross-polytopeLSH,得到一个离点p最近的基准向量的索引,记为H2=i,i∈{1,2,...2d},最后得到点p的混合哈希值,记为H=[H1,H2],通过md5再次对H进行哈希映射得到p最后的哈希索引,并将点p存入相应的哈希桶中,为了提高近似点的碰撞概率,重复这个过程L次,生成L个哈希表,每个哈希表内都对应着多个哈希桶,每个桶内存储的数据点则称为相互碰撞的点。本专利技术分别利用OnePermutationwithRotation方法和cross-polytopeLSH方法,将相似的数据映射为同一索引值,该方法相对于原始的LSH方法,在时间和空间上都有很大的提升。进一步地,在一次计算哈希索引中,采用计算时间,其中,d1、d2分别是点p汉明空间与欧式空间的维度,采用快速哈德码变换来降低对点p欧式空间部分旋转过程所使用的时间,此时计算一次哈希值的时间复杂度降为O(kd1+d2logd2);对于L个独立的哈希桶,对每个点进行L次上述操作,得到总的预处理时间为O(nL(kd1+d2logd2)),其中n为总点数。进一步地,步骤S3具体为:步骤S31:给定查询数据;步骤S32:对步骤S1给定的查询数据特征化后进行步骤S21至步骤S23的本文档来自技高网
...

【技术保护点】
1.一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:包括以下步骤:步骤S1:对多媒体数据进行特征提取;步骤S2:利用局部敏感哈希方法对数据集上的特征数据构建协同过滤的二元混合LSH索引框架;步骤S3:将查询对象映射到步骤S2构建的中协同过滤的二元混合LSH索引框架中进行查询。

【技术特征摘要】
1.一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:包括以下步骤:步骤S1:对多媒体数据进行特征提取;步骤S2:利用局部敏感哈希方法对数据集上的特征数据构建协同过滤的二元混合LSH索引框架;步骤S3:将查询对象映射到步骤S2构建的中协同过滤的二元混合LSH索引框架中进行查询。2.根据权利要求1所述的一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:步骤S1具体为:在输入WMSN的原始多类型数据后,通过特征化将多媒体数据转换成为特征向量;在这个过程中,对文本数据进行特征提取时,使用TF-IDF方法或词频方法,以将文本数据转换为汉明空间下的特征向量;对图像数据进行特征提取时,通过提取SIFT特征值进行特征化处理,以将其转换为欧式空间下的特征向量。3.根据权利要求1所述的一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:步骤S2具体包括以下步骤:步骤S21:通过(r1,r2,p1,p2)-sensitiveLSH将x1转化为k1个哈希值;步骤S22:通过(d1,d2,p1,p2)-sensitiveLSH将x2转化为k2个哈希值;步骤S23:连接k1和k2个哈希值,即得该数据的混合哈希值;步骤S24:针对数据集中的两种数据类型进行哈希映射构建索引结构;其中,x1表示汉明空间数据,x2表示欧式空间数据,(r1,r2,p1,p2)-sensitiveLSH与(d1,d2,p1,p2)-sensitiveLSH均表示局部敏感哈希变换,r1表示x1中的领域半径,r2表示x2中的领域半径,d1表示汉明空间的维度,d2表示欧式空间的维度,p1与p2分别为两个概率值。4.根据权利要求3所述的一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:步骤S24具体包括以下步骤:步骤S241:设近似因子c、汉明敏感距离r以及欧式敏感距离d,对于x1部分,构建族,记为H1;对于x2部分,构建族,记为H2;其中,均表示概率数值;步骤S242:分别从H1、H2中随机生成k1、k2个哈希函数,并合并成为一个新的哈希函数,记为gi,即步骤S243:独立且随机地选取L个g,记为G={g1,g2,...gL},对于每个二元数据,都会得到L个哈希值,并分别映射到L个哈希表中。5.根据权利要求4所述的一种WMSN区块链的多媒体混合数据近似近邻二元查询方法,其特征在于:在索引结构的构造过程中,对于每个点p∈P,其中P为给定度量空间中的一个点集,为了获得p...

【专利技术属性】
技术研发人员:肖如良倪友聪杜欣陈黎飞许力蔡声镇
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利