一种基于二值对比密度的高效数据模式挖掘方法技术

技术编号:16301393 阅读:61 留言:0更新日期:2017-09-26 19:29
本发明专利技术公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标,得到该待挖掘数据的模式

An efficient data pattern mining method based on two valued contrast density

The invention discloses an efficient data pattern mining method based on two value contrast density. The method is as follows: 1) will be mining data into two value code, and the code is set as two value P; selected as the background of data mining to comparative data sets, and converts the values after two yards as a collection of N; 2) applicable to the construction of two nuclear function value Kb code (d), is used to calculate each value of the two code Hamming distance is less than or equal to D probability; 3) according to the optimization objective, the database model

【技术实现步骤摘要】
一种基于二值对比密度的高效数据模式挖掘方法
本专利技术属于数据挖掘领域,提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
技术介绍
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如,从社交网站上抓取的大量图像),首要的问题就是,“数据集中都有些什么样的模式?这个数据集与其他‘常见的’数据集有什么区别?”,本专利技术的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下,模式挖掘变得越来越重要,因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下,支持大数据的高效数据挖掘显得尤为重要。本专利技术在此背景下,主要完成了三个目标。第一,发现数据集中有代表性的模式,能充分代表目标数据集中大量出现的内容。第二,发现的模式要有一定的区分度,不能和其它数据集太过相似,因为区分度低的模式很难表征目标数据集。第三,针对大数据背景,设计高效数据表达和高效数据挖掘算法,以支撑海量大数据的高效处理。以视觉模式挖掘为例,给定某个社交网站上的图片集,需要找到出现频率高,且能区别于其它网站数据的图片模式。在模式挖掘中,已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题:一个是可扩展性,难以适用于大规模数据集(比如千万、亿级数据集);另一个问题在于所发现的模式的区分度不高。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本专利技术基于对比密度的二值均值偏移算法大大提高了模式挖掘效率,一方面,计算和存储的瓶颈(可扩展性问题)会因为采用了本专利技术的二值化挖掘算法得到解决,另一方面,通过基于对比密度的模式搜索来抑制没有代表性的模式。通常情况下,特征空间中的模式通常对应于出现频率高的常见模式,例如在视觉数据挖掘中,天空、草地、人像等随处可见。但是,高频内容并不能直接作为一个数据集的有效模式,因为高频模式并不具有较强区分度。本专利技术通过与另一组背景分布进行对比,找出有代表性且有区分度的模式。本专利技术为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法,其流程如图1所示,其主要步骤如下:(1)把数据转化成二值码本专利技术的目标是用具有存贮与计算优势的二值码最大可能地近似数据,最小化二值化后续计算过程中的精度损失。因此,采用迭代量化算法(ITQ),把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B,以此来最小化精度损失。(2)构建适用于二值码的二项核函数令B={b1,b2,...,bn}是嵌入在k维二值空间{-1,1}k中的X的相应二值码,其中bi是由ITQ产生,假定二值码均匀分布在{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本专利技术提出一个核函数Kb(d)来加权具有不同汉明距离的二值码,具体如下:这里z是确定Kb(d)为有效核函数的归一化因子,为从k个元素中取出i个元素的组合数(即从k个元素中选出i个元素子集的个数),外括号中的部分等于Bin(k,1/2)的累积分布函数CDF(d)。这个核函数Kb(d)具有明确的意义:两个随机二值码的汉明距离小于或等于自然数d的概率。(3)迭代优化模式估计本专利技术将目标数据集对应的二值码作为正集合P,将另一个随机构建的背景数据集对应的二值码作为对比的负集合N。正负集合之间的密度比更能反应正集合中的代表模式,因为它抑制了大量存在于负集合中的模式。在二值空间中,本专利技术将一些点作为前景(P),其他点被认为是背景(N)。本专利技术引入对比密度比其中p()表示概率密度函数,b为二值码。因此,优化目标可以表示如下:这里||·||表示L2范数,hi为第i个数据的带宽参数(用自适应均值漂移算法进行初始化)。对于b的二值约束,保证只在汉明超立方体的顶点之间偏移估计。这里用对比密度在p+和p-之间进行对比,并且引入了一个补偿因子λ,以避免分母中出现除零。因此,一个模式必须频繁地在正集合中出现,同时在负集合中比较少见。本专利技术通过迭代均值偏移来更新估计。核函数Gb=-Kb′的均值偏移等于核函数Kb和估计的密度上的梯度上升,这里Kb′表示Kb的导数。本专利技术通过以下方式更新估计直到收敛(收敛进行赋值:为最终确定的数据模式):其中这里Pb,Nb分别定义为集合P,N中b的邻域。根据lS,H、fS,H的下标S,H值决定H()选用是Kb或Gb;根据lS,H、fS,H的下标S值决定bi属于是Pb或Nb。与现有技术相比,本专利技术的积极效果为:1.在不损失精度的前提下,本专利技术比现有算法快50倍,节省30~60倍内存。2.本专利技术能有效挖掘更具区分度的数据模式。附图说明图1为对比二值均值偏移算法流程框架图。具体实施方式下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实现本专利技术的一种具体实施方式如下,基于二值对比密度的高效数据挖掘方法:1)采用迭代量化算法ITQ,把目标数据集转化为二值码集合P,把对比数据集转化成二值码集合N;2)初始化模式为P中某个二值码;3)为集合{P∪N}建立一个多索引哈希表M;4)在索引M中搜索的近邻,构建Pb和Nb;5)按照公式(4)迭代直至收敛或达到最大迭代次数T;6)输出模式本文档来自技高网...
一种基于二值对比密度的高效数据模式挖掘方法

【技术保护点】
一种基于二值对比密度的高效数据模式挖掘方法,其步骤为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标

【技术特征摘要】
1.一种基于二值对比密度的高效数据模式挖掘方法,其步骤为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标s.t.,b,bi∈{-1,+1}k,得到该待挖掘数据的模式其中,为二值码b的对比密度比,||·||表示L2范数,hi为二值码bi对应数据的带宽参数,λ为补偿因子。2.如权利要求1所述的方法,其特征在于,所述二值码嵌入在k维二值空间{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。3.如权利要求2所述的方法,其特征在于,所述核函数为其中,z是确定Kb(d)为有效...

【专利技术属性】
技术研发人员:张炜操晓春
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1