一种基于二值对比密度的高效数据模式挖掘方法技术

技术编号：16301393 阅读：61 留言：0更新日期：2017-09-26 19:29

本发明专利技术公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为：1)将待挖掘数据转化成二值码，并将所述二值码作为正集合P；选取一作为该待挖掘数据对比的背景数据集，并将其转换后的二值码作为负集合N；2)构建适用于二值码的核函数Kb(d)，用于计算每一对二值码的汉明距离小于或等于d的概率；3)根据优化目标，得到该待挖掘数据的模式

An efficient data pattern mining method based on two valued contrast density

The invention discloses an efficient data pattern mining method based on two value contrast density. The method is as follows: 1) will be mining data into two value code, and the code is set as two value P; selected as the background of data mining to comparative data sets, and converts the values after two yards as a collection of N; 2) applicable to the construction of two nuclear function value Kb code (d), is used to calculate each value of the two code Hamming distance is less than or equal to D probability; 3) according to the optimization objective, the database model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于二值对比密度的高效数据模式挖掘方法
本专利技术属于数据挖掘领域，提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
技术介绍
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如，从社交网站上抓取的大量图像)，首要的问题就是，“数据集中都有些什么样的模式？这个数据集与其他‘常见的’数据集有什么区别？”，本专利技术的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下，模式挖掘变得越来越重要，因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下，支持大数据的高效数据挖掘显得尤为重要。本专利技术在此背景下，主要完成了三个目标。第一，发现数据集中有代表性的模式，能充分代表目标数据集中大量出现的内容。第二，发现的模式要有一定的区分度，不能和其它数据集太过相似，因为区分度低的模式很难表征目标数据集。第三，针对大数据背景，设计高效数据表达和高效数据挖掘算法，以支撑海量大数据的高效处理。以视觉模式挖掘为例，给定某个社交网站上的图片集，需要找到出现频率高，且能区别于其它网站数据的图片模式。在模式挖掘中，已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题：一个是可扩展性，难以适用于大规模数据集(比如千万、亿级数据集)；另一个问题在于所发现的模式的区分度不高。
技术实现思路
针对现有技术中存在的技术问题，本专利技术的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本专利技术基于对比密度的二值均值偏移算法大大提高了模式挖掘效率，一方面，计算和存储的瓶颈(可扩...

【技术保护点】
一种基于二值对比密度的高效数据模式挖掘方法，其步骤为：1)将待挖掘数据转化成二值码，并将所述二值码作为正集合P；选取一作为该待挖掘数据对比的背景数据集，并将其转换后的二值码作为负集合N；2)构建适用于二值码的核函数Kb(d)，用于计算每一对二值码的汉明距离小于或等于d的概率；3)根据优化目标

【技术特征摘要】
1.一种基于二值对比密度的高效数据模式挖掘方法，其步骤为：1)将待挖掘数据转化成二值码，并将所述二值码作为正集合P；选取一作为该待挖掘数据对比的背景数据集，并将其转换后的二值码作为负集合N；2)构建适用于二值码的核函数Kb(d)，用于计算每一对二值码的汉明距离小于或等于d的概率；3)根据优化目标s.t.,b,bi∈{-1,+1}k，得到该待挖掘数据的模式其中，为二值码b的对比密度比，||·||表示L2范数，hi为二值码bi对应数据的带宽参数，λ为补偿因子。2.如权利要求1所述的方法，其特征在于，所述二值码嵌入在k维二值空间{-1,1}k中，两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。3.如权利要求2所述的方法，其特征在于，所述核函数为其中，z是确定Kb(d)为有效...

【专利技术属性】
技术研发人员：张炜，操晓春，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人