【技术实现步骤摘要】
一种面向大数据中稀有类数据的快速查询方法
本专利技术属于数据挖掘领域,尤其涉及一种面向大数据中稀有类数据的快速查询方法。
技术介绍
在现实世界里,大数据中经常包含一些数据样本较少但却具有重要价值的稀有类。例如在金融交易中,虽然绝大多数的交易都是合法的,但是其中仍然包括一些具有欺骗性质的虚假交易;在大量的网络访问的过程中,虽然绝大多数的网络请求都是合理的,但是不排除一些利用系统漏洞进行网络攻击的行为。在实际应用中,这些稀有类数据样本常常被偶然发现或者是通过一些稀有类检测技术所侦察到,当发现了少量的稀有类样本后,随之产生的问题是如何利用这些少量的稀有类数据样本对数据集中的稀有类数据进行快速查询。对于稀有类的查询,虽然有稀有类分类和稀有类聚类等相关的技术可以找出所有的稀有类数据,但是稀有类分类技术需要大量已知的稀有类数据作为训练集来进行分类器的训练,而实际生活中这些数据是难以获取的,稀有类聚类技术虽然不需要训练数据,但是在聚类过程中没有利用一些已知的有价值稀有类数据信息,可能造成结果的不准确。因而如何利用仅有的少量稀有类数据找到所有稀有类数据是一个重要且极具挑战的问题。 ...
【技术保护点】
一种面向大数据中稀有类数据的快速查询方法,其特征在于,包括以下步骤:步骤1:将给定的需进行稀有类查询的数据集记为集合D,将集合D中的每个点标记为未知点,设置k的值为k0,2≤k0≤5且k0为整数;使用集合N来记录已经找到的稀有类样本点,初始时N中仅包含一个已知的稀有类样本点n0,即N={n0};步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点,即ni的k近邻,记为kNN(ni),将N中所有点的k近邻组成集合kNN(N),将N中的点标为已知点,并对N中每个点ni对应的kNN(ni)中的点进行筛选,找出kNN(ni)中的稀有类样本点;步骤3:根据筛选后的kNN(N)中 ...
【技术特征摘要】
1.一种面向大数据中稀有类数据的快速查询方法,其特征在于,包括以下步骤:步骤1:将给定的需进行稀有类查询的数据集记为集合D,将集合D中的每个点标记为未知点,设置k的值为k0,2≤k0≤5且k0为整数;使用集合N来记录已经找到的稀有类样本点,初始时N中仅包含一个已知的稀有类样本点n0,即N={n0};步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点,即ni的k近邻,记为kNN(ni),将N中所有点的k近邻组成集合kNN(N),将N中的点标为已知点,并对N中每个点ni对应的kNN(ni)中的点进行筛选,找出kNN(ni)中的稀有类样本点;步骤3:根据筛选后的kNN(N)中未知点的数量进行选择执行:选择执行一:若筛选后的kNN(N)中的点包含未知点,则更新N中每个点的坐标,并记录下该点已更新的次数,若更新次数超过给定阈值τt,则该点的坐标不再更新,初始化一个空集合N’,将更新后得到的新坐标点加入集合N’,并更新N=kNN(N)∪N',然后返回步骤2;N中点的坐标更新规则为:其中,表示点ni的原始坐标;表示更新后的坐标;kNNj(ni)表示点ni的第j个k近邻点的坐标;选择执行二:若筛选后的kNN(N)中的点均为已知点并且k等于k0,将D中所有已知点加入集合R;将k的值逐步增加,每次增加1,直至R在新的k值下找到的k近邻集合kNN(R)中包含有未知点,并记录此时的k值,记为knew,更新k=knew,更新N={no},返回步骤2;选择执行三:若筛选后的kNN(N)中的点均为已知点并且k不等于k0,则算法停止,然后将R集合中的数据作为最后找到的稀有类结果,算法结束。2.根据权利要求1所述的一种面向大数据中稀有类数据的快速查询方法,其特征在于:所述的步骤2中,对N中每个点ni的k近邻Knn(ni)中的点进行筛选的过程如下:步骤2.1:使用集合X={X1,X2,...,Xk}来代表kNN(ni)中的k个点,并且对于若...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。