当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于半监督学习的数字化信息归并分类算法制造技术

技术编号:38845578 阅读:14 留言:0更新日期:2023-09-17 09:56
本发明专利技术提供一种基于半监督学习的数字化信息归并分类算法,检测原始数字化信息中的概念漂移数据,滤除噪声数据,降低对后续分类结果精度的影响;利用半监督学习训练K均值聚类算法,利用训练后算法训练数据块,构建基础分类器,通过对目标函数求解获得最优聚类中心;构建基于SDClass算法的归并分类器,计算每个数据块类标签的估计值,以及估计值与簇中心间距离,找出最近的簇,将对应的数据块划分到该簇中,实现数字化信息的归并分类。选取6种不同类型的数据集对所提方法展开实验测试,结果表明,所提方法针对不同类型的数据集均可实现高精准分类,且具有较高的分类效率。且具有较高的分类效率。且具有较高的分类效率。

【技术实现步骤摘要】
一种基于半监督学习的数字化信息归并分类算法


[0001]本专利技术属于数据挖掘领域,具体涉及一种基于半监督学习的数字化信息归并分类算法。

技术介绍

[0002]数字化信息归并分类是当前数据挖掘领域中一个极具挑战的课题,也是许多学者和专家所关心的课题。数字化信息归并分类是指从大量样本数据中提取得到有用信息,由于数字化信息具有实时性、高维度、动态性、顺序性以及无限性等特点,且信息中含有一些随时间和环境变化的概念和知识,即概念漂移,在一定程度上增加了归并分类难度,因此,研究有效的数字化信息归并分类方法具有一定的现实意义。
[0003]一个合理的数字化信息归并分类算法应该在有限时间和空间内精准完成归并分类任务,且有效避免概念漂移问题和过滤数据中的噪声。对此,孙志于等人利用数据场理论,提出一种分布式自适应数据分类方法。首先,在数据场理论中引入监督信息,扩展其应用领域,使其适用于分类问题;然后,将自适应数据域值空间转换为势场空间,完成对数据无标签的分类;将历史监督信息与无标签分类结果进行相似度对比,将具有较大相似度的类别进行融合;最后,将分布式数据分配到合适的类别中,以此完成数据分类。陆克中等人将加权机制与遗忘机制联立,建立基本分类器,并与加权在线顺序极限学习机集成算法相结合,实现对非平衡、复杂数据流的分类。除此之外,还有学者提出了基于人工神经网络的分类算法,通过多层神经元对数据进行处理和学习,得出分类结果。
[0004]上述方法要求具有非常大的数据量支撑算法运算,对承载硬件要求较高,为此,本专利技术提供一种基于半监督学习的数字化信息归并分类算法(SDClass)。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种基于半监督学习的数字化信息归并分类算法,较其他算法相比,有着更加理想的数据归并分类效果。
[0006]为解决上述技术问题,本专利技术的实施例提供一种基于半监督学习的数字化信息归并分类算法,包括如下步骤:
[0007]S1、数字化信息预处理:对原始数字化信息进行概念漂移检测和噪声数据过滤处理,降低后续的归并分类难度;
[0008]S2、基于半监督学习的基础分类器构建:利用K均值聚类算法对数据块进行训练,并在半监督学习算法的约束下使得目标函数值最小,得到最优聚类中心;
[0009]S3、基于SDClass算法的归并分类器实现:利用SDClass算法构建归并分类器,通过对数据块的类标签进行估计,并计算估计值与簇中心之间的距离,将数据块划分到距离最近的类别中,完成数字化信息的归并分类。
[0010]其中,步骤S1的具体步骤为:
[0011]S1.1、假设数字化信息中存在一个随机变量e,其最大值为R,利用
HoeffdingBounds不等式对数字化信息进行漂移检测,定义R=log2m,其中,m表示划分类别数量,先对当前变量e与上一变量e

1之间的分类错误率进行比较,得到二者差值e';设定一个阈值p,将e'与p进行对比,当e'>p时,说明数字化信息发生了概念漂移现象,直接对其进行抑制即可,降低归并分类难度;
[0012]S1.2、利用朴素贝叶斯分类器精准检测数字化信息中的噪声,过滤噪声数据,步骤为:
[0013]给出一个未标记的数据实例X={x1,x2,

,x
n
},利用贝叶斯定理计算X属于C
i
簇类的概率:
[0014][0015]式中,P(X)是一个常数项,P(X|C
i
)P(C
i
)表示最大化先验概率;
[0016]假设X的所有特征均是独立存在的,则有:
[0017][0018]利用上述方法对所有数据实例进行计算,再经过K+1个分类器投票后,如果一半以上分类器都出现了分类错误的情况,就认定该数据为噪声数据,直接将其过滤。
[0019]其中,步骤S2的具体步骤为:
[0020]S2.1、K均值聚类算法训练
[0021]完成对数字化信息的预处理后,利用半监督学习对K均值聚类算法训练,找出簇中被标记的实例数据,再对已标记的数据块进行训练,得到基础分类器,基于基础分类器完成对数字化信息的初分类;
[0022]定义1:假设存在一个同质簇C
k
,且满足下列两个条件中任意一个:
[0023](1)簇中的所有实例都已经被标记;
[0024](2)有着相同类标签label的标记实例数量大于阈值p;
[0025]定义2:label被视为C
k
的簇标签
[0026]当数据块中同时包含已标记实例和未标记实例时,归并分类的目的就是使实例与簇中心的距离最短,且确保所有簇都是同质的;对目标函数进行定义,使有着相同类标签的实例归类到同一个簇中;目标函数O
S

K
的表达式为:
[0027][0028]式中,Y是一个T
×
K的隶属矩阵;c={c1,c2,

,c
k
}表示簇中心,k=1,2,

,K表示一个整数;h
k
表示C
k
的同质度量函数,s表示数据块,v
k
表示C
k
的关联权值;
[0029]定义为簇C
k
中类标签为label_c的实例数据的先验概率,表达式如式(4)所示:
[0030][0031]式中,|L
k
(c)|表示簇C
k
中类标签为label_c的实例数据数量,|L
k
|表示簇C
k
中已经
被标记的实例数据数量;
[0032]推理得到h
k
的表达式为:
[0033][0034]当簇C
k
中的类别分散程度越大,h
k
的值就越大;当h
k
<1

p2时,C
k
符合同质簇含义;h
k
受|L
k
(c)|和|L
k
|影响,|L
k
(c)|和|L
k
|受Y影响,确定了Y值后,即得到了h
k
值;
[0035]在基础分类器中添加属性权值,将簇中心c
k
与实例x
i
之间的欧式距离dis(x
i
,c
k
)转换为附带属性权值的欧式距离dis

w(x
i
,c
k
),表达式如式(6)所示:
[0036][0037]式中,w
q
(q=1,2,

,Q)表示第q个属性的权值,w表示权值;x
iq
、c
kq
分别表示附带了属性权值的实例x本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的数字化信息归并分类算法,其特征在于,包括如下步骤:S1、数字化信息预处理:对原始数字化信息进行概念漂移检测和噪声数据过滤处理,降低后续的归并分类难度;S2、基于半监督学习的基础分类器构建:利用K均值聚类算法对数据块进行训练,并在半监督学习算法的约束下使得目标函数值最小,得到最优聚类中心;S3、基于SDClass算法的归并分类器实现:利用SDClass算法构建归并分类器,通过对数据块的类标签进行估计,并计算估计值与簇中心之间的距离,将数据块划分到距离最近的类别中,完成数字化信息的归并分类。2.根据权利要求1所述的基于半监督学习的数字化信息归并分类算法,其特征在于,步骤S1的具体步骤为:S1.1、假设数字化信息中存在一个随机变量e,其最大值为R,利用HoeffdingBounds不等式对数字化信息进行漂移检测,定义R=log2m,其中,m表示划分类别数量,先对当前变量e与上一变量e

1之间的分类错误率进行比较,得到二者差值e';设定一个阈值p,将e'与p进行对比,当e'>p时,说明数字化信息发生了概念漂移现象,直接对其进行抑制即可,降低归并分类难度;S1.2、利用朴素贝叶斯分类器精准检测数字化信息中的噪声,过滤噪声数据,步骤为:给出一个未标记的数据实例X={x1,x2,

,x
n
},利用贝叶斯定理计算X属于C
i
簇类的概率:式中,P(X)是一个常数项,P(X|C
i
)P(C
i
)表示最大化先验概率;假设X的所有特征均是独立存在的,则有:利用上述方法对所有数据实例进行计算,再经过K+1个分类器投票后,如果一半以上分类器都出现了分类错误的情况,就认定该数据为噪声数据,直接将其过滤。3.根据权利要求1所述的基于半监督学习的数字化信息归并分类算法,其特征在于,步骤S2的具体步骤为:S2.1、K均值聚类算法训练完成对数字化信息的预处理后,利用半监督学习对K均值聚类算法训练,找出簇中被标记的实例数据,再对已标记的数据块进行训练,得到基础分类器,基于基础分类器完成对数字化信息的初分类;定义1:假设存在一个同质簇C
k
,且满足下列两个条件中任意一个:(1)簇中的所有实例都已经被标记;(2)有着相同类标签label的标记实例数量大于阈值p;定义2:label被视为C
k
的簇标签当数据块中同时包含已标记实例和未标记实例时,归并分类的目的就是使实例与簇中心的距离最短,且确保所有簇都是同质的;对目标函数进行定义,使有着相同类标签的实例
归类到同一个簇中;目标函数O
S

K
的表达式为:式中,Y是一个T
×
K的隶属矩阵;c={c1,c2,

,c
k
}表示簇中心,k=1,2,

,K表示一个整数;h
k
表示C
k
的同质度量函数,s表示数据块,v
k
表示C
k
的关联权值;定义为簇C
k
中类标签为label_c的实例数据的先验概率,表达式如式(4)所示:式中,|L
k
(c)|表示簇C
k
中类标签为label_c的实例数据数量,|L
k
|表示簇C
k
中已经被标记的实例数据数量;推理得到h
k
的表达式为:当簇C
k
中的类别分散程度越大,h
k
的值就越大;当h
k
<1

p2时,C
k
符合同质簇含义;h
k
受|L

【专利技术属性】
技术研发人员:詹广生王楚越宗烜逸赵婧雯程实何金凤
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1