【技术实现步骤摘要】
本专利技术涉及一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,属于天体光谱分类领域。
技术介绍
大型天文望远镜采集到的海量天体数据使天文学家摆脱了“数据贫乏”的窘境,但随之而来的问题是如何对这些数据进行有效分析和处理。由于人类对宇宙的认识还较为有限,因此,大型天文望远镜巡天的任务之一就是发现一些新的、特殊的天体。特殊天体的发现对于人类了解宇宙演变规律具有重要意义。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行处理和分析。离群数据是指不满足其他数据的一般规律或分布性状,与已有数据不一致的数据。与一般数据相比,离群数据包含更重要的信息,深入挖掘这部分数据对于特征天体发现至关重要。近年来天体光谱数据分类方法不断涌现,主要包括:Autoclass基于贝叶斯理论并采用非监督学习算法;Starck将小波变换引入光谱分析;Gulati等采用两层BP网络实现恒星光谱分类;Bailer-Jones利用多层感知神经网络和主元分析进行恒星光谱自动分类;覃冬梅等利用主元分析和最近邻分类器实现恒星光谱自动分类;刘蓉等利用小波特征对光谱星系进行分类;杨金福等提出基于核技巧与覆盖算法的光谱自动分类方法;许馨等利用核技巧将非线性问题转化为高维线性问题并利用线性判别分析算法进行光谱分类;赵梅芳等提出基于自适应增强的光谱分类方法;孙士卫等提出基于数据仓库的星系光谱分类方法;张怀福等利用小波包和支持向量机技术对活动天体和 ...
【技术保护点】
一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,其特征在于包括以下步骤:(1)对于斯隆望远镜采集回的天体光谱数据,根据每一个光谱数据的流量、峰宽和形状将其离散化,得到待处理的数据集;假设所述样本集由m′1个一般类样本和m′2个离群类样本构成,样本总数n′=m′1+m′2,m′2<<m′1;由m′1个一般类样本组成的集合中xi表示一般类样本,1≤i≤m′1,yi表示类别标签,yi=1表示该样本属于一般类;m′2个离群类样本组成的集合中xj表示离群类样本,m′1+1≤j≤n′,yj表示类别标签,yj=‑1,表示该样本属于离群类;从样本集中随机选取n个样本构成训练样本集,使训练样本集中的一般类样本和离群类样本的数量分别为m1和m2,比例保持为m1/m2=m′1/m′2,样本集中除其训练样本集以外的样本组成测试样本集;(2)利用训练样本集构建基于模糊大间隔最小球分类模型,所述基于模糊大间隔最小球分类模型的最优化问题为:minR,c,ρ,ξR2-vρ2+1v1m1Σi=1m1siξi+1v2m2Σj=m1+1m2sjξj]]>其约 ...
【技术特征摘要】
1.一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,其特征在于包
括以下步骤:
(1)对于斯隆望远镜采集回的天体光谱数据,根据每一个光谱数据的流量、峰宽
和形状将其离散化,得到待处理的数据集;假设所述样本集由m′1个一般类样本和m′2个
离群类样本构成,样本总数n′=m′1+m′2,m′2<<m′1;由m′1个一般类样本组成的集合
中xi表示一般类样本,1≤i≤m′1,yi表示类别标签,yi=1表
示该样本属于一般类;m′2个离群类样本组成的集合中xj表示离群类样本,m′1+1≤j≤n′,yj表示类别标签,yj=-1,表示该样本属于离群类;
从样本集中随机选取n个样本构成训练样本集,使训练样本集中的一般类样本和离群类
样本的数量分别为m1和m2,比例保持为m1/m2=m′1/m′2,样本集中除其训练样本集以
外的样本组成测试样本集;
(2)利用训练样本集构建基于模糊大间隔最小球分类模型,所述基于模糊大间隔
最小球分类模型的最优化问题为:
min R , c , ρ , ξ R 2 - vρ 2 + 1 v 1 m 1 Σ i = 1 m 1 s i ξ i + 1 v 2 m 2 Σ j = m 1 + 1 m 2 s j ξ j ]]>其约束条件为:
s.t.||φ(xi)-c||2≤R2+ξi1≤i≤m1||φ(xj)-c||2≥R2+ρ2-ξjm1+1≤j≤n
ξk≥01≤k≤n
其中,c和R分别为待求的最小球的中心和半径;ρ2为待求的最小球边界与离群
类样本之间的间隔;ξ=[ξ1,ξ2,...,ξn]T为待求的松弛因子;s=[s1,s2,...,sn]T为模糊因子,
通过模糊隶属度函数s(x)计算得到,sk=s(xk),1≤k≤n;v、v1和v2为正常数,通过
网格搜索策略获得;φ(xi)为样本x的核化形式;
(3)利用Lagrangian乘子法将最优化问题转化为QP对偶形式,求得最小球的球
心c,根据球心c定义决策函数;
(4)利用决策函数对测试样本集中的样本进行类别判定,以判别测试样本集中的
样本属于一般类或离群类。
2.根据权利要求1所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方
法,其特征在于:步骤(2)中,所述模糊隶属度函数采用基于距离的隶属度函数:
s ( x i ) = 1 - | | x i - x ‾ | | r + δ ]]>其中,为训练样本集的类中心,即训练样本集中所有样本的均值,r为训练样本
集的类半径且δ为正数,其取值范围为(10-3,10-2),它保证s(xi)>0。
3.根据权利要求1所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方
法,其特征在于:步骤(3)所述利用Lagrangian乘子法将最优化问题转化为QP对偶
形式,具体包括以下过程:
将基于模糊大间隔最小球分类模型的最优化问题表示为Lagrangian函数为:
L ( R , c , ρ , ξ , α , β ) = R 2 - vρ 2 + 1 v 1 m 1 Σ i = 1 m 1 s i ξ i + 1 v 2 m 2 Σ j = m 1 + 1 n s j ξ j + Σ i = 1 m 1 α i ( | | φ ( x i ) - c | | 2 - R 2 - ξ i ) - Σ j = m 1 + 1 n β j ( | | φ ( x j ) - c | | 2 - R 2 - ρ 2 + ξ j ) - Σ k = 1 n β k β k ]]>其中,αi和βj为拉格朗日乘子且αi>0,βj>0;
对L(R,c,ρ,ξ,α,β)分别对R、c、ρ、ξ、α和β进行求导并令导数为0,得到:
∂ L ∂ R = 2 R ( 1 - Σ i = 1 n α i y i ) = 0 ]]> ∂ L ∂ ρ = 2 ρ ( Σ j = m 1 + 1 n ...
【专利技术属性】
技术研发人员:刘忠宝,赵文娟,杨秋翔,
申请(专利权)人:中北大学,
类型:发明
国别省市:山西;14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。