当前位置: 首页 > 专利查询>中北大学专利>正文

基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法技术

技术编号:13331341 阅读:73 留言:0更新日期:2016-07-11 22:58
本发明专利技术提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,首先选取训练样本集,然后构建基于模糊大间隔最小球分类模型,接着定义决策函数,最后利用决策函数对测试样本集进行类别判定。在该模型中,模糊技术的引入保证将样本区别对待,这样便减少噪声点和奇异点对分类结果的影响。本发明专利技术基于模糊最大间隔最小球模型对离群点较为敏感,在一定程度上克服了已有分类方法在特殊天体发现方面的不足,为特殊天体发现研究提供了新的思路。

【技术实现步骤摘要】

本专利技术涉及一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,属于天体光谱分类领域。
技术介绍
大型天文望远镜采集到的海量天体数据使天文学家摆脱了“数据贫乏”的窘境,但随之而来的问题是如何对这些数据进行有效分析和处理。由于人类对宇宙的认识还较为有限,因此,大型天文望远镜巡天的任务之一就是发现一些新的、特殊的天体。特殊天体的发现对于人类了解宇宙演变规律具有重要意义。目前,常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行处理和分析。离群数据是指不满足其他数据的一般规律或分布性状,与已有数据不一致的数据。与一般数据相比,离群数据包含更重要的信息,深入挖掘这部分数据对于特征天体发现至关重要。近年来天体光谱数据分类方法不断涌现,主要包括:Autoclass基于贝叶斯理论并采用非监督学习算法;Starck将小波变换引入光谱分析;Gulati等采用两层BP网络实现恒星光谱分类;Bailer-Jones利用多层感知神经网络和主元分析进行恒星光谱自动分类;覃冬梅等利用主元分析和最近邻分类器实现恒星光谱自动分类;刘蓉等利用小波特征对光谱星系进行分类;杨金福等提出基于核技巧与覆盖算法的光谱自动分类方法;许馨等利用核技巧将非线性问题转化为高维线性问题并利用线性判别分析算法进行光谱分类;赵梅芳等提出基于自适应增强的光谱分类方法;孙士卫等提出基于数据仓库的星系光谱分类方法;张怀福等利用小波包和支持向量机技术对活动天体和非天体光谱分类问题展开研究;张继福等提出基于约束概念格的恒星光谱数据自动分类方法;刘蓉等提出基于贝叶斯和主元分析的光谱分类方法;李乡儒等提出基于最近邻算法的光谱分类方法;Mahdi利用自组织映射算法进行光谱分类;Navarro等利用人工神经网络进行光谱分类;刘忠宝等提出基于流形判别分析和支持向量机的恒星光谱分类方法。上述分类方法均能较好地完成天体光谱分类任务,但它们均对离群数据不敏感,分类性能甚至受离群点影响较大,因而无法完成特殊天体发现任务。
技术实现思路
为了解决现有技术的不足,本专利技术提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,该方法基于模糊最大间隔最小球模型(FuzzyLargeMarginandMinimumBallClassificationModel,FLM-MBC),该模型对离群点较为敏感,在一定程度上克服了已有分类方法在特殊天体发现方面的不足,为特殊天体发现研究提供了新的思路。在该模型中,模糊技术的引入保证将样本区别对待,这样便减少噪声点和奇异点对分类结果的影响。本专利技术为解决其技术问题所采用的技术方案是:提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,包括以下步骤:(1)对于斯隆望远镜采集回的天体光谱数据,根据每一个光谱数据的流量、峰宽和形状将其离散化,得到待处理的数据集;假设所述样本集由m1′个一般类样本和m2′个离群类样本构成,样本总数n′=m1′+m2′,m2′<<m1′;由m1′个一般类样本组成的集合中xi表示一般类样本,1≤i≤m1′,yi表示类别标签,yi=1表示该样本属于一般类;m2′个离群类样本组成的集合中xj表示离群类样本,m1′+1≤j≤n′,yj表示类别标签,yj=-1,表示该样本属于离群类;从样本集中随机选取n个样本构成训练样本集,使训练样本集中的一般类样本和离群类样本的数量分别为m1和m2,比例保持为m1/m2=m1′/m2′,样本集中除其训练样本集以外的样本组成测试样本集;(2)利用训练样本集构建基于模糊大间隔最小球分类模型,所述基于模糊大间隔最小球分类模型的最优化问题为: m i n R , c , ρ , ξ R 2 - vρ 2 + 1 v 1 m 1 Σ i = 1 m 1 s i ξ i + 1 v 2 m 2 Σ j = m 1 + 1 m 2 s j ξ j ]]>其约束条件为: s . t . | | φ ( x i ) - c | | 2 ≤ R 2 + ξ i , 1 ≤ i ≤ 本文档来自技高网
...

【技术保护点】
一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,其特征在于包括以下步骤:(1)对于斯隆望远镜采集回的天体光谱数据,根据每一个光谱数据的流量、峰宽和形状将其离散化,得到待处理的数据集;假设所述样本集由m′1个一般类样本和m′2个离群类样本构成,样本总数n′=m′1+m′2,m′2<<m′1;由m′1个一般类样本组成的集合中xi表示一般类样本,1≤i≤m′1,yi表示类别标签,yi=1表示该样本属于一般类;m′2个离群类样本组成的集合中xj表示离群类样本,m′1+1≤j≤n′,yj表示类别标签,yj=‑1,表示该样本属于离群类;从样本集中随机选取n个样本构成训练样本集,使训练样本集中的一般类样本和离群类样本的数量分别为m1和m2,比例保持为m1/m2=m′1/m′2,样本集中除其训练样本集以外的样本组成测试样本集;(2)利用训练样本集构建基于模糊大间隔最小球分类模型,所述基于模糊大间隔最小球分类模型的最优化问题为:minR,c,ρ,ξR2-vρ2+1v1m1Σi=1m1siξi+1v2m2Σj=m1+1m2sjξj]]>其约束条件为:s.t. ||φ(xi)‑c||2≤R2+ξi 1≤i≤m1||φ(xj)‑c||2≥R2+ρ2‑ξj m1+1≤j≤nξk≥0 1≤k≤n其中,c和R分别为待求的最小球的中心和半径;ρ2为待求的最小球边界与离群类样本之间的间隔;ξ=[ξ1,ξ2,...,ξn]T为待求的松弛因子;s=[s1,s2,...,sn]T为模糊因子,通过模糊隶属度函数s(x)计算得到,sk=s(xk),1≤k≤n;v、v1和v2为正常数,通过网格搜索策略获得;φ(xi)为样本x的核化形式;(3)利用Lagrangian乘子法将最优化问题转化为QP对偶形式,求得最小球的球心c,根据球心c定义决策函数;(4)利用决策函数对测试样本集中的样本进行类别判定,以判别测试样本集中的样本属于一般类或离群类。...

【技术特征摘要】
1.一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法,其特征在于包
括以下步骤:
(1)对于斯隆望远镜采集回的天体光谱数据,根据每一个光谱数据的流量、峰宽
和形状将其离散化,得到待处理的数据集;假设所述样本集由m′1个一般类样本和m′2个
离群类样本构成,样本总数n′=m′1+m′2,m′2<<m′1;由m′1个一般类样本组成的集合
中xi表示一般类样本,1≤i≤m′1,yi表示类别标签,yi=1表
示该样本属于一般类;m′2个离群类样本组成的集合中xj表示离群类样本,m′1+1≤j≤n′,yj表示类别标签,yj=-1,表示该样本属于离群类;
从样本集中随机选取n个样本构成训练样本集,使训练样本集中的一般类样本和离群类
样本的数量分别为m1和m2,比例保持为m1/m2=m′1/m′2,样本集中除其训练样本集以
外的样本组成测试样本集;
(2)利用训练样本集构建基于模糊大间隔最小球分类模型,所述基于模糊大间隔
最小球分类模型的最优化问题为:
min R , c , ρ , ξ R 2 - vρ 2 + 1 v 1 m 1 Σ i = 1 m 1 s i ξ i + 1 v 2 m 2 Σ j = m 1 + 1 m 2 s j ξ j ]]>其约束条件为:
s.t.||φ(xi)-c||2≤R2+ξi1≤i≤m1||φ(xj)-c||2≥R2+ρ2-ξjm1+1≤j≤n
ξk≥01≤k≤n
其中,c和R分别为待求的最小球的中心和半径;ρ2为待求的最小球边界与离群
类样本之间的间隔;ξ=[ξ1,ξ2,...,ξn]T为待求的松弛因子;s=[s1,s2,...,sn]T为模糊因子,
通过模糊隶属度函数s(x)计算得到,sk=s(xk),1≤k≤n;v、v1和v2为正常数,通过
网格搜索策略获得;φ(xi)为样本x的核化形式;
(3)利用Lagrangian乘子法将最优化问题转化为QP对偶形式,求得最小球的球
心c,根据球心c定义决策函数;
(4)利用决策函数对测试样本集中的样本进行类别判定,以判别测试样本集中的
样本属于一般类或离群类。
2.根据权利要求1所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方
法,其特征在于:步骤(2)中,所述模糊隶属度函数采用基于距离的隶属度函数:
s ( x i ) = 1 - | | x i - x ‾ | | r + δ ]]>其中,为训练样本集的类中心,即训练样本集中所有样本的均值,r为训练样本
集的类半径且δ为正数,其取值范围为(10-3,10-2),它保证s(xi)>0。
3.根据权利要求1所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方
法,其特征在于:步骤(3)所述利用Lagrangian乘子法将最优化问题转化为QP对偶
形式,具体包括以下过程:
将基于模糊大间隔最小球分类模型的最优化问题表示为Lagrangian函数为:
L ( R , c , ρ , ξ , α , β ) = R 2 - vρ 2 + 1 v 1 m 1 Σ i = 1 m 1 s i ξ i + 1 v 2 m 2 Σ j = m 1 + 1 n s j ξ j + Σ i = 1 m 1 α i ( | | φ ( x i ) - c | | 2 - R 2 - ξ i ) - Σ j = m 1 + 1 n β j ( | | φ ( x j ) - c | | 2 - R 2 - ρ 2 + ξ j ) - Σ k = 1 n β k β k ]]>其中,αi和βj为拉格朗日乘子且αi>0,βj>0;
对L(R,c,ρ,ξ,α,β)分别对R、c、ρ、ξ、α和β进行求导并令导数为0,得到:
∂ L ∂ R = 2 R ( 1 - Σ i = 1 n α i y i ) = 0 ]]> ∂ L ∂ ρ = 2 ρ ( Σ j = m 1 + 1 n ...

【专利技术属性】
技术研发人员:刘忠宝赵文娟杨秋翔
申请(专利权)人:中北大学
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1