基于约束频繁模式的天体光谱数据相关性分析方法及系统技术方案

技术编号:2550019 阅读:241 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种天体光谱数据相关性分析方法,用于天体光谱知识的发现。首先对天体光谱数据进行归一化和离散化处理,形成面向天体光谱数据相关性分析的数据集;其次利用背景知识和最小支持度,构造出天体光谱的约束频繁模式树,并挖掘约束频繁模式;最后依据最小置信度,由约束频繁模式,生成描述光谱数据特征与物理化学性质之间相关性的关联规则。本发明专利技术与现有技术相比,提出一种新的天体光谱数据相关性分析方法,和一种约束频繁模式树构造及约束频繁模式挖掘方法,以适应天体光谱数据的高维、海量、稀疏的特征,并在此基础上,给出了基于约束频繁模式的天体光谱数据相关性分析系统。

【技术实现步骤摘要】

本专利技术涉及一种天体光谱数据分析与处理领域,具体来说是涉及一种天体光谱数据的相关性分析方法及其系统。
技术介绍
天文学是依赖于观测的基础研究科学,观测设备的先进程度就决定了天文学的发展水平,因而天文光谱的实测能力成为学科前进中的一个严重的“瓶颈”。目前天文光谱“瓶颈”的主要难题之一,是天文望远镜设计上难以做到兼备大口径和大视场。迄今为止,由“成像巡天”记录下来的数以百亿计的天文目标中,只有很小一部分(约万分之一)进行过光谱测量。天体光谱测量效率低的原因是分光之后探测器上的光流量减少,而且一台望远镜同一时间只能观测一个天体的光谱,不同于成像观测,一次可以同时记录下成千上万个目标。解决光谱测量的低效率,首先需要能够测量多个天文目标光谱的技术。同时,要做到跨世纪所需要的大天区范围内的大规模光谱测量,还必须具备两个条件一是望远镜口径必须足够大,二是由于待测天体分布在全天(约4万平方度),望远镜必须有足够大的视场。可是普通4米级望远镜视场只有十分之几度(约合0.1平方度)。现有的施密特望远镜视场虽有五、六度(合二十几平方度),但是受施密特改正板材料和工艺的限制口径只有一米多。我国计划建造的LAMOST(The Large Sky Area Multi-Object Fiber SpectroscopicTelescope)是一架横卧南北方向的中星仪式反射施密特望远镜。它具有4m口径,采用多镜面加主动光学技术和并行可控式光纤定位创新技术,在1.5h曝光时间内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光谱。LAMOST相对于在5度视场的1.75m焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000个天体的光谱,因此它将成为大口径兼大视场光学望远镜的世界之最,而且是天体光谱获取率最高的望远镜。预计每个观测夜晚将收集2到4万条光谱的数据,LAMOST所观测到的光谱数据容量将有可能达到4TB。从海量天体光谱数据提取光谱数据特征和物理化学性质之间存在的、隐含的相关性知识,对探索宇宙具重要的理论和实践意义。这些规律主要还是通过经验手段和人工获得,但对于如此庞大的数据,利用传统人工分析数据的方式将无法满足实际需求,而且通过人工获得的知识不够准确,甚至是模糊的。因此,急需一种新的以计算机为主的数据分析技术来解决这一问题。关联规则描述数据集中项目之间存在的关联关系,因此采用关联规则来描述、分析光谱数据特征和物理化学性质之间存在的相关性是可行性的和有价值的。数据挖掘(datamining)是一个从大量的数据中发现潜在知识的过程,是半自动或自动的从海量数据中发现模式、相关性、变化、反常规律性的过程。关联规则是数据挖掘领域中重要的研究内容之一,描述了交易数据集属性之间存在的某种关联关系。自从1993年以来,数据挖掘领域的研究者在挖掘关联规则上做了大量工作,使之成为一个具有重要意义和实用价值的数据挖掘技术。关联规则挖掘主要分为两步一是生成所有频繁模式集;二是由频繁模式集生成联规则。由于第二步容易实现,因此关联规则挖掘的效率主要取决于频繁模式挖掘。目前,频繁模式挖掘主要采用Apriori和FP-tree两类方法,Apriori方法的优点是思路比较清晰,以递归统计为基础,剪切生成频繁集;主要缺点是,在生成频繁模式的过程中,需要产生大量的候选项和多次遍历数据库,I/O代价太高,难以适应海量高维数据。FP-tree方法是J.Han提出的不产生候选项目集挖掘方法,主要缺点是FP树需要占用大量内存。近年来,国内外学者对关联规则挖掘进行了深入研究,大多数是FP-tree的改进方法,有以下共同缺点,第一目前没有作为天体光谱数据数据相关性分析手段;第二效率上不能适应天体光谱数据的海量、高维和稀疏等特征;第三构造的FP树过于庞大,且没有针对性。本专利技术受到了国家自然科学基金(60573075)和山西省自然科学基金(2006011041)项目的资助。
技术实现思路
为了解决天体光谱数据相关性分析的问题,本专利技术提供一种基于约束频繁模式的天体光谱数据相关性分析方法,该方法以关联规则,来描述天体光谱波的特征同其物理化学性质之间存在的、未知的相关性(天体规律),使其成为一种天体光谱数据相关性分析手段。在此方法的基础上,提供一种基于约束频繁模式的天体光谱数据相关性分析系统。完成上述专利技术任务的方案是一种基于约束频繁模式的天体光谱数据相关性分析方法,以发现天体光谱波的特征同其物理化学性质之间存在的、未知的相关性(天体规律),具体步骤如下a.对天体光谱数据进行归一化、离散化处理,生成用于相关性分析的天体光谱数据集;b.取得背景知识的描述并设定最小支持度,根据所述背景知识和所述最小支持度构造出天体光谱数据集的约束频繁模式树,并在约束频繁模式树上挖掘出约束频繁模式;c.设定最小置信度,根据所述最小置信度和所述约束频繁模式,挖掘出描述天体光谱数据特征与其物理化学性质之间相关性的关联规则。所述步骤b更具体包括以下步骤b1、利用一阶谓词逻辑描述背景知识,并设定衡量关联规则重要程度的最小支持度; b2、扫描天体光谱数据集,判断天体光谱数据集中的每一条交易数据是否满足所述背景知识,从而将原数据集中的交易数据,分解为两个不相交的交易数据子集,并采用满足背景知识的交易数据子集和设定的最小支持度,构造天体光谱数据集的约束频繁模式树;b3、利用设定的最小支持度和约束频繁模式树,挖掘出天体光谱数据的约束频繁模式;所述步骤c具体是指找出约束频繁模式后,计算每一个频繁模式的置信度,将其与用户设定的最小置信度相比较,以得到关联规则,并且在获取关联规则之后给出每一条规则的具体含义。所要处理的天体光谱数据为高维、海量、稀疏数据,其中高维是指天体光谱数据的属性达到了1000维以上;海量是指LAMOST望远镜每天要获取将近4T的数据量;稀疏是指任何一条天体光谱数据的重要信息,可用某些特征线上体现出来。一种基于约束频繁模式的天体光谱数据相关性分析系统,包含以下装置天体光谱数据预处理装置,用于对天体光谱数据进行归一化、离散化处理,生成用于相关性分析的天体光谱数据集;约束频繁模式树的构造装置,用于取得背景知识的描述并设定最小支持度,根据所述背景知识和所述最小支持度构造出天体光谱数据集的约束频繁模式树;约束频繁模式的挖掘装置,用于在所述约束频繁模式树上挖掘出约束频繁模式;关联规则挖掘装置,用于设定最小置信度,根据所述最小置信度和所述约束频繁模式,挖掘出描述天体光谱数据特征与其物理化学性质之间相关性的关联规则。基于约束频繁模式的天体光谱数据相关性分析系统,其特征在于所述天体光谱数据预处理装置对天体光谱数据的归一化先采用中值滤波器方法进行处理,并根据光谱形状、流量、峰宽等特征,进行离散化处理,建立用于相关性分析的天体光谱数据集。基于约束频繁模式的天体光谱数据相关性分析系统,其特征在于所述约束频繁模式树的构造装置根据背景知识和设定最小支持度,构造出天体光谱数据集的约束频繁模式树。基于约束频繁模式的天体光谱数据相关性分析系统,其特征在于所述频繁模式挖掘装置在约束频繁模式树上,根据最小支持度挖掘出约束频繁模式。基于约束频繁模式的天体光谱数据相关性分析系统,其特征在于所述关联规则挖掘装置将设定最本文档来自技高网
...

【技术保护点】
一种基于约束频繁模式的天体光谱数据相关性分析方法,其特征在于:a.对天体光谱数据进行归一化、离散化处理,生成用于相关性分析的天体光谱数据集;b.取得背景知识的描述并设定最小支持度,根据所述背景知识和所述最小支持度构造出天体光谱数据集的约束频繁模式树,并在约束频繁模式树上挖掘出约束频繁模式;c.设定最小置信度,根据所述最小置信度和所述约束频繁模式,挖掘出描述天体光谱数据特征与其物理化学性质之间相关性的关联规则。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵旭俊张继福蔡江辉胡立华杨海峰
申请(专利权)人:太原科技大学
类型:发明
国别省市:14[中国|山西]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1