System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种天文星表离群数据的挖掘方法、装置、设备及介质。
技术介绍
1、随着天文观测技术的发展,人们在短时间内获取了大量的天文数据。这些数据中,多数遵循某种已知的模式或规律,但其中往往会有一些数据与众不同,这些称之为离群值。离群值检测在天文学中具有关键的意义,因为正是这些离群值,往往会给我们带来新的科学发现或对现有理论的挑战。
2、得益于离群值检测方法的不断发展,研究人员在天文学中也进行了一些研究与应用。早期的离群检测方法主要基于统计学原理,通过假设数据服从某种特定分布,然后识别那些不符合该分布的离群数据点,如四分位距(iqr)方法、z-score方法等,都是在数据中找出离群值的常用方法。等人、feigelson等人和wall j v等人已经讨论了一些常用的统计分布,如正态分布、泊松分布、幂律分布等在天文数据分析中的应用。
3、随着机器学习技术的发展,基于这一技术的离群值检测方法被天文学家广泛应用。例如,局部离群因子、隔离森林、支持向量机等算法,已经被证明在高维数据和复杂的数据结构中表现得相当出色。baron等人使用无监督随机森林(random forest,rf)算法从210多万条斯隆数字巡天(the sloan digital sky survey,sdss)星系光谱中检测出具有极端的发射线比和异常强的吸收线、复杂速度结构、超新星爆发等400个不同的奇异星系。shakurova等人利用基于局部密度的局部异常因子(local outlier factor,lof)算法在lamost
4、值得注意的是,天文数据往往具有很高的维度,并可能包含许多不同类型的观测(如光谱、光变曲线、图像等)。因此,针对这种数据的离群值检测,往往需要更为复杂和精细的方法。在这方面,深度学习,显示出了很大的潜力。margalef-bentabol等人提出用瓦瑟斯坦生成对抗网络(wasserstein generative adversarial network,wasserstein gan)模型检测天文图像中的异常点。他们先用正常图像训练生成对抗网络(generativeadversarial network,gan),然后计算测试图像的异常分数,判断图像是否异常。该方法直接从像素空间学习复杂特征,能检测传统方法易漏掉的微小形态差异。这些方法可以学习数据的内在结构,并有效地识别那些与主要数据不符的数据点。等人提出了一种基于主动深度学习的方法,它使用卷积神经网络,并结合了类别平衡和主动学习技术,通过迭代训练并人工标注部分光谱,逐步改善模型性能,从而在lamost巡天数据中发现了大量新发射线星体候选。这些方法可以学习数据的内在结构,并有效地识别那些与主要数据不符的数据。
5、尽管离群数据的重要性被广泛认可,但在天文学中,仍然存在一些挑战和限制。传统的方法通常基于阈值或统计测试来识别离群数据,但它们对数据分布的假设敏感,可能会忽略重要的信息。此外,高维数据的处理和天文学中常见的数据不均匀性也增加了离群数据挖掘的难度。
技术实现思路
1、(一)要解决的技术问题
2、针对目前存在的技术问题,本公开提出一种天文星表离群数据的挖掘方法、装置、设备及介质,以实现了对大规模星表中离群数据有效挖掘。
3、(二)技术方案
4、为达到上述目的,本公开提供了一种天文星表离群数据的挖掘方法,包括:
5、步骤s1:对天文星表数据进行预处理;
6、步骤s2:对预处理后的天文星表数据进行有放回的mc抽样和knn算法离群数据检测,得到抽样的天文星表数据的knn离群分数;
7、步骤s3:重复执行步骤s2直至离群指数r/s收敛,得到天文星表数据的knn离群分数,然后根据天文星表数据的knn离群分数,计算天文星表数据中所有数据的离群指数r/s,将超过离群阈值的数据点视为离群点,得到天文星表数据中的离群值。
8、上述方案中,步骤s1中所述对天文星表数据进行预处理,包括:根据天文星表数据的特点,从天文星表数据集d中选择相关的特征维度f;对选取的特征维度f进行数据归一化或数据标准化处理,确保每个维度都在相似的尺度上,得到天文星表数据子集d′,其规模为n;定义两个向量r和s,规模为n。
9、上述方案中,所述特征维度f包括红移、有效温度、金属丰度、星等、视向速度中的至少一个。
10、上述方案中,所述对选取的特征维度f进行数据归一化或数据标准化处理的步骤中,
11、所述数据归一化处理,是将特征维度f中的数据缩放到一个指定的范围,如[0,1],使用如下公式:
12、
13、其中,min(f)是样本中的最小值,max(f)是样本中的最大值;
14、所述数据标准化处理是将特征维度f中的数据转换为零均值和单位方差,使用以下公式:
15、
16、其中,μ是样本均值,σ是样本标准差。
17、上述方案中,步骤s2中所述对预处理后的天文星表数据进行有放回的mc抽样和knn算法离群数据检测,得到抽样的天文星表数据的knn离群分数,包括:
18、对预处理后的天文星表数据进行有放回的mc抽样,得到规模为n(n远小于n)的数据集t;
19、对于数据集t中的每个数据点,递归地选择一个维度,并找到该维度上的中位数作为切分点,构建数据集t的kd树;
20、使用构建的kd树找到各个数据点的k(k小于n)个最近邻数据点,并计算每个数据点与其k个最近邻数据点之间的平均距离,并以此来排序数据集t,得到数据集t′;
21、将数据集t′的排序后的索引值累加到向量r中,以及将向量s相应位置加上n,得到天文星表数据的knn离群分数。
22、上述方案中,所述对预处理后的天文星表数据进行有放回的mc抽样,包括:
23、确定抽样数量n;
24、从天文星表数据子集d′中随机有放回随机抽取n个数据点,得到规模为n(n远小于n)的数据集t。
25、上述方案中,步骤s3中所述重复执行步骤s2直至r/s收敛,得到天文星表数据的knn离群分数,然后根据天文星表数据的knn离群分数,计算天文星表数据中所有数据的离群指数r/s,将本文档来自技高网...
【技术保护点】
1.一种天文星表离群数据的挖掘方法,其特征在于,包括:
2.根据权利要求1所述的天文星表离群数据的挖掘方法,其特征在于,步骤S1中所述对天文星表数据进行预处理,包括:
3.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,所述特征维度F包括红移、有效温度、金属丰度、星等、视向速度中的至少一个。
4.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,所述对选取的特征维度F进行数据归一化或数据标准化处理的步骤中,
5.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,步骤S2中所述对预处理后的天文星表数据进行有放回的MC抽样和KNN算法离群数据检测,得到抽样的天文星表数据的KNN离群分数,包括:
6.根据权利要求5所述的天文星表离群数据的挖掘方法,其特征在于,所述对预处理后的天文星表数据进行有放回的MC抽样,包括:
7.根据权利要求5所述的天文星表离群数据的挖掘方法,其特征在于,步骤S3中所述重复执行步骤S2直至离群指数R/S收敛,得到天文星表数据的KNN离群分数,然后根据天文星表数
8.一种天文星表离群数据的挖掘装置,其特征在于,包括:
9.一种电子设备,包括:
10.一种包含计算机可执行指令的计算机可读介质,其特征在于,所述计算机可执行指令被执行时实现权利要求1-7中任意一项所述的天文星表离群数据的挖掘方法。
...【技术特征摘要】
1.一种天文星表离群数据的挖掘方法,其特征在于,包括:
2.根据权利要求1所述的天文星表离群数据的挖掘方法,其特征在于,步骤s1中所述对天文星表数据进行预处理,包括:
3.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,所述特征维度f包括红移、有效温度、金属丰度、星等、视向速度中的至少一个。
4.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,所述对选取的特征维度f进行数据归一化或数据标准化处理的步骤中,
5.根据权利要求2所述的天文星表离群数据的挖掘方法,其特征在于,步骤s2中所述对预处理后的天文星表数据进行有放回的mc抽样和knn算法离群数据检测,得到抽样的天文星表数据的knn离群分数,包括:
6.根据...
【专利技术属性】
技术研发人员:邵务俊,樊东卫,崔辰州,
申请(专利权)人:中国科学院国家天文台,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。