一种基于空中活动目标数据的挖掘方法技术

技术编号:3747541 阅读:243 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种空中活动目标数据的挖掘方法,它涉及数据挖掘应用领域中的关联及序列算法挖掘技术,本发明专利技术以传统事务型数据挖掘方法为基础,融入空间数据挖掘技术,完成从空中活动目标数据预处理、统计分析、挖掘数据抽取到挖掘结果知识解释的完整挖掘流程与策略,完成空中活动目标数据的挖掘。还具有能适合各类活动目标数据的挖掘,通过挖掘能与实时数据态势进行对比,对空中目标活动进行预测等优点。特别适用于通过计算机辅助在长期累积的空中活动目标数据中寻找未知的空中目标活动信息,提高工程应用决策能力。

【技术实现步骤摘要】

本专利技术涉及数据挖掘应用领域中的一种基于关联及序列算法挖掘技术的空中活动目标数据挖掘方法,特别适用于通过计算机辅助在长期累积的空中活动目标数据中寻找 未知的空中目标活动信息,提高工程应用决策能力。
技术介绍
目前,数据挖掘的研究领域已遍及的行业包括金融业、电信业、网络相关行业、零 售商、制造业、医疗保健、制药业及科学领域等。尽管数据挖掘应用方面的论文统计数相当 可观,但我国的数据挖掘应用尚处于尝试性的萌芽阶段,企业大规模地运用数据挖掘技术 尚不普遍,个别企业或部门仅零星地运用数据挖掘技术。在通信工程及特定领域中的数据 挖掘技术已成为工程应用关键技术。
技术实现思路
本专利技术所要解决的技术问题就是以传统事务型数据挖掘方法为基础,融入空间数 据挖掘技术,完成从空中活动目标数据预处理、统计分析、挖掘数据抽取到挖掘结果知识解 释的完整挖掘流程与策略的空中活动目标数据挖掘方法。该方法通过分析空中活动目标数 据存在依赖地域及时间,数据质量差等特点,通过聚类,分类等数据预处理手段,将原始数 据变换成适于挖掘的数据形式,建立挖掘模型,并对挖掘出的结果进行知识解释,筛选出挖 掘结果。本专利技术还具有能适合各类活动目标数据的挖掘,通过挖掘能与实时数据态势进行 对比,对空中目标活动进行预测等特点。 本专利技术的目的是这样实现的,包括步骤 ①通过对空中活动目标原始数据中的字符型字段、数值型字段的独立或结合分析 得到原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况; ②根据原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况,通过数 据清理、数据变换、分类、聚类方法填充空中活动目标原始数据中空缺值,识别孤立点,消除 噪声,划分空中活动目标的活动区域,纠正数据表现形式的不一致,完成数据预处理; ③根据数据预处理中对空中活动目标架次的统计结果,对空中活动目标主要型号 在主要时间段内的架次进行统计分析,得到空中活动目标数据量分布比较平稳的几个时间 段,根据数据预处理中划分的目标活动区域,抽取出各活动区域内的数据作为挖掘数据; ④挖掘数据过程中的调节参数包括最大规则长度,最大规则数,最小支持度,最 小置信度,名称映射,类别映射; ⑤根据空中活动目标数据量分布比较平稳的几个时间段及挖掘数据,构造空中活动目标主要型号对应到Apriori算法中的单维项集,设置关联挖掘模型,根据单个项集去查找两个或多个项集,最终挖掘出符合最小支持度与置信度的频繁集作为关联信息,根据第④步中的调节参数,反复进行符合最小支持度与置信度的关联信息的挖掘; ⑥根据空中活动目标数据量分布比较平稳的几个时间段及挖掘数据,进行序列挖掘,序列挖掘根据空中活动目标出现的先后顺序构造单维项集,依据第④、⑤步程序构建序列挖掘模型,挖掘空中活动目标的序列信息; ⑦根据挖掘出的空中活动目标的关联信息和序列信息,对挖掘结果进行归纳整理,结合空中活动目标数据的特性,筛选挖掘结果,根据挖掘结果进一步优化第⑤步中的关联挖掘模型、第⑥步中的序列挖掘模型,反复试验; 进行空中活动目标数据的挖掘。 本专利技术与
技术介绍
相比具有如下优点 1本专利技术通过对空中活动目标数据进行预处理,有效去除数据中的噪声,数据形式不一致,以及填补空缺值,提高数据质量。 2本专利技术能适合各类活动目标数据的挖掘,通过挖掘能与实时数据态势进行对比,对空中目标活动进行预测等优点。 3本专利技术通过将挖掘结果进行横向及纵向的比对,扩展了挖掘结果的知识解释,并利用挖掘结果优化挖掘模型,达到建立良好挖掘模型的目的,具有工程应用价值。附图说明 图1是本专利技术数据挖掘应用的工作流程图。 图2是本专利技术关联挖掘模型的工作流程图。 图3是本专利技术实施例的关联挖掘结果的效果示意图。图3中可以观察出规则1不仅在整体数据中存在,在每个月的数据中也存在,这说明规则1的普遍存在性。除去9月份,规则1每月得到支持度与置信度的值比较平稳。而9月却急剧下降,表明经历了 5个月的平稳表现之后,规则1可能发生了变更,这对提高决策能力非常有帮助。 图4本专利技术实施例的序列挖掘结果的效果示意图。图4中可以观察出各类空中目标间先后出现顺序,出现的间隔时间以及该挖掘结果的频度。具体实施例方式参照图l至图4,本专利技术针对空中目标数据依赖于地域,时间分布的特点,利用分类方法、聚类分析解决了目标活动区域的划分以及目标点选取的问题。然后对处理后的数据进行数据分析,掌握数据字段的质量、饱和度、取值范围,并对关联度较强的字段进行数据泛化、概要描述,在已有字段基础上进行抽象或细化,构造出字段间的概念层次树,有效扩充空中活动目标数据的知识表示,丰富挖掘结果,增强了结果可解释性。根据具体的挖掘目的定义,构造合理的挖掘模型以及如何调节挖掘算法中的内部参数,从而充分提高挖掘结果的有效性。运用单维布尔型关联算法、多层关联算法、序列算法得到空中活动目标间的挖掘结果。最后将挖掘结果进行筛选,选出普遍存在或异常的挖掘结果。 本专利技术数据挖掘应用的工作流程如图1所示,图1是本专利技术数据挖掘应用的工作流程图,本专利技术包括步骤 ①通过对空中活动目标原始数据中的字符型字段、数值型字段的独立或结合分析得到原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况。实施例本专利技术将字段划分为概念字段与数值字段。概念字段即字符型字段,存在语义概念。数值字段即数值型的字段,包括布尔型、整型、浮点型等,统计数据库中各字段的饱和程度,缺失情况。利用直方图或饼图统计得到概念字段中的概念集合。选取空中活动目标数据中的饱满数据片段,运用数据挖掘分类模式对数据字段中的概念字段进行分类学习,分析得到两字段或多字段间存在的关联关系、依赖关系,指导预处理填补空缺值。运用数据变换理论中的属性构造,如将时间属性进行拆分,得到不同粒度的新的时间属性。通过统计目标出现数量在不同时间粒度上的分布。 ②根据原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况,通过数据清理、数据变换、分类、聚类方法填充空中活动目标原始数据中空缺值,识别孤立点,消除噪声,划分空中活动目标的活动区域,纠正数据表现形式的不一致,完成数据预处理。实施例本专利技术空中活动目标数据中目标的型号以及该目标航迹点的经纬度信息、时间信息都较为完整,其它属性信息都不同程度的存在有噪声、缺失、不一致等现象,本专利技术利用忽略元组,计算机辅助填写空值,聚类,回归分析、判定树等数据清理方法来预测具有同一属性的空缺值,通过规范化,精度转换,属性构造等数据变换方法提高数据质量。 ③根据数据预处理中对空中活动目标架次的统计结果,对空中活动目标主要型号在主要时间段内的架次进行统计分析,得到空中活动目标数据量分布比较平稳的几个时间段,根据数据预处理中划分的目标活动区域,抽取出各活动区域内的数据作为挖掘数据。实施例本专利技术以挖掘出指定区域内以每日上午,中午,晚上以及星期为时间粒度的空中目标间的关联信息为目的,采用10个月的空中活动目标数据作为基本挖掘数据,并以统计分析中目标型号与之所属的目标类型构成的层次结构树进行多层关联及序列挖掘。根据预处理中对每个月目标架次的统计结果以及一天中几个主要型号在5:00-22:00的架次分布结果,观察到目标在4-9月中数据量比较平稳,并且数据量与目标架次的比值基本为2,即平本文档来自技高网
...

【技术保护点】
一种基于空中活动目标数据的挖掘方法,其特征在于该方法包括步骤:①通过对空中活动目标原始数据中的字符型字段、数值型字段的独立或结合分析得到原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况;②根据原始数据字符型字段、数值型字段间的依赖关系,值域的分布情况,通过数据清理、数据变换、分类、聚类方法填充空中活动目标原始数据中空缺值,识别孤立点,消除噪声,划分空中活动目标的活动区域,纠正数据表现形式的不一致,完成数据预处理;③根据数据预处理中对空中活动目标架次的统计结果,对空中活动目标主要型号在主要时间段内的架次进行统计分析,得到空中活动目标数据量分布比较平稳的几个时间段,根据数据预处理中划分的目标活动区域,抽取出各活动区域内的数据作为挖掘数据;④挖掘数据过程中的调节参数包括:最大规则长度,最大规则数,最小支持度,最小置信度,名称映射,类别映射;⑤根据空中活动目标数据量分布比较平稳的几个时间段及挖掘数据,构造空中活动目标主要型号对应到Apriori算法中的单维项集,设置关联挖掘模型,根据单个项集去查找两个或多个项集,最终挖掘出符合最小支持度与置信度的频繁集作为关联信息,根据第④步中的调节参数,反复进行符合最小支持度与置信度的关联信息的挖掘;⑥根据空中活动目标数据量分布比较平稳的几个时间段及挖掘数据,进行序列挖掘,序列挖掘根据空中活动目标出现的先后顺序构造单维项集,依据第④、⑤步程序构建序列挖掘模型,挖掘空中活动目标的序列信息;⑦根据挖掘出的空中活动目标的关联信息和序列信息,对挖掘结果进行归纳整理,结合空中活动目标数据的特性,筛选挖掘结果,根据挖掘结果进一步优化第⑤步中的关联挖掘模型、第⑥步中的序列挖掘模型,反复试验;进行空中活动目标数据的挖掘。...

【技术特征摘要】

【专利技术属性】
技术研发人员:颜博
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:13[中国|河北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1