一种基于聚类方法的测量数据粗大误差处理系统及处理方法技术方案

技术编号:3853838 阅读:476 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于聚类方法的测量数据粗大误差处理系统及处理方法,该系统包括测量数据获取模块、测量数据库模块、特征提取模块、特征库模块、聚类方法选择模块、聚类结果模块、规则提取模块、规则库模块和报告生成模块。本发明专利技术方法首先从采集系统获取数据;然后选择剔除粗大误差的模式,利用已有规则或采用聚类方法直接处理;最后显示处理结果。本发明专利技术分析了目前各种测量数据的特点,解决了传统统计方法的不足,在无需知道数据集分布的情况下对数据进行处理,同时提供对多维测量数据的处理过程,对大规模数据同样适用,不仅使得可检测的范围扩大,同时提高了粗大误差处理的效率,同时该系统具有可扩展性。

【技术实现步骤摘要】

本专利技术属于测量数据分析和处理领域,具体涉及一种基于聚类方法的测量数据粗大误差 处理系统及方法。
技术介绍
目前自动测试系统和各种形式的数据采集系统在各行各业得到了广泛的应用,随着计算 机技术、微电子技术、通信技术以及信息技术的发展,各种智能系统越来越广泛地应用于测 试系统,传统的电子测量仪器将逐渐被智能电子测量仪器所代替。智能电子测量系统中一般 是应用微处理器(Microprocessing Unit,简称为MPU)通过模数(Alalog/Digital,简 称为A/D)转换器对被测信号进行多次重复采样,然后对采样数据进行处理,如数字滤波、 傅立叶变换、频谱分析。为了获得比较准确的测量结果,必须保证采样数据的准输性。但实 际测量过程中,不可避免地会受到测量工具、方法、环境因素的影响从而产生测量误差。寻 找测量误差的来源,分析和研究其规律,对减少误差,提高测量准确度是十分重要的。粗大误差是指由于测量人员的主观原因或客观外界条件的原因而引起的歪曲测量结果的 数据。为了通过测量数据而获得被测量真值的正确估计,在对测量数据进行数据处理前,必 须剔除其中含有粗大误差的数据。目前,判别粗大误差的方法主要是基于统计学原理的方法,常用粗大误差的判定准则有 莱特准则、肖维勒准则、格罗布斯准则、罗曼诺夫斯基准则,这些方法在实际工程和理论分 析过程中占据了主要地位。但对于实际测量数据来说,往往不能保证其满足某种概率分布, 若此时仍采用统计方法来判别其是否含有粗大误差,则不一定会获得可靠的判别结果。针对 以上情况,相继出现了采用信息熵判别法和灰色判别法的非统计方法来对测量数据中的粗大 误差进行判别。另外,测量系统获得的数据量是非常丰富的,如果釆用上述的各种方法进行计算的话, 是一种不可取的方法,同时目前的智能仪器和数据釆集系统往往同时获取多个参数的信息, 需要充分考虑各个参数的特性,来进行粗大误差数据的剔除工作。通过上述分析,可以发现传统的剔除粗大误差的方法一般都是对于单维、小数据量的处理过程,即对单个参数单独进行测量、单独进行分析,忽略了多个参数之间的耦合关系,即 对于多维数据具有一定的局限性,同时对于每次测量过程都需要进行计算、分析,没有形成 相应的误差判定规则,大多数依靠测量人员的人工分析,处理过程时间复杂度很高,这与目 前测量仪器的发展趋势和技术水平严格不符,目前的仪器一般都属于智能仪器的范畴,与计 算机间具有通讯接口,因此可以直接将测量数据输入计算机,由相应的误差分析系统进行处 理。聚类是将物理或抽象对象的集合分成相似的对象类的过程,也是形成若干个簇的过程, 簇是数据对象的集合,这些对象与同一个簇中的对象彼此相似,而与其它簇中的对象相异。 聚类可以在没有任何先验知识的前提下,得到数据间的类别关系,同时与其它方法相比该方 法适用于多维数据和海量数据,所以又把聚类称为数据分割,因为它根据数据的相似性把大 型数据集合划分为组。聚类方法主要包括基于划分的方法、基于层次的方法、基于密度的方 法、基于网格的方法和基于模型的方法,其中k-means即k均值方法是一种最基本的方法。 目前聚类已经广泛应用于许多应用领域,包括市场研究、模式识别和图像处理,根据聚类方 法的特性,可以将其应用在误差分析方面。 专利技术 内 容本专利技术的目的是提出一种基于聚类方法的粗大误差处理系统,系统可以融合目前各种数 据采集和测试系统的特点,同时不需考虑数据的分布情况,因此相对于传统的粗大误差处理 方法具有更广泛的意义。本专利技术的系统既适用于传统的采集系统处理过程,也就是对同一参 数进行多次测量后进行人工分析的过程,更适用于目前的广义釆集系统的处理过程,即对多 个测量参数进行多次测量的过程;同时根据处理结果可以采用自学习的机制,获取相应的粗 大误差判定规则。所述的基于聚类方法的粗大误差处理系统包括测量数据获取模块、测量数据库模块、 特征提取模块、特征库模块、聚类方法选择模块、聚类结果模块、规则提取模块、规则库模 块和报告生成模块,其中测量数据获取模块用于从采集系统获取相应的测量数据,并将数据 提供给测量数据库模块。系统包括两种工作模式。 一种是利用聚类方法直接进行粗大误差处理,首先特征提取模 块根据测量数据的维数采用降维处理,获取最能够体现粗大误差特性的参数作为聚类方法的 输入特征;另外根据测量数据源特性的不同,聚类方法选择,莫块提供了不同的处理方法,用户可以进行选择,选择了特定的聚类方法后,得到相应的类别结果,此时可以直接将没有归 属的数据点划归为含有粗大误差的数据,直接剔除。同时类别结果作为规则提取模块的输入 参数,利用规则自动获取方法得到粗大误差判定规则,并将规则存入规则库模块,报告生成 模块将具体过程形成检测报告并输出,并在人机界面上进行显示。另外用户可以直接根据巳有的规则进行粗大误差的处理,测量数据获取模块获取当前的 测量数据,同时系统从规则库模块中提取相应的粗大误差判定规则,根据相应的判定规则剔 除含有粗大误差的数据,同时报告生成模块将具体过程形成检测报告并输出,并在人机界面 上进行显示。 本专利技术的优点在于(1) 不但适用于单维测量数据的粗大误差处理,在多维数据处理方面同样具有优势;(2) 进行误差分析工作时,无需知道测量数据的统计分布;(3) 对于大数据量的测量数据集同样具有快速的处理能力;(4) 可以得到粗大误差的判别规则,便于用户处理;(5) 利用聚类方法研制相应的粗大误差处理系统,便于从采集系统获取数据进行分析,无 需人工分析和计算。附图说明图1是本专利技术基于聚类方法的测量数据粗大误差处理系统结构图2是本专利技术基于聚类方法进行粗大误差判别的处理方法流程图3是本专利技术利用已有规则直接处理的流程图4是本专利技术直接利用聚类方法进行处理的流程图。 图中 1.测量数据获取模块2.测量数据库模块 3.特征提取模块4.特征库模块 5.聚类方法选择模块6.聚类结果模块 7.规则提取模块 8.规则库模块 9.报告生成t莫i央 具体实施例方式下面将结合附图和实施例对本专利技术作进一步的详细说明。本专利技术是一种基于聚类方法的测量数据粗大误差处理系统,该系统的结构如图1所示, 包括测量数据获取模块l、测量数据库模块2、特征提取模块3、特征库模块4、聚类方法选 择模块5、聚类结果模块6、规则提取模块7、规则库模块8和报告生成模块9。其中测量数8据获取模块1与测量数据库模块2连接,并向测量数据库模i央2发送数据;测量数据库模块 2分别与特征提取模块3和规则库模块8连接,并分别向特征提取模块3和规则库模块8发 送数据;特征提取模块3分别与特征库模块4和聚类方法选择模块5连接,并分别向特征库 模块4和聚类方法选择模块5发送数据;聚类方法选择模块5与聚类结果模块6连接,并向 聚类结果模块6发送数据;聚类结果模块6分别与规则提取模块7和报告生成模块9连接, 并分别向规则提取模块7和报告生成模块9发送数据;规则提取模块7与规则库模块8连接, 并向规则库模块8发送数据;规则库模块8与报告生成模块9连接,并向报告生成模块9发 送数据。其中测量数据获取模块1是本专利技术的粗大误差处理系统与目前各种采集系统的接口,采 集系统可以是目前的各种智能仪器系统和参数采集系统,例如环境本文档来自技高网...

【技术保护点】
一种基于聚类方法的测量数据粗大误差处理系统,其特征在于:该系统包括测量数据获取模块(1)、测量数据库模块(2)、特征提取模块(3)、特征库模块(4)、聚类方法选择模块(5)、聚类结果模块(6)、规则提取模块(7)、规则库模块(8)和报告生成模块(9); 测量数据获取模块(1)与测量数据库模块(2)连接,并向测量数据库模块(2)发送数据;测量数据库模块(2)分别与特征提取模块(3)和规则库模块(8)连接,并分别向特征提取模块(3)和规则库模块(8)发送数据;特征提取模块( 3)分别与特征库模块(4)和聚类方法选择模块(5)连接,并分别向特征库模块(4)和聚类方法选择模块(5)发送数据;聚类方法选择模块(5)与聚类结果模块(6)连接,并向聚类结果模块(6)发送数据;聚类结果模块(6)分别与规则提取模块(7)和报告生成模块(9)连接,并分别向规则提取模块(7)和报告生成模块(9)发送数据;规则提取模块(7)与规则库模块(8)连接,并向规则库模块(8)发送数据;规则库模块(8)与报告生成模块(9)连接,并向报告生成模块(9)发送数据; 其中测量 数据获取模块(1)是与目前各种采集系统的接口,采集系统包括目前的各种智能仪器系统和参数采集系统,测量数据获取模块(1)能够同时获取多种类型的测量数据,并将测量数据发送给测量数据库模块(2); 测量数据库模块(2)将从测量数据获取模块( 1)得到的数据按照设计好的数据库格式存储到相应的数据库表中,数据是单维的数据或多维的数据,数据采用统一的数据库模块结构;测量数据包括测量数据的基本信息和测量数据的具体数值信息,测量数据的基本信息包括采集系统的名称、采集参数的名称和标号,测量数据的具体数据信息包括测量的次数和相应的测量结果,其通过标号与采集参数关联; 特征提取模块(3)通过相应简化属性的处理方法,在能够保留住数据的最重要特性的同时,将测量的属性进行简化处理,进而减少运算过程;特征提取模块(3)将处理后的属 性发送到特征库模块(4)中;特征提取模块(3)采用主成分分析方法,根据特征值的大小按照从大到小的次序为特征向量排序,得到一个由具有数据协方差最大值的第一个特征向量所表示的正交基;找到这组数据按照能量最大化的排列方式所指示的方向; 聚类 方法选择模块(5)提供不同种类的聚类方法,用户根据具体应用进行选择,同时利用不同的方法分别进行处理,寻求最适合的解决方案,进而...

【技术特征摘要】

【专利技术属性】
技术研发人员:路辉郎荣玲路倩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1