一种铁路信号集中监测系统数据清洗方法及系统技术方案

技术编号:38644264 阅读:17 留言:0更新日期:2023-08-31 18:35
本发明专利技术属于轨道交通信号处理技术领域,特别涉及一种铁路信号集中监测系统数据清洗方法及系统,首先通过将铁路信号的原始监测数据划分到不同级别的桶中进行处理,再分别对最小单元的桶内的监测数据进行单独清洗和分析,再将分析后的数据进行逐级合并;上述方法可以将监测数据中同类型、同时间段或者相似度较大的监测数据分开处理,可以简化整个数据清洗的难度,也可以节省聚类分析的时间,可以更为有效地识别和处理异常数据,通过补全或者剔除异常数据的方式,从而提高数据的质量,同时因为该方法中可以对数据进行预处理,从而减少模型需要处理的数据量,提高模型的效率和准确性,也可以缓解模型准确度不够的问题。可以缓解模型准确度不够的问题。可以缓解模型准确度不够的问题。

【技术实现步骤摘要】
一种铁路信号集中监测系统数据清洗方法及系统


[0001]本专利技术属于轨道交通信号处理
,特别涉及一种铁路信号集中监测系统数据清洗方法及系统。

技术介绍

[0002]铁路信号集中监测系统是一个重要的安全保障系统,其主要作用是实时监测铁路信号系统的状态,并在发生故障或异常情况时及时进行报警和处理。但是由于网络波动、设备老化、环境变化等原因,采集到的数据存在一定程度的噪声和误差,这会对监测系统的报警精度造成一定的影响。
[0003]现有技术中,公开号为CN111090619A的中国申请采用基于哈希的对Map输出的中间数据的优化技术对轨道交通监测大规模流数据进行快速处理;通过采用Hash桶的方式,将具有相同key值的(ki,value)对散列到同一个桶,ki表示数据编号,value为映射的数据,在内存中,以Hash B+树作为存储结构;指定一个范围的重要key值,设计Hash函数h1,通过h1将Map的输出结果分成n个桶,其中第一个桶为D1,使D1包含这些重要的key值,以进行快速的处理。公开号为CN109918367B的中国专利提出了一种结构化数据的清洗方法,通过在当前待清洗的结构化数据中提取出至少一个键值对数据,将各键值对数据划分到与其对应的当前属性分桶中;按照当前属性分桶对应的特征转换规则,将各个键值对数据对应的对象数据转换为各个对象数据对应的当前特征矩阵;采用通用的数据清洗方法将各个键值对数据清洗为与其对应的语义可用的键值对数据;采用基于约束规范体系schema的数据清洗方法将各个语义可用的键值对数据清洗为各个目标键值对数据。上述清洗算法虽然将待清洗的数据进行了分桶处理,但对于每个桶内的数据的划分规则和每个桶内的特征转换规则较为复杂,且基于哈希的优化技术和结构化数据清洗方法适用于特定类型的数据,对于较为复杂的数据类型则难以处理。

技术实现思路

[0004]为了解决或者部分解决现有数据清洗方法中所存在的缓解数量质量不高和模型准确度不够的问题,本专利技术提出了一种铁路信号集中监测系统数据清洗方法,所述方法包括以下步骤:按照设定规则对原始监测数据进行分桶,包括外部桶和将每个外部桶划分后的内部桶;采用逐一处理的方法对所述内部桶中的原始监测数据进行分别清洗;将每个内部桶中清洗后的监测数据进行整合。
[0005]进一步地,所述原始监测数据包括从铁路信号系统或设备的对应传感器或监测设备中采集的实时数据。
[0006]进一步地,所述按照设定规则对原始监测数据进行分桶,包括:按照设定规则将原始监测数据划分为多个外部桶;
将每个外部桶划分为包含相同数量原始监测数据的内部桶。
[0007]进一步地,所述设定规则包括时间序列、数据的极限值或者数据类型。
[0008]进一步地,所述将每个外部桶划分为包含相同数量原始监测数据的内部桶,具体包括:使用均匀分割或等间隔分割的方法进行划分。
[0009]进一步地,所述采用逐一处理的方法对所述内部桶中的原始监测数据进行分别清洗,具体包括:对每个内部桶内的原始监测数据进行数据清洗,并对清洗后的监测数据进行聚类分析;其中,所述数据清洗包括识别和剔除原始监测数据中的异常数据,所述异常数据包括重复数据和不完整数据;所述数据清洗还包括去除原始监测数据中的噪声、干扰和非信号数据。
[0010]进一步地,所述对每个内部桶内的监测数据进行聚类分析,包括:在每个内部桶中选取k个监测数据点,作为聚类中心;计算每个监测数据点分别到k个聚类中心的聚类;将每个监测数据点分到最近的聚类中心,形成k个簇;重新计算每个簇的质心,直到质心的位置不再发生变化或者达到设定的迭代次数;按照上述步骤将每个监测数据点分配到不同的聚类中心,得到每个内部桶中的聚类结果。
[0011]进一步地,在所述将每个内部桶中清洗后的监测数据进行整合,还包括:将由同一个外部桶划分的所有内部桶内的监测数据的聚类结果进行合并,得到每个外部桶的聚类结果;将所有外部桶的聚类结果进行整合,得到所有监测数据的聚类分析结果。
[0012]另一方面,本专利技术还提出了一种铁路信号集中监测系统数据清洗系统,所述数据清洗由数据处理模块实现,所述数据处理模块包括:数据划分单元,用于按照设定规则对原始监测数据进行分桶,包括外部桶和将每个外部桶划分后的内部桶;数据清洗单元,用于采用逐一处理的方法对所述内部桶中的原始监测数据进行分别清洗;数据整合单元,用于将每个内部桶中清洗后的监测数据进行整合。
[0013]进一步地,所述系统还包括数据采集模块、数据传输模块和数据显示模块;其中,数据采集模块,用于从不同的传感器或监测设备中采集原始监测数据,并将所述原始监测数据转换为数字信号;数据传输模块,用于将所述原始监测数据发送至数据处理模块;数据显示模块,用于将整合后的监测数据以图形化或表格化的形式展示给用户。
[0014]第三方面,本专利技术还提出了一种铁路信号集中监测系统数据清洗的电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完
成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现述的铁路信号集中监测系统数据清洗方法。
[0015]第四方面,本专利技术提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的铁路信号集中监测系统数据清洗方法。
[0016]本专利技术的有益效果:本专利技术首先通过将铁路信号的原始监测数据划分到不同级别的桶中进行处理,再分别对最小单元的桶内的监测数据进行单独清洗和分析,再将分析后的数据进行逐级合并;上述方法可以将监测数据中同类型、同时间段或者相似度较大的监测数据分开处理,可以简化整个数据清洗的难度,也可以节省聚类分析的时间,可以更为有效地识别和处理异常数据,通过补全或者剔除异常数据的方式,从而提高数据的质量,同时因为该方法中可以对数据进行预处理,从而减少模型需要处理的数据量,提高模型的效率和准确性,也可以缓解模型复杂度不够的问题。并且本专利技术提出的清洗算法通过分桶处理后可以缓解数据质量不高和模型准确度不够的问题,可以进一步提高数据精度。
[0017]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1示出了本专利技术实施例中的铁路信号集中监测系统数据清洗系统的结构示意图;图2示出了本专利技术提出的一种铁路信号集中监测系统数据清洗算法的流程图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种铁路信号集中监测系统数据清洗方法,其特征在于,所述方法包括以下步骤:按照设定规则对原始监测数据进行分桶,包括外部桶和将每个外部桶划分后的内部桶;采用逐一处理的方法对所述内部桶中的原始监测数据进行分别清洗;将每个内部桶中清洗后的监测数据进行整合。2.根据权利要求1所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述原始监测数据包括从铁路信号系统或设备的对应传感器或监测设备中采集的实时数据。3.根据权利要求1或2所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述按照设定规则对原始监测数据进行分桶,包括:按照设定规则将原始监测数据划分为多个外部桶;将每个外部桶划分为包含相同数量原始监测数据的内部桶。4.根据权利要求3所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述设定规则包括时间序列、数据的极限值或者数据类型。5.根据权利要求3所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述将每个外部桶划分为包含相同数量原始监测数据的内部桶,具体包括:使用均匀分割或等间隔分割的方法进行划分。6.根据权利要求1所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述采用逐一处理的方法对所述内部桶中的原始监测数据进行分别清洗,具体包括:对每个内部桶内的原始监测数据进行数据清洗,并对清洗后的监测数据进行聚类分析;其中,所述数据清洗包括识别和剔除原始监测数据中的异常数据,所述异常数据包括重复数据和不完整数据;所述数据清洗还包括去除原始监测数据中的噪声、干扰和非信号数据。7.根据权利要求6所述的铁路信号集中监测系统数据清洗方法,其特征在于,所述对每个内部桶内的监测数据进行聚类分析,包括:在每个内部桶中选取k个监测数据点,作为聚类中心;计算每个监测数据点分别到k个聚类中心的聚类;将每个监测数据点分到最近的聚类中心,形成k个簇;重新计算每个簇的质心,直到质心的位置不再发生变化或者达...

【专利技术属性】
技术研发人员:杨睿赵浩森张宁尹春雷胡轶超
申请(专利权)人:中国铁路通信信号股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1