一种用于重载铁路综合大数据平台信息共享的数据规范治理方法技术

技术编号:26970199 阅读:21 留言:0更新日期:2021-01-05 23:59
本发明专利技术涉及计算机软件技术领域,公开了一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,包括有数据接入、数据预处理、异常数据筛选清洗、数据标准化和数据发布等环节,并在数据标准化环节中,通过采用数据同趋化和无量纲化综合处理技术手段,对不同性质数据问题进行标准化处理,并把从不同系统接入的数据与重载铁路大数据平台业务主数据进行结合,可使不同源数据之间实现关联标准化,为重载铁路综合大数据平台的数据共享提供统一的路径,保证重载铁路业务数据的一致性和规范化,从而可有效解决重载铁路大数据处理过程中遇到的数据不规范问题,实现重载铁路大数据价值的最大化以及确保大数据平台信息共享的及时性,达成信息共享目的。

【技术实现步骤摘要】
一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
本专利技术属于计算机软件
,具体地涉及一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,可以实现基于重载铁路综合大数据平台的信息共享目的。
技术介绍
近年来,随着国家经济的不断发展,国内重载运输行业发挥着举足轻重的作用,同时大数据技术越来越多地在轨道交通领域得到不断发展与运用,因此,各类数字化信息平台建设对大数据平台信息共享的依赖也越来越高。由于重载铁路的行业特殊性,大数据平台信息共享是提高重载铁路管理水平、决策能力和运输效率,以及保障运输安全,支撑国家运力建设的现代化重载铁路的重要手段。重载铁路公司对铁路信息化建设高度重视,且已经展开了部分信息化建设,取得了一定的成绩和效益。但由于缺乏统一的铁路信息化规划,造成各铁路公司众多信息系统和数据标准不一,在铁路沿线不同区间站段、不同业务部门之间的很多系统建设只考虑到本单位业务开展,并没有考虑数据规模和数据质量对大数据平台及系统应用等方面的影响,缺乏从长远角度对重载铁路大数据平台数据资源进行整体统筹规划和综合治理,本文档来自技高网...

【技术保护点】
1.一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,其特征在于,包括:/n数据接入:通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器;/n数据预处理:在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;/n异常数据筛选清洗:对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;/n数据标准化:根据重载铁路业...

【技术特征摘要】
1.一种用于重载铁路综合大数据平台信息共享的数据规范治理方法,其特征在于,包括:
数据接入:通过重载铁路综合大数据平台的对外数据接口,将包含结构化文本数据、数据库数据、分散型数据和/或非结构化文本数据的源数据统一接入到平台数据源系统中,形成最初的数据容器;
数据预处理:在重载铁路的实际运行数据分析基础上对所述数据容器的数据进行数据特征及格式分析,提取待处理的数据并进行编码转换和去重的预处理;
异常数据筛选清洗:对完成预处理的数据进行数据处理逻辑判断,然后根据逻辑判断结果对判定不完整和/或不一致的异常数据进行筛选清洗,以及对判定重复出现的相似数据记录进行过滤;
数据标准化:根据重载铁路业务数据标准规范规则,对完成筛选清洗的数据进行包括数据质量评估、空值率计算、数据特征分析和/或数据格式分析的特征判断,若判定数据不符合设定标准,则对该数据提取需要的数据属性和元数据,然后经过统一处理路径进行重载铁路业务数据标准化规范处理,其中,所述进行重载铁路业务数据标准化规范处理为对重载铁路业务数据中且包括字段解释、数据来源和/或代码表的数据信息描述内容进行标准化规范处理;
数据发布:对经过筛选清洗并标准化处理的数据,在所述重载铁路综合大数据平台上进行统一地存储及发布。


2.如权利要求1所述的数据规范治理方法,其特征在于,当所述源数据分为平台内部数据和平台外部数据时,在所述数据接入前,所述数据规范治理方法还包括:
基于云计算和分布存储的采集工具对所述平台外部数据进行采集;
采用标准化和规范化的抽取手段,对采集的所述平台外部数据进行结构化、半结构化和/或非结构化资源地统一抽取、整合、加工、转换和装载,使所述平台外部数据通过所述对外数据接口汇入到所述数据容器中。


3.如权利要求1所述的数据规范治理方法,其特征在于,所述数据接入包括:
根据不同类型的数据源,按照重载铁路大数据平台数据制约规范,以表或文件为单位选择要采集的数据;
使用文件解析器对采集的文件格式进行解析,获取数据内容;
通过填补重载铁路业务遗漏数据、消除重载铁路业务异常数据、平滑重载铁路业务噪声数据,以及纠正不一致数据,去掉数据内容中的噪音、填充空值、丢失值和处理不一致数据,过滤去掉噪声和无关数据,最后将完成解析的数据结合起来存放在一个一致的数据存储模块中,形成最初的数据容器。


4.如权利要求1所述的数据规范治理方法,其特征在于,所述数据预处理包括如下方式(A)~(D)中的任意一种:
(A)根据确定重载铁路业务数据的缺失值范围,对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,依据制定策略对缺失值进行清洗;
(B)在处理预设规模的全量数据成功基础上,去除不需要的字段,以及在清洗数据时每做一步都执行备份操作,以及对简单数据直接删掉;
(C)对重载铁路业务数据进行缺失内容填充;
(D)针对指标重要且缺失率高的重载铁路业务数据,重新取数。

【专利技术属性】
技术研发人员:杨岗林建辉陈春俊刘志坚乔小龙王凯白艳涛王健慧苏燕辰李艳萍闫占强李鹏飞杜军赵宝田文李烨斌温少君路红卫黄一楠
申请(专利权)人:西南交通大学大秦铁路股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1