System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一项面对柴电混合动力系统的多源异构数据清洗方法技术方案_技高网

一项面对柴电混合动力系统的多源异构数据清洗方法技术方案

技术编号:45009291 阅读:4 留言:0更新日期:2025-04-18 16:55
本发明专利技术公开了一种面对柴电混合动力系统的多源异构数据清洗方法,该方案改进了HoloCleanEX技术,在核心层加入了层次约减分类清洗(HRSC)策略,该方案在交互层对数据清洗的全过程进行监控和控制,通过交互层输入清洗数据参数和规则。数据由输入层接入,在输入层进行格式转换和提取元数据。再经过核心层进行数据清洗,核心层加入了层次约减分类清洗(HRSC)策略,处理过后最后经过导出层进行输出,将清洗后的数据转换为用户所需要的格式。HRSC策略通过层次约减减少数据清洗的工作量,降低数据清洗的难度,保证数据清洗的准确率。本发明专利技术解决柴电混合动力系统的多源异构数据清洗难题,为混合动力系统的故障诊断提供支持。

【技术实现步骤摘要】

专利技术提供了一种基于holohrsc数据清洗方法,涉及数据清洗领域,针对解决柴电混合动力系统的多源异构数据的清洗问题。


技术介绍

1、在混合动力系统中,数据的来源多样,包括传感器、监控设备、用户交互等,这些数据在格式、结构和质量上存在差异,形成了多源异构数据。这些数据中可能包含错误、缺失值,如果不进行清洗,将影响数据分析的准确性和可靠性,进而影响系统决策的有效性。数据清洗是确保数据质量的关键步骤,它能够识别和纠正数据中的错误,填补缺失值,消除不一致性,从而提高数据的可用性。清洗后的数据能够为系统提供更加准确和可靠的信息,支持更有效的故障诊断、性能优化和预测维护,是实现混合动力系统智能化和自动化的重要基础。因此,对混合动力系统的多源异构数据进行清洗,可以确保数据的准确性和可用性,从而提高整个系统的运行效率和可靠性。holocleanex在处理柴电混合动力系统多源异构数据时具有显著优势。其强大的数据清洗能力能够有效处理缺失值、噪声和异常数据,且支持多源异构数据的融合,提升数据一致性。holocleanex也存在一些缺点,采用弱监督学习策略的数据清洗技术,对大量的冗余数据做处理时不能降低大数据集冗余程度,在大规模数据处理时运行较慢,同时其模型的可解释性较差,清洗和处理过程不够透明。

2、在此背景下,基于holocleanex专利技术了一种holohrsc数据清洗方法,增加了基于web应用的实时反馈交互平台,强化清洗和处理过程的透明性,创新性的在核心层加入了层次约减分类清洗(hrsc)策略,根本上约减不相关或者冗余的数据源,减少了数据清洗工作量,通过属性权重完成树增广贝叶斯tan网络的构建,利用概率值完成不同领域数据的分类清洗,提高数据清洗的精度。柴电混合动力系统的关键数据得到了清洗,大大减少了系统各部件关键数据的信息量,那么对系统的状态监测更加有效。


技术实现思路

1、针对上述问题,本专利技术提供了一种基于holohrsc数据清洗方法,用于解决混合动力系统的多源异构数据的清洗问题。

2、为了实现上述目标,本专利技术采用如下技术方案:

3、基于holohrsc数据清洗技术,包含以下内容:交互层,输出层,核心层,导出层。

4、对于交互层,提供了一个基于web应用的实时交互反馈平台,此平台功能如下:

5、交互层实现服务器和客户端之间的实时双向通信,用户可以在交互层观测混合动力系统各个重要部件详细的参数,

6、制定数据清洗的参数。

7、系统可以监控日志文件,实时捕捉数据处理的关键信息,用户可以浏览待清洗的数据集,查看数据的基本结构和属性,如列名、数据类型、空值比率、重复值比率等。常出现的数据类型有:数值型数据(发动机转速、电池充放电次数),结构化数据(表格数据),传感器数据(温度传感器、压力传感器)。

8、交互层通常包含一个图形用户界面(gui),它允许用户通过视觉元素(如按钮、下拉菜单、图表等)与系统进行交互,即使用户没有专业的编程或数据科学背景能够轻松理解和操作。

9、用户根据业务知识和数据特征定制自己的数据清洗方案,通过交互层输入相应的参数和规则。清洗完成后,可以在交互层查看数据清洗的结果,包括清洗前后的对比、异常值的检测和修正情况。在交互层观测到清洗后的数据,可以传入柴电混合动力系统的状态监控模块,进行实时状态监测,减小故障诊断的数据处理量。

10、对于输入层,柴电混合动力系统的各个关键部件安装有传感器,传感器会将关键部件的具体参数传入输入层,输入层负责接收和预处理来自不同来源的多源异构数据,为后续的数据清洗工作提供准备。确保数据能够被系统正确理解和处理,同时提取出对清洗过程至关重要的元数据信息。

11、数据首先被采集和导入系统。柴电混合动力系统的数据来自不同的数据库、文件系统或者实时数据流,例如电机的电流电压信号,柴油机的温度等。格式包括结构化的数据库表格、半结构化的csv或json文件,以及非结构化的文本数据等。输入层需要具备灵活的数据接入能力,以适应各种数据源和格式。

12、基于holohrsc数据清洗方法目的是处理来自不同来源且标准各异的数据集,因此在正式进行数据清理之前,输入层必须对数据进行统一的标准化。鉴于python强大的生态环境和易用的数据结构,选择python的pandas库下的dataframe数据结构作为标准化数据结构。

13、对于核心层,是基于holohrsc数据清洗方法的关键组成部分,它负责执行数据清洗的核心逻辑和算法,同样也会对web平台进行交互访问,根据柴电混合动力系统的不同工况下状态检测的要求,交互层会给核心层不同的清洗参数,本专利技术创新性的加入了层次约减分类清洗(hrsc)策略。

14、hrsc策略从根本上约减不相关或者冗余的数据源,以减少数据清洗工作量;然后通过构建tan网络进行分类清洗,解决数据清洗过程中大规模数据关联、交叉和融合的问题,通过属性权重完成树增广贝叶斯tan网络的构建,利用概率值完成不同领域数据的分类清洗,提高数据清洗的精度。

15、hrsc策略的步骤:首先通过数据源重要度度量来约减不相关或者冗余的数据源,接着通过数据密度对数据属性和元组进行权重标记,保留核心元组和边缘元组,约减离群元组。最后,利用构建好的tan网和数据概率值对不精确数据进行分类清洗,从而提高数据清洗的效率和准确率。

16、hrsc策略的核心在于通过层次约减的思想减少数据清洗的工作量,降低数据清洗的难度,同时保证数据清洗的准确率。这种方法特别适用于处理多源异构数据环境中的不精确数据,能够提高大数据的一致性、准确性、真实性和可用性

17、核心层集成了多种数据清洗算法,也会根据数据质量评估的结果和用户反馈,不断调整和优化清洗策略和算法参数,以提高清洗效果。

18、holohrsc数据清洗方法会在数据清洗完毕之后,自动根据元数据信息尝试对数据结构进行还原。holohrsc数据清洗方法的数据清洗部分建立在flask框架之上,从而可以更好地提供api服务以便对交互层的web平台开放访问。

19、对于导出层,将还原的数据保存至输入数据的相同路径,对清洗的数据进行后续操作。

20、导出层使用apm(应用性能管理)工具监控数据导出的性能指标,如延迟、吞吐量等。记录数据导出的详细日志,包括操作时间、操作员、操作结果等,以便于问题排查和审计。

本文档来自技高网...

【技术保护点】

1.一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,包含交互层,输入层,核心层,导出层;

2.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,交互层的清洗结构可视化对比使用的是ECharts开源可视化工具。

3.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,将Data Frame作为标准化的数据结构,并使用MHDP的预处理算法,该算法将每种数据类型解析为Spark Data Frame。

4.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,通过数据层次约减,对数据属性和元组进行权重标记,根据权重保留核心元组和边界元组,约减离群元组,极大地降低了数据清洗的工作量。

5.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,通过属性权重完成树增广贝叶斯TAN网络的构建进行数据分类清洗,利用TAN网完成不精确数据与精确数据的分类清洗。

6.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,核心层异常检测的算法使用聚类分析的方法:K-Means,用于识别数据中的异常群体。

7.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,数据修正和插值的算法使用的是K最近邻(KNN)来进行缺失值处理,使用多项式插值来对缺失数值的补充。

8.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,核心层采用支持向量机(SVM)找到数据中的边界,区分一致和不一致的数据。

9.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,导出层将清洗后的数据转换成用户或下游系统所需的格式,使用JavaScript对象表示法将数据结构转换为文本格式;交互层通过使用ETL即提取、转换、加载,将来自不同源的数据进行整合。

10.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,

...

【技术特征摘要】

1.一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,包含交互层,输入层,核心层,导出层;

2.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,交互层的清洗结构可视化对比使用的是echarts开源可视化工具。

3.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,将data frame作为标准化的数据结构,并使用mhdp的预处理算法,该算法将每种数据类型解析为spark data frame。

4.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,通过数据层次约减,对数据属性和元组进行权重标记,根据权重保留核心元组和边界元组,约减离群元组,极大地降低了数据清洗的工作量。

5.如权利要求1所述的一项面对柴电混合动力系统的多源异构数据清洗方法,其特征在于,通过属性权重完成树增广贝叶斯tan网络的构建进行数据分类清洗,利用tan网完成不精确数据与精确数据的分类清洗。...

【专利技术属性】
技术研发人员:高志龙于波智海峰辛博康伟祺李腾飞
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1