数据处理链构建方法、数据缩减方法、装置、设备及介质制造方法及图纸

技术编号:39003223 阅读:14 留言:0更新日期:2023-10-07 10:34
本发明专利技术公开了一种数据处理链构建方法、数据缩减方法、装置、设备及介质,数据处理链构建方法包括使数据集或数据流依次进行异常值修正、缺失值填充、数据缩放到设定的范围内、将类别型数据转化为数值型数据、保留目标变量影响超过设定阈值的特征、重构已有特征、提取时间型特征和文本型特征、对高维特征降维操作,从而减少特征维度和模型复杂度。本发明专利技术与现有技术相比,一方面可以解决工业互联网原始数据的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,另一方面可以提升工业互联网平台的执行效率,提升决策的正确性。性。性。

【技术实现步骤摘要】
数据处理链构建方法、数据缩减方法、装置、设备及介质


[0001]本专利技术涉及工业互联网
,尤其涉及一种数据处理链构建方法、数据缩减方法、装置、设备及介质。

技术介绍

[0002]工业互联网(IndustrialInternet)是指将物理设备、系统、网络和软件相互连接,实现数据采集、分析、处理和应用的一种新型工业技术。它通过物联网(InternetofThings,IoT)、大数据、云计算、人工智能等先进技术,将传统的工业生产与数字化技术相结合,为企业提供更高效、智能、可持续的生产方式。工业互联网的应用领域广泛,包括制造业、能源、交通、医疗等多个行业。在制造业中,工业互联网可以帮助企业实现智能制造、供应链管理、质量管理等方面的优化;在能源领域,它可以提高能源利用效率、降低碳排放;在交通领域,它可以实现智能交通管理、自动驾驶等创新应用;在医疗领域,它可以改善医疗服务质量、提高患者体验等。
[0003]工业互联网数据具有以下几个特征:高频率,工业互联网数据产生的速度非常快,通常以毫秒甚至微秒为单位;多样性,工业互联网数据来源广泛,包括传感器、设备、机器等,这些设备产生的数据类型各异,例如温度、压力、速度、位置等;大容量,工业互联网数据量通常很大,它涉及大量的设备和系统,这些数据包括传感器读数、设备状态、生产过程参数等;复杂性,工业互联网数据的复杂性很高,它包含许多不同的变量和因素;实时性,工业互联网数据通常是实时生成的,需要及时处理和分析;可追溯性,工业互联网数据具有可追溯性,它记录了设备的运行历史和生产过程的数据,有助于质量管理和故障排除。
[0004]在工业互联网的应用场景中,无论是实施数字孪生技术,通过收集和分析传感器数据、设备状态等信息来生成一个虚拟的数字模型;又或者是建设赛博物理系统(Cyber

PhysicalSystems,CPS),通过人机交互接口实现和物理进程的交互,使赛博空间以远程、可靠、实时、安全、协作和智能化的方式操控相应的物理实体,等等,这些应用场景都离不开数据采集、数据存储、数据清洗和预处理等工作。数据缩减可以视为数据清洗和预处理的一部分,在数据清洗和预处理过程中,通常会对数据进行筛选、过滤、去重等操作,以减少数据集的大小和复杂性,提高数据的质量和可用性。数据缩减可以帮助我们去除不必要的数据,减少数据集的大小,提高数据处理和分析的效率。
[0005]在实施数据缩减的过程中,要注意几点:保留关键数据,在数据缩减时需要确保保留了对分析和模型构建有重要影响的关键数据;基于目标进行筛选,根据具体的分析目标和需求,选择合适的数据缩减方法和策略;保持数据的代表性,在数据缩减时需要确保所保留的数据样本具有代表性,能够准确地反映整个数据集的特征和分布;考虑数据关联性,在数据缩减时需要考虑数据之间的关联性和相关性,避免因为缩减导致关键信息的丢失;保持数据完整性,在数据缩减时需要确保数据的完整性和一致性,避免因为缩减导致数据的丢失或者不一致。
[0006]对于数据缩减,常用的方法包括:筛选(Filtering)、抽样(Sampling)、聚合
(Aggregation)、特征选择(FeatureSelection)、维度约简(Dimensionality Reduction)等。而对于工业互联网数据来说,从前面的特征描述可以看出,高频率、来源广、大容量、复杂性、实时性、可追溯性是其主要特征,而且工业互联网平台还经常会面临数据的质量不高,这些使得数据清洗和预处理工作变得更为棘手。上述这些特性使得工业互联网平台在实施数据缩减时面临重重困难,以至于在实际实施时,会想办法降低难度,比如只做部分筛选处理,设定少量的规则进行筛选;又或者减少抽样,尽量保留和使用原始数据等。这样操作的后果可能会导致以下问题:
[0007]1)数据冗余:数据存储中可能会包含较多的重复信息和不必要的细节,导致数据存在冗余。
[0008]2)数据混乱:数据存储中的数据可能会变得较为庞大和复杂,增加了管理和处理的难度,还可能导致数据混乱和错误。
[0009]3)数据不准确:数据存储中的数据可能会包含错误的信息或缺失的信息,又会进一步影响后续的数据分析和决策的准确性。
[0010]4)数据存储成本高:数据存储中的数据可能会占用更多的存储空间,凭空增加了数据的存储成本。
[0011]5)数据分析效率低:由于数据存储中的数据可能会变得非常庞大和复杂,还会导致数据分析的效率降低。
[0012]最终的后果就是影响工业互联网平台的执行效率、决策的正确性,导致工业互联网平台不再那么“有用、好用”。

技术实现思路

[0013]本专利技术提供了一种数据处理链构建方法、数据缩减方法、装置、设备及介质,目的是为了解决和改善上述提及的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题,使得这些问题的影响降至可接受的水平,如果本方案能够得到有效实施的话,甚至可以把问题的影响降至微乎其微、可以忽略的程度。
[0014]本专利技术采用的技术方案是:第一方面,本专利技术提供一种数据处理链构建方法,包括:
[0015]步骤1:用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正;
[0016]步骤2:用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充;
[0017]步骤3:用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;
[0018]步骤4:用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;
[0019]步骤5:用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;
[0020]步骤6:用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;
[0021]步骤7:用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特
征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;
[0022]步骤8:用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。
[0023]进一步的,所述步骤1具体包括:
[0024]异常值过滤模块对数据集或数据流中存在偏离正常范围的异常值,根据数据归属业务的具体情况,采用以下五种方式之一进行修正:
[0025](1)删除异常值:将包含异常值的该条记录从数据集或数据流中删除;
[0026](2)替换异常值:将异常值替换为其他合理的值,替换的方法可以是使用平均值、中位数和/或众数统计量来代替异常值,或者使用插值法来估计异常值;
[0027](3)纠偏异常值:通过人工干预或领域知识来将异常值纠偏;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理链构建方法,其特征在于,包括:步骤1:用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正;步骤2:用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充;步骤3:用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内,以消除奇异样本数据导致的不良影响;步骤4:用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据,将其转化为数值型数据;步骤5:用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留,并去除无关特征;步骤6:用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作,以构建新的特征;步骤7:用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特征进行提取,以捕捉时间的周期性和趋势性;并提取文本型特征中的关键词和特征向量;步骤8:用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维,选择数据集或数据流中最相关或最重要的特征子集,同时保留数据的最重要信息,以减少特征维度和模型复杂度。2.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤1具体包括:异常值过滤模块对数据集或数据流中存在偏离正常范围的异常值,根据数据归属业务的具体情况,采用以下五种方式之一进行修正:(1)删除异常值:将包含异常值的该条记录从数据集或数据流中删除;(2)替换异常值:将异常值替换为其他合理的值,替换的方法可以是使用平均值、中位数和/或众数统计量来代替异常值,或者使用插值法来估计异常值;(3)纠偏异常值:通过人工干预或领域知识来将异常值纠偏;(4)离群值检测和处理:使用离群值检测算法来识别和处理异常值,将离群值替换为合理的值;(5)对异常值专门建立检测模型:使用异常检测模型来识别和处理异常值。3.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤3具体包括:数据归一化过滤模块根据具体的机器学习模型将数据缩放到一个设定的范围内,消除奇异样本数据导致的不良影响;根据数据归属业务的具体情况,分别采用以下四种方式进行过滤处理:(1)最大最小归一化:将数据按照最大值和最小值进行线性变换,使得数据值落在[0,1]区间内;公式为:X_scaled=(X

X_min)/(X_max

X_min),其中X_scaled表示经过最大最小归一化处理后的数据;(2)Z

score标准化:将数据按照均值和标准差进行线性变换,使得数据的均值为0,标准差为1;公式为:X_scaled=(X

X_mean)/X_std,其中X_mean表示数据集或数据块的平均值;X_std表示数据集或数据块的标准差;(3)小数定标标准化:通过移动数据的小数点位置来实现归一化;将数据除以一个适当
的基数,使得所有数据的绝对值都小于1;公式为:X_scaled=X/10^d,其中d为使得X_scaled的绝对值小于1的最小整数;(4)归一化到单位长度:将数据向量除以其欧氏长度,使得数据的欧氏长度为1;公式为:X_scaled=X/||X||,其中||X||为数据向量的欧氏长度。4.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤4具体包括:数据标准化过滤模块对于数据集或数据流中存在的类别型数据,采用独热编码或者标签编码的方式,将其转化为数值型数据;所述的独热编码或者标签编码方式是根据数据归属业务中分类变量的取值之间是否存在顺序关系的情况来决定的,如果存在顺序关系,采用标签编码方式;如果不存在顺序关系,则采用独热编码方式。5.根据权利要求1所述的数据处理链构建方法,其特征在于,所述步骤8具体包括:特征降维模块通过选择数据集或数据流中最相关或最重要的特征子集,以减少特征的数量和维度,同时保留...

【专利技术属性】
技术研发人员:毕可骏李强
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1