数据处理链构建方法、数据缩减方法、装置、设备及介质制造方法及图纸

技术编号：39003223 阅读：14 留言：0更新日期：2023-10-07 10:34

本发明专利技术公开了一种数据处理链构建方法、数据缩减方法、装置、设备及介质，数据处理链构建方法包括使数据集或数据流依次进行异常值修正、缺失值填充、数据缩放到设定的范围内、将类别型数据转化为数值型数据、保留目标变量影响超过设定阈值的特征、重构已有特征、提取时间型特征和文本型特征、对高维特征降维操作，从而减少特征维度和模型复杂度。本发明专利技术与现有技术相比，一方面可以解决工业互联网原始数据的数据冗余、数据混乱、数据不准确、数据存储成本高、数据分析效率低等问题，另一方面可以提升工业互联网平台的执行效率，提升决策的正确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理链构建方法、数据缩减方法、装置、设备及介质

[0001]本专利技术涉及工业互联网
，尤其涉及一种数据处理链构建方法、数据缩减方法、装置、设备及介质。

技术介绍

[0002]工业互联网(IndustrialInternet)是指将物理设备、系统、网络和软件相互连接，实现数据采集、分析、处理和应用的一种新型工业技术。它通过物联网(InternetofThings,IoT)、大数据、云计算、人工智能等先进技术，将传统的工业生产与数字化技术相结合，为企业提供更高效、智能、可持续的生产方式。工业互联网的应用领域广泛，包括制造业、能源、交通、医疗等多个行业。在制造业中，工业互联网可以帮助企业实现智能制造、供应链管理、质量管理等方面的优化；在能源领域，它可以提高能源利用效率、降低碳排放；在交通领域，它可以实现智能交通管理、自动驾驶等创新应用；在医疗领域，它可以改善医疗服务质量、提高患者体验等。
[0003]工业互联网数据具有以下几个特征：高频率，工业互联网数据产生的速度非常快，通常以毫秒甚至微秒为单位；多样性，工业互联网数据来源广泛，包括传感器、设备、机器等，这些设备产生的数据类型各异，例如温度、压力、速度、位置等；大容量，工业互联网数据量通常很大，它涉及大量的设备和系统，这些数据包括传感器读数、设备状态、生产过程参数等；复杂性，工业互联网数据的复杂性很高，它包含许多不同的变量和因素；实时性，工业互联网数据通常是实时生成的，需要及时处理和分析；可追溯性，工业互联网数据具有可追溯性，它记录了设备的运行历史和生产...

【技术保护点】

【技术特征摘要】
1.一种数据处理链构建方法，其特征在于，包括：步骤1：用异常值过滤模块对数据集或数据流中偏离正常范围的异常值进行修正；步骤2：用缺失值过滤模块对步骤1输出的数据集或数据流中存在的缺失值进行填充；步骤3：用数据归一化过滤模块对步骤2输出的数据集或数据中数据缩放到设定的范围内，以消除奇异样本数据导致的不良影响；步骤4：用数据标准化过滤模块对步骤3输出的数据集或数据流中存在的类别型数据，将其转化为数值型数据；步骤5：用特征选择模块对步骤4输出的数据集或数据流中存在的对目标变量影响超过设定阈值的特征进行保留，并去除无关特征；步骤6：用特征构建模块对步骤5输出的数据集或数据流中已有特征进行重构操作，以构建新的特征；步骤7：用时间和文本特征模块对步骤6输出的数据集或数据流中存在的时间型特征进行提取，以捕捉时间的周期性和趋势性；并提取文本型特征中的关键词和特征向量；步骤8：用特征降维模块对步骤7输出的数据集或数据流中存在的高维特征进行降维，选择数据集或数据流中最相关或最重要的特征子集，同时保留数据的最重要信息，以减少特征维度和模型复杂度。2.根据权利要求1所述的数据处理链构建方法，其特征在于，所述步骤1具体包括：异常值过滤模块对数据集或数据流中存在偏离正常范围的异常值，根据数据归属业务的具体情况，采用以下五种方式之一进行修正：(1)删除异常值：将包含异常值的该条记录从数据集或数据流中删除；(2)替换异常值：将异常值替换为其他合理的值，替换的方法可以是使用平均值、中位数和/或众数统计量来代替异常值，或者使用插值法来估计异常值；(3)纠偏异常值：通过人工干预或领域知识来将异常值纠偏；(4)离群值检测和处理：使用离群值检测算法来识别和处理异常值，将离群值替换为合理的值；(5)对异常值专门建立检测模型：使用异常检测模型来识别和处理异常值。3.根据权利要求1所述的数据处理链构建方法，其特征在于，所述步骤3具体包括：数据归一化过滤模块根据具体的机器学习模型将数据缩放到一个设定的范围内，消除奇异样本数据导致的不良影响；根据数据归属业务的具体情况，分别采用以下四种方式进行过滤处理：(1)最大最小归一化：将数据按照最大值和最小值进行线性变换，使得数据值落在[0,1]区间内；公式为：X_scaled＝(X
‑
X_min)/(X_max
‑
X_min)，其中X_scaled表示经过最大最小归一化处理后的数据；(2)Z
‑
score标准化：将数据按照均值和标准差进行线性变换，使得数据的均值为0，标准差为1；公式为：X_scaled＝(X
‑
X_mean)/X_std，其中X_mean表示数据集或数据块的平均值；X_std表示数据集或数据块的标准差；(3)小数定标标准化：通过移动数据的小数点位置来实现归一化；将数据除以一个适当
的基数，使得所有数据的绝对值都小于1；公式为：X_scaled＝X/10^d，其中d为使得X_scaled的绝对值小于1的最小整数；(4)归一化到单位长度：将数据向量除以其欧氏长度，使得数据的欧氏长度为1；公式为：X_scaled＝X/||X||，其中||X||为数据向量的欧氏长度。4.根据权利要求1所述的数据处理链构建方法，其特征在于，所述步骤4具体包括：数据标准化过滤模块对于数据集或数据流中存在的类别型数据，采用独热编码或者标签编码的方式，将其转化为数值型数据；所述的独热编码或者标签编码方式是根据数据归属业务中分类变量的取值之间是否存在顺序关系的情况来决定的，如果存在顺序关系，采用标签编码方式；如果不存在顺序关系，则采用独热编码方式。5.根据权利要求1所述的数据处理链构建方法，其特征在于，所述步骤8具体包括：特征降维模块通过选择数据集或数据流中最相关或最重要的特征子集，以减少特征的数量和维度，同时保留...

【专利技术属性】
技术研发人员：毕可骏，李强，
申请(专利权)人：四川启睿克科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人