一种数据加工方法及系统技术方案

技术编号：38598263 阅读：13 留言：0更新日期：2023-08-26 23:33

本发明专利技术涉及数据处理技术领域，公开了一种数据加工方法及系统，获取初始数据，对初始数据进行数据预处理，并得到待处理数据，提取待处理数据的特征信息，基于特征信息对待处理数据进行异常检测，并得到待加工数据，将待加工数据引入数据池，并确定数据池中数据拆分指针的位置信息，根据数据拆分指针的位置信息确定待加工数据的数据拆分策略，并基于数据拆分策略对待加工数据进行数据拆分，得到加工数据，本发明专利技术可以将初始数据进行数据拆分，进而可以把繁杂的数据加工为易处理的数据，提高了数据加工执行效率，满足了数据加工人员的数据加工需求。需求。需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据加工方法及系统

[0001]本专利技术涉及数据处理
，特别是涉及一种数据加工方法及系统。

技术介绍

[0002]随着大数据相关领域快速发展，将不同系统、不同数据库的数据进行整合，并应用到新的数据应用软件中进行数据的深度挖掘已成为大数据领域的发展方向。但是数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题，如何把繁杂的大数据变成我们能应付的、有效的“小”数据，即针对特定问题而构建一个干净、完备的数据集，这一过程变得尤为重要。
[0003]当前的数据处理中心包括如排序，剔重，过滤等等功能固化，增加特性化数据处理难，功能可扩展性差，数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通，只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理，即在一个数据加工治理流程中需要多次的对数据进行读写，这样不仅使得机器的负载过高，而且整个数据加工和治理的速度将大打折扣，在很多时候都不能满足数据的及时性要求，导致数据的统一性、完整性残缺，影响数据的整合和利用。

技术实现思路

[0004]本专利技术实施例提供一种数据加工方法及系统，用以解决现有技术中无法提高数据加工执行效率，无法满足数据加工人员的数据加工需求的技术问题。
[0005]为了实现上述目的，本专利技术提供了一种数据加工方法，所述方法包括：获取初始数据，对所述初始数据进行数据预处理，并得到待处理数据；提取所述待处理数据的特征信息，基于所述特征信息对所述...

【技术保护点】

【技术特征摘要】
1.一种数据加工方法，其特征在于，所述方法包括：获取初始数据，对所述初始数据进行数据预处理，并得到待处理数据；提取所述待处理数据的特征信息，基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据；将所述待加工数据引入数据池，并确定所述数据池中数据拆分指针的位置信息；根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分，得到加工数据；在基于所述特征信息对所述待处理数据进行异常检测，并得到待加工数据时，包括：获取所述待处理数据的第一维度P；根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度；将所述第二维度对应的数据导入数据预测模型，得到预测数据；基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测；其中，所述第二维度大于所述第一维度；在根据所述第一维度P对所述待处理数据进行维度转换，得到所述待处理数据的第二维度时，包括：预设第一维度矩阵G，设定G（G1，G2，G3，G4），其中，G1为第一预设第一维度，G2为第二预设第一维度，G3为第三预设第一维度，G4为第四预设第一维度，且G1＜G2＜G3＜G4；预设第二维度矩阵D，设定D（D1，D2，D3，D4，D5），其中，D1为第一预设第二维度，D2为第二预设第二维度，D3为第三预设第二维度，D4为第四预设第二维度，D5为第五预设第二维度，且D1＜D2＜D3＜D4＜D5；根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度：当P＜G1时，选定所述第一预设第二维度G1作为所述第二维度；当G1≤P＜G2时，选定所述第二预设第二维度G2作为所述第二维度；当G2≤P＜G3时，选定所述第三预设第二维度G3作为所述第二维度；当G3≤P＜G4时，选定所述第四预设第二维度G4作为所述第二维度；当G4≤P时，选定所述第五预设第二维度G5作为所述第二维度。2.根据权利要求1所述的数据加工方法，其特征在于，在对所述初始数据进行数据预处理，并得到待处理数据时，包括：删除所述初始数据中的无效数据；基于所述无效数据的数据序列位置，确定所有的待插值点位，并基于所述初始数据的数据特征确定所述待插值点位的插入值；根据所述插入值对相应的待插值点位进行数据插值，得到所述待处理数据。3.根据权利要求2所述的数据加工方法，其特征在于，在基于所述初始数据的数据特征确定待插值点位的插入值时，包括：将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型，得到第一数据熵值和第二数据熵值；根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值；其中，所述待插值点位的插入值根据下式进行计算：
；其中，w为待插值点位的插入值，w1为第一数据熵值，w2为第二数据熵值。4.根据权利要求1所述的数据加工方法，其特征在于，在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时，包括：获取所述待处理数据的第一离散特征值，并获取所述预测数据的第二离散特征值；计算所述第一离散特征值和所述第二离散特征值的离散特征差值；当所述离散特征差值大于预设离散特征差值时，则判断所述待处理数据为异常数据；当所述离散特征差值小于或等于所述离散特征差值时，则判断所述待处理数据为非异常数据，并将所述待处理数据作为所述待加工数据。5.根据权利要求1所述的数据加工方法，其特征在于，在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略，并基于所述数据拆分策略对所述待加工数据进行数据拆分之前，还包括：获取所述待加工数据的数据量A；根据所述待加工数据的数据量A对所述待加工数据设定数据分区，并基于所述数据分区对所述待加工数据进行数据拆分。6.根据权利要求5所述的数据加工方法，其特征在于，在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时，包括：根据所述待加工数据的数据量A设定所述数据分区的分区数量，预设待加工数据的数据量矩阵B，设定...

【专利技术属性】
技术研发人员：刘鲁清，杨正新，李栋梁，孙崇武，祝家鑫，
申请(专利权)人：华能信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人