一种数据加工方法及系统技术方案

技术编号:38598263 阅读:13 留言:0更新日期:2023-08-26 23:33
本发明专利技术涉及数据处理技术领域,公开了一种数据加工方法及系统,获取初始数据,对初始数据进行数据预处理,并得到待处理数据,提取待处理数据的特征信息,基于特征信息对待处理数据进行异常检测,并得到待加工数据,将待加工数据引入数据池,并确定数据池中数据拆分指针的位置信息,根据数据拆分指针的位置信息确定待加工数据的数据拆分策略,并基于数据拆分策略对待加工数据进行数据拆分,得到加工数据,本发明专利技术可以将初始数据进行数据拆分,进而可以把繁杂的数据加工为易处理的数据,提高了数据加工执行效率,满足了数据加工人员的数据加工需求。需求。需求。

【技术实现步骤摘要】
一种数据加工方法及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种数据加工方法及系统。

技术介绍

[0002]随着大数据相关领域快速发展,将不同系统、不同数据库的数据进行整合,并应用到新的数据应用软件中进行数据的深度挖掘已成为大数据领域的发展方向。但是数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题,如何把繁杂的大数据变成我们能应付的、有效的“小”数据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。
[0003]当前的数据处理中心包括如排序,剔重,过滤等等功能固化,增加特性化数据处理难,功能可扩展性差,数据处理流向无法灵活控制。目前许多的大数据应用平台不能够灵活的配置各种数据源之间的互通,只能单一的从一种数据源同步到另外一种数据源。同时大多数的大数据应用平台不能够支持流式处理,即在一个数据加工治理流程中需要多次的对数据进行读写,这样不仅使得机器的负载过高,而且整个数据加工和治理的速度将大打折扣,在很多时候都不能满足数据的及时性要求,导致数据的统一性、完整性残缺,影响数据的整合和利用。

技术实现思路

[0004]本专利技术实施例提供一种数据加工方法及系统,用以解决现有技术中无法提高数据加工执行效率,无法满足数据加工人员的数据加工需求的技术问题。
[0005]为了实现上述目的,本专利技术提供了一种数据加工方法,所述方法包括:获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;在基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据时,包括:获取所述待处理数据的第一维度P;根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;将所述第二维度对应的数据导入数据预测模型,得到预测数据;基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;其中,所述第二维度大于所述第一维度;在根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的
第二维度时,包括:预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。
[0006]在其中一个实施例中,在对所述初始数据进行数据预处理,并得到待处理数据时,包括:删除所述初始数据中的无效数据;基于所述无效数据的数据序列位置,确定所有的待插值点位,并基于所述初始数据的数据特征确定所述待插值点位的插入值;根据所述插入值对相应的待插值点位进行数据插值,得到所述待处理数据。
[0007]在其中一个实施例中,在基于所述初始数据的数据特征确定待插值点位的插入值时,包括:将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型,得到第一数据熵值和第二数据熵值;根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值;其中,所述待插值点位的插入值根据下式进行计算:;其中,w为待插值点位的插入值,w1为第一数据熵值,w2为第二数据熵值。
[0008]在其中一个实施例中,在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时,包括:获取所述待处理数据的第一离散特征值,并获取所述预测数据的第二离散特征值;计算所述第一离散特征值和所述第二离散特征值的离散特征差值;当所述离散特征差值大于预设离散特征差值时,则判断所述待处理数据为异常数据;当所述离散特征差值小于或等于所述离散特征差值时,则判断所述待处理数据为非异常数据,并将所述待处理数据作为所述待加工数据。
[0009]在其中一个实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分之前,还包括:获取所述待加工数据的数据量A;
根据所述待加工数据的数据量A对所述待加工数据设定数据分区,并基于所述数据分区对所述待加工数据进行数据拆分。
[0010]在其中一个实施例中,在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时,包括:根据所述待加工数据的数据量A设定所述数据分区的分区数量,预设待加工数据的数据量矩阵B,设定B(B1,B2,B3,B4),其中,B1为第一预设数据量,B2为第二预设数据量,B3为第三预设数据量,B4为第四预设数据量,且B1<B2<B3<B4;预设数据分区的分区数量矩阵C,设定C(C1,C2,C3,C4,C5),其中,C1为第一预设分区数量,C2为第二预设分区数量,C3为第三预设分区数量,C4为第四预设分区数量,C5为第五预设分区数量,且C1<C2<C3<C4<C5;根据所述待加工数据的数据量A与各预设数据量之间的关系设定所述数据分区的分区数量:当A<B1时,选定所述第一预设分区数量C1作为所述数据分区的分区数量;当B1≤A<B2时,选定所述第二预设分区数量C2作为所述数据分区的分区数量;当B2≤A<B3时,选定所述第三预设分区数量C3作为所述数据分区的分区数量;当B3≤A<B4时,选定所述第四预设分区数量C4作为所述数据分区的分区数量;当B4≤A时,选定所述第五预设分区数量C5作为所述数据分区的分区数量。
[0011]在其中一个实施例中,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分时,包括:当所述数据拆分指针位于所述待加工数据的头部位置时,则基于所述数据分区从所述待加工数据的头部位置开始拆分;当所述数据拆分指针位于所述待加工数据的尾部位置时,则基于所述数据分区从所述待加工数据的尾部位置开始拆分;当所述数据拆分指针位于所述待加工数据的中间位置时,则根据所述头部位置和所述中间位置之间的数据生成第一数据集合,根据所述尾部位置和所述中间位置之间的数据生成第二数据集合;获取所述第一数据集合的第一数据热度,获取所述第二数据集合的第二数据热度;当所述第一数据热度大于所述第二数据热度时,则基于所述数据分区从所述第一数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据加工方法,其特征在于,所述方法包括:获取初始数据,对所述初始数据进行数据预处理,并得到待处理数据;提取所述待处理数据的特征信息,基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据;将所述待加工数据引入数据池,并确定所述数据池中数据拆分指针的位置信息;根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分,得到加工数据;在基于所述特征信息对所述待处理数据进行异常检测,并得到待加工数据时,包括:获取所述待处理数据的第一维度P;根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度;将所述第二维度对应的数据导入数据预测模型,得到预测数据;基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测;其中,所述第二维度大于所述第一维度;在根据所述第一维度P对所述待处理数据进行维度转换,得到所述待处理数据的第二维度时,包括:预设第一维度矩阵G,设定G(G1,G2,G3,G4),其中,G1为第一预设第一维度,G2为第二预设第一维度,G3为第三预设第一维度,G4为第四预设第一维度,且G1<G2<G3<G4;预设第二维度矩阵D,设定D(D1,D2,D3,D4,D5),其中,D1为第一预设第二维度,D2为第二预设第二维度,D3为第三预设第二维度,D4为第四预设第二维度,D5为第五预设第二维度,且D1<D2<D3<D4<D5;根据所述第一维度P与各预设第一维度之间的关系设定所述第二维度:当P<G1时,选定所述第一预设第二维度G1作为所述第二维度;当G1≤P<G2时,选定所述第二预设第二维度G2作为所述第二维度;当G2≤P<G3时,选定所述第三预设第二维度G3作为所述第二维度;当G3≤P<G4时,选定所述第四预设第二维度G4作为所述第二维度;当G4≤P时,选定所述第五预设第二维度G5作为所述第二维度。2.根据权利要求1所述的数据加工方法,其特征在于,在对所述初始数据进行数据预处理,并得到待处理数据时,包括:删除所述初始数据中的无效数据;基于所述无效数据的数据序列位置,确定所有的待插值点位,并基于所述初始数据的数据特征确定所述待插值点位的插入值;根据所述插入值对相应的待插值点位进行数据插值,得到所述待处理数据。3.根据权利要求2所述的数据加工方法,其特征在于,在基于所述初始数据的数据特征确定待插值点位的插入值时,包括:将所述无效数据的前一段数据和所述无效数据的后一段数据分别导入数据熵值计算模型,得到第一数据熵值和第二数据熵值;根据所述第一数据熵值和所述第二数据熵值计算所述待插值点位的插入值;其中,所述待插值点位的插入值根据下式进行计算:
;其中,w为待插值点位的插入值,w1为第一数据熵值,w2为第二数据熵值。4.根据权利要求1所述的数据加工方法,其特征在于,在基于所述预测数据和所述待处理数据对所述待处理数据进行异常检测时,包括:获取所述待处理数据的第一离散特征值,并获取所述预测数据的第二离散特征值;计算所述第一离散特征值和所述第二离散特征值的离散特征差值;当所述离散特征差值大于预设离散特征差值时,则判断所述待处理数据为异常数据;当所述离散特征差值小于或等于所述离散特征差值时,则判断所述待处理数据为非异常数据,并将所述待处理数据作为所述待加工数据。5.根据权利要求1所述的数据加工方法,其特征在于,在根据所述数据拆分指针的位置信息确定所述待加工数据的数据拆分策略,并基于所述数据拆分策略对所述待加工数据进行数据拆分之前,还包括:获取所述待加工数据的数据量A;根据所述待加工数据的数据量A对所述待加工数据设定数据分区,并基于所述数据分区对所述待加工数据进行数据拆分。6.根据权利要求5所述的数据加工方法,其特征在于,在根据所述待加工数据的数据量A对所述待加工数据设定数据分区时,包括:根据所述待加工数据的数据量A设定所述数据分区的分区数量,预设待加工数据的数据量矩阵B,设定...

【专利技术属性】
技术研发人员:刘鲁清杨正新李栋梁孙崇武祝家鑫
申请(专利权)人:华能信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1