一种数据处理方法、装置、设备及介质制造方法及图纸

技术编号:38493100 阅读:11 留言:0更新日期:2023-08-15 17:05
本发明专利技术涉及数据处理领域,具体为一种数据处理方法、装置、设备及介质,其包括以下步骤:S1、收集数据;S2、判断数据特征Features(X);S3、根据Y(X)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;S4、根据S3中判断出的数据类型、规模和特征,选取不同的数据处理方式;S5、数据处理的可视化展示。本发明专利技术根据数据的初步类型判断即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率。有助于提高数据处理的效果和效率。有助于提高数据处理的效果和效率。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法、装置、设备及介质。

技术介绍

[0002]数据处理是对数据的采集、存储、检索、加工、变换和传输的过程。根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有多种不同的方式。
[0003]授权公告号为CN115685948A的中国专利公开了一种数据处理方法、装置、设备及介质。该专利技术通过基于预先生成的目标筛选策略所包括的多个数据筛选维度,获取各个数据筛选维度所对应的筛选参数,从而基于多个数据筛选维度以及各个数据筛选维度所对应的筛选参数,从目标数据库中获取多个待处理数据集,进而基于多个待处理数据集,通过目标数据处理模型,生成包括多个数据节点的目标控制图,无需用户手动查找需要分析的数据,操作简便,提高了数据筛选效率。
[0004]但是上述已公开方案存在如下不足之处:数据处理模型及处理方法固定,无法针对不同类型、不同规模、不同特征的数据进行区分处理,容易影响数据处理的效果和效率,往往只能运用在特定场合和领域,使用局限性较大。

技术实现思路

[0005]本专利技术目的是针对
技术介绍
中存在的不能针对不同类型、不同规模、不同特征的数据进行区分处理的问题,提出一种数据处理方法、装置、设备及介质。
[0006]一方面,本专利技术提出一种数据处理方法,包括以下步骤:
[0007]S1、收集数据;
[0008]S2、判断数据特征Features(X),<br/>[0009],X是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为X(i,j),表示平均值,Med(X)表示中位数,Std(X)表示数据的离散程度,CV(X)表示数据的变异系数,Min(X)和Max(X)分别表示最小值和最大值,Q1(X)、Q2(X)和Q3(X)分别表示数据的上四分位数、中位数和下四分位数,Range(X)表示极差,Skewness(X)表示数据分布的不对称程度,Kurtosis(X)表示数据分布的平顶程度,Y(X)表示数据的初步类型判断,Y(X)由使用者人为输入,Features(X)为上述多个指标的列表;
[0010]S3、根据Y(X)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;
[0011]S4、根据S3中判断出的数据类型、规模和特征,选取不同的数据处理方式;
[0012]S5、数据处理的可视化展示。
[0013]优选的,S1中,收集数据方式有手动输入数据和自动采集上传数据。
[0014]优选的,S2中,Y(X)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。
[0015]优选的,Y(X)为分类数据时,Features(X)的判断特征采用频率和百分比,频率直接统计即可不需要计算公式;Y(X)为数值型数据时,Features(X)的判断特征采用平均值和中位数;Y(X)为分数据分布偏斜时,Features(X)的判断特征采用中位数、上四分位数、中位数、下四分位数和不对称程度;Y(X)为小样本数据时,Features(X)的判断特征采用极差、中位数、最小值和最大值;Y(X)为大样本数据时,Features(X)的判断特征采用中位数、离散程度、变异系数和平顶程度。
[0016]优选的,S3中,数据类型、规模和特征包括结构化数据、半结构化数据、非结构化数据和大数据。
[0017]优选的,结构化数据使用SQL语句进行查询、筛选、计算和分析,或者使用数据仓库进行OLAP多维分析;半结构化数据使用NoSQL数据库进行处理;非结构化数据使用自然语言处理、图像识别、机器学习技术进行处理和分析;大数据使用分布式计算、批处理、流式处理技术进行处理和分析。
[0018]另一方面,本专利技术提出一种数据处理装置,包括数据采集单元、初步类型输入单元、数据特征判断单元、数据处理单元和可视化单元;数据采集单元用来收集数据;初步类型输入单元用来输入数据的初步判断类型;数据特征判断单元用来根据输入的初步判断类型选择合适的判断特征,输出数据类型、规模和特征;数据处理单元根据数据类型、规模和特征,选择对应的处理方式对数据进行处理;可视化单元展示数据的处理结果。
[0019]再一方面,本专利技术提出一种计算机设备以及计算机可读存储介质,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机可读存储介质上存储有程序,程序被处理器执行。
[0020]与现有技术相比,本专利技术具有如下有益的技术效果:不同的使用目的,使用领域下,Y(X)的值不同,根据Y(X)的值即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率,能适用于不同领域,使用范围广。
附图说明
[0021]图1为本专利技术一种实施例的工作流程图;
[0022]图2为本专利技术提出的数据处理装置的结构示意图;
[0023]图3为本专利技术提出的计算机设备的结构示意图。
具体实施方式
[0024]实施例一
[0025]如图1所示,本专利技术提出的一种数据处理方法,包括以下步骤:
[0026]S1、收集数据,收集数据方式有手动输入数据和自动采集上传数据;
[0027]S2、判断数据特征Features(X),
[0028],X是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为X(i,j),表示平均值,Med(X)表示中位数,Std(X)表示数据的离散程度,CV(X)表示数据的变异系数,Min(X)和Max(X)分别表示最小值和最大值,Q1(X)、Q2(X)和Q3(X)分别表示数据的上四分位数、中位数和下四分位数,Range(X)表示极差,Skewness(X)表示数据分布的不对称程度,Kurtosis(X)表示数据分布的平顶程度,Y(X)表示数据的初步类型判断,Y(X)由使用者人为输入,Features(X)为上述多个指标的列表;
[0029]S3、根据Y(X)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;
[0030]S4、根据S3中判断出的数据类型、规模和特征,选取不同的数据处理方式;
[0031]S5、数据处理的可视化展示。
[0032]本实施例中,不同的使用目的,使用领域下,Y(X)的值不同,根据Y(X)的值即可快速确定采用的判断特征,从而快速判断出数据的类型,便于后续选择最合适的处理方式进行处理,有助于提高数据处理的效果和效率,能适用于不同领域,使用范围广。
[0033]实施例二
[0034]本专利技术提出的一种数据处理方法,相较于实施例一,S2中,Y(X)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。Y(X)为分类数据时,Features(X)的判断特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:S1、收集数据;S2、判断数据特征Features(X),,X是一个n维样本数据组成的矩阵,其中第i个样本的j个特征值为X(i,j),表示平均值,Med(X)表示中位数,Std(X)表示数据的离散程度,CV(X)表示数据的变异系数,Min(X)和Max(X)分别表示最小值和最大值,Q1(X)、Q2(X)和Q3(X)分别表示数据的上四分位数、中位数和下四分位数,Range(X)表示极差,Skewness(X)表示数据分布的不对称程度,Kurtosis(X)表示数据分布的平顶程度,Y(X)表示数据的初步类型判断,Y(X)由使用者人为输入,Features(X)为上述多个指标的列表;S3、根据Y(X)的情况,选择合适的数据特征指标,根据不同的判断指标判断数据类型、规模和特征;S4、根据S3中判断出的数据类型、规模和特征,选取不同的数据处理方式;S5、数据处理的可视化展示。2.根据权利要求1所述的数据处理方法,其特征在于,S1中,收集数据方式有手动输入数据和自动采集上传数据。3.根据权利要求1所述的数据处理方法,其特征在于,S2中,Y(X)包括分类数据,数值型数据,数据分布偏斜,小样本数据,大样本数据,模型评估效果预测数据和数据相关性。4.根据权利要求3所述的数据处理方法,其特征在于,Y(X)为分类数据时,Features(X)的判断特征采用频率和百分比,频率直接统计即可不需要计算公式;Y(X)为数值型数据时,Features(X)的判断特征采用平均值和中位数;Y(X)为分数据分布偏斜时,Features(X)的判断特征采用中位数、上四...

【专利技术属性】
技术研发人员:许舒颜
申请(专利权)人:安徽炽热信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1