当前位置: 首页 > 专利查询>昆明学院专利>正文

一种基于相关性计算的数据自动分类方法技术

技术编号:30436390 阅读:94 留言:0更新日期:2021-10-24 17:37
本发明专利技术公开了一种基于相关性计算的数据自动分类方法,分别计算子元素与总体数据集的样本均值与标准差;再利用报童模型理论,计算出整个X的标准差总值以及所有指标X

【技术实现步骤摘要】
一种基于相关性计算的数据自动分类方法


[0001]本专利技术涉及领域数据治理、深度学习领域,特别涉及一种基于相关性计算的数据自动分类方法。

技术介绍

[0002]近年来,我国已将“数字经济”列入国家发展战略,大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
[0003]在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
[0004]在“数据治理”过程中,通常情况下,都是默认各个数据之间是毫不相关的,即数据之间是相互独立的。但是,随着数据量的增大,某些数据与数据之间可能存在着相关性,这些相关性又是由相关系数来体现的,这些存在着相关性的数据在“数据治理”中,治理手段应该有所不同。所以,如何通过相关系数,从数据集中分类出存在相关性的数据是一项非常必要的工作。

技术实现思路

[0005]本专利技术所要解决的技术问题是提供一种基于相关性计算的数据自动分类方法,以解决现有技术中导致的上述多项缺陷。
[0006]为实现上述目的,本专利技术提供以下的技术方案:一种基于相关性计算的数据自动分类方法,首先,判断整个数据集是否存在相关性数据,包括如下步骤:
[0007]步骤1)分别计算子元素与总体数据集的样本均值与标准差;
[0008]步骤2)再利用报童模型理论,计算出整个X的标准差总值以及所有指标X
i
标准差指标之和,得出Minkowski不等式;判断该不等式情况:当“=”成立时,判断整个数据集X不存在相关性数据,到此为止;当“=”不成立时,判断整个数据集X存在相关性数据,进入下一个步骤;
[0009]步骤3)寻找相关性数据,接着对数据集X进行两两组合,形成组合数据集H;然后对于H中的每个数据组合(X
i
,X
j
),利用报童模型理论,可得另一个Minkowski不等式;判断该不等式情况:当“=”成立时,判断数据组合(X
i
,X
j
)不存在相关性,不对数据组合(X
i
,X
j
)进行分类;当“=”不成立时,判断数据组合(X
i
,X
j
)存在相关性,进入下一个步骤;
[0010]步骤4)把数据组合(X
i
,X
j
)自动归入存在相关性数据的数据集H0,达到对存在相关性数据的数据进行分类的效果。
[0011]优选的,所述步骤1)中,数据处理对象,定义为数据集X, X=(X1,X2,

,X
i
,

,X
n
),其中,n为数据集X包含的数据个数,X
i
为数据集X中的第i个数据,X
i
为C
×
D的多维数据,当X
i
为一个数值时, C=D=1;设X的所有数据元素样本均值为μ,标准差为σ,X
i
的数据样本
均值为μ
i
,标准差为σ
i
(μ,σ,μ
i
,σ
i
均可通过计算得出实际值)。
[0012]优选的,所述步骤2)中,利用报童模型理论,对于数据集X,已知每个X
i
标准差值σ
i
,则整个X的标准差总值为:
[0013][0014]所有指标X
i
集中在一起的值,等于对应的所有指标之和,即
[0015][0016]其中,ρ
ij
表示X
i
和X
j
的相关系数,当ρ
ij
=0时,表示X
i
和X
j
毫不相关,当ρ
ij
≠0时,表示X
i
和X
j
存在相关性;
[0017]由非负实数的“平方根的次可加性”可得
[0018][0019]公式(3)为当p=2时的Minkowski不等式;
[0020]为了简化计算,可以得出以下不等式:
[0021][0022]把σ
i
带入不等式(4):
[0023]当“=”成立时,说明即ρ
ij
=0,判断整个数据集 X不存在相关性数据,到此为止;
[0024]当“>”成立时,说明即存在ρ
ij
≠0,判断整个数据集X存在相关性数据,进入下一个步骤。
[0025]优选的,所述步骤3)中,寻找相关性数据:
[0026]针对数据集X=(X1,X2,

,X
i
,

,X
n
)中的子元素,进行两两组合,形成组合数据集H={(X
i
,X
j
),i=1,

,n,i<j≤n},对于H中的每个数据组合(X
i
,X
j
),利用报童模型理论,可得与(3)同理的不等式:
[0027][0028]为了简化计算,可以得出以下不等式:
[0029][0030]把数据组合(X
i
,X
j
)中的标准差σ
i
,σ
j
分别带入不等式(6):
[0031]当“=”成立时,说明σ
i
σ
j
ρ
ij
=0,即ρ
ij
=0,判断数据组合(X
i
,X
j
) 不存在相关性,不对数据组合(X
i
,X
j
)进行分类;
[0032]当“>”成立时,说明σ
i
σ
j
ρ
ij
≠0,即ρ
ij
≠0,判断数据组合(X
i
,X
j
) 存在相关性。
[0033]采用以上技术方案的有益效果是:该方法较之于传统的数据分类方法,考虑了数
据间的相关性,更加符合数据实际规律,只需考虑 Minkowski不等式的情况就可以分类出相关性数据,不必求解出具体的相关系数值,计算简单易实现。
附图说明
[0034]图1是本专利技术的流程框图。
具体实施方式
[0035]下面详细说明本专利技术的优选实施方式。
[0036]一种基于相关性计算的数据自动分类方法,首先,判断整个数据集是否存在相关性数据,包括如下步骤:
[0037]步骤1)分别计算子元素与总体数据集的样本均值与标准差;数据处理对象,定义为数据集X,X=(X1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相关性计算的数据自动分类方法,首先,判断整个数据集是否存在相关性数据,其特征在于,包括如下步骤:步骤1)分别计算子元素与总体数据集的样本均值与标准差;步骤2)再利用报童模型理论,计算出整个X的标准差总值以及所有指标X
i
标准差指标之和,得出Minkowski不等式;判断该不等式情况:当“=”成立时,判断整个数据集X不存在相关性数据,到此为止;当“=”不成立时,判断整个数据集X存在相关性数据,进入下一个步骤;步骤3)寻找相关性数据,接着对数据集X进行两两组合,形成组合数据集H;然后对于H中的每个数据组合(X
i
,X
j
),利用报童模型理论,可得另一个Minkowski不等式;判断该不等式情况:当“=”成立时,判断数据组合(X
i
,X
j
)不存在相关性,不对数据组合(X
i
,X
j
)进行分类;当“=”不成立时,判断数据组合(X
i
,X
j
)存在相关性,进入下一个步骤;步骤4)把数据组合(X
i
,X
j
)自动归入存在相关性数据的数据集H0,达到对存在相关性数据的数据进行分类的效果。2.根据权利要求1所述的基于相关性计算的数据自动分类方法,其特征在于,所述步骤1)中,数据处理对象,定义为数据集X,X=(X1,X2,

,X
i
,

,X
n
),其中,n为数据集X包含的数据个数,X
i
为数据集X中的第i个数据,X
i
为C
×
D的多维数据,当X
i
为一个数值时,C=D=1;设X的所有数据元素样本均值为μ,标准差为σ,X
i
的数据样本均值为μ
i
,标准差为σ
i
(μ,σ,μ
i
,σ
i
均可通过计算得出实际值)。3.根据权利要求1所述的基于相关性计算的数据自动分类方法,其特征在于,所述步骤2)中,利用报童模型理论,对于数据集X,已知每个X
i
标准差值σ
i
,则整个X的标准差总值为:所有指标X
i
集中在一起的值,等于对应的所有指标之和,即其中,ρ
ij
...

【专利技术属性】
技术研发人员:邓飞何俊洪孙焱岳维好陈震霆石宝坤
申请(专利权)人:昆明学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1