【技术实现步骤摘要】
一种基于相关性计算的数据自动分类方法
[0001]本专利技术涉及领域数据治理、深度学习领域,特别涉及一种基于相关性计算的数据自动分类方法。
技术介绍
[0002]近年来,我国已将“数字经济”列入国家发展战略,大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
[0003]在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
[0004]在“数据治理”过程中,通常情况下,都是默认各个数据之间是毫不相关的,即数据之间是相互独立的。但是,随着数据量的增大,某些数据与数据之间可能存在着相关性,这些相关性又是由相关系数来体现的,这些存在着相关性的数据在“数据治理”中,治理手段应该有所不同。所以,如何通过相关系数,从数据集中分类出存在相关性的数据是一项非常必要的工作。
技术实现思路
[0005]本专利技术所要解决的技术问题是提供一种基于相关性计算的数据自动分类方法,以解决现有技术中导致的上述多项缺陷。
[0006]为实现上述目的,本专利技术提供以下的技术方案:一种基于相关性计算的数据自动分类方法,首先,判断整个数据集是否存在相关性数据,包括如下步骤:
[0007]步骤1)分别计算子元素与总体数据集的样本均值与标准差;
[0008]步骤2)再利用报童模型理论,计算出整个X的标准差总 ...
【技术保护点】
【技术特征摘要】
1.一种基于相关性计算的数据自动分类方法,首先,判断整个数据集是否存在相关性数据,其特征在于,包括如下步骤:步骤1)分别计算子元素与总体数据集的样本均值与标准差;步骤2)再利用报童模型理论,计算出整个X的标准差总值以及所有指标X
i
标准差指标之和,得出Minkowski不等式;判断该不等式情况:当“=”成立时,判断整个数据集X不存在相关性数据,到此为止;当“=”不成立时,判断整个数据集X存在相关性数据,进入下一个步骤;步骤3)寻找相关性数据,接着对数据集X进行两两组合,形成组合数据集H;然后对于H中的每个数据组合(X
i
,X
j
),利用报童模型理论,可得另一个Minkowski不等式;判断该不等式情况:当“=”成立时,判断数据组合(X
i
,X
j
)不存在相关性,不对数据组合(X
i
,X
j
)进行分类;当“=”不成立时,判断数据组合(X
i
,X
j
)存在相关性,进入下一个步骤;步骤4)把数据组合(X
i
,X
j
)自动归入存在相关性数据的数据集H0,达到对存在相关性数据的数据进行分类的效果。2.根据权利要求1所述的基于相关性计算的数据自动分类方法,其特征在于,所述步骤1)中,数据处理对象,定义为数据集X,X=(X1,X2,
…
,X
i
,
…
,X
n
),其中,n为数据集X包含的数据个数,X
i
为数据集X中的第i个数据,X
i
为C
×
D的多维数据,当X
i
为一个数值时,C=D=1;设X的所有数据元素样本均值为μ,标准差为σ,X
i
的数据样本均值为μ
i
,标准差为σ
i
(μ,σ,μ
i
,σ
i
均可通过计算得出实际值)。3.根据权利要求1所述的基于相关性计算的数据自动分类方法,其特征在于,所述步骤2)中,利用报童模型理论,对于数据集X,已知每个X
i
标准差值σ
i
,则整个X的标准差总值为:所有指标X
i
集中在一起的值,等于对应的所有指标之和,即其中,ρ
ij
...
【专利技术属性】
技术研发人员:邓飞,何俊,洪孙焱,岳维好,陈震霆,石宝坤,
申请(专利权)人:昆明学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。