System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据处理方法、电子设备、可读存储介质及程序产品技术_技高网

数据处理方法、电子设备、可读存储介质及程序产品技术

技术编号:40987310 阅读:3 留言:0更新日期:2024-04-18 21:31
本公开提供了一种数据处理方法、电子设备、可读存储介质及程序产品,该方法首先获取样本数据集,其中样本数据集包括多个数据子集,数据子集包括样本数据的数据类型和属性信息,然后分别对上述多个数据子集进行特征提取得到数据子集的特征集,特征集中包括相应样本数据的正确分类表示,之后基于特征集得到目标频繁项集,其中目标频繁项集的数据项包括正确分类表示,最后基于数据分类模型得到待分类数据的分类结果,其中数据分类模型基于目标频繁项集得到,数据分类模型的输入包括待分类数据。

【技术实现步骤摘要】

本公开涉及数据处理方法、电子设备、可读存储介质及程序产品


技术介绍

1、人类社会已经在向数字化时代迈进,人们也逐渐开始适应数字化时代对工作和生活产生的影响。数据的价值在数字化时代中能够得到很好的体现,例如数据资产作为物理或电子方式记录的数据资源,能够为拥有者带来一定的经济效益。

2、数据资产的日益庞大,使得如何对数字资产进行管理成为了数据资产拥有者需要重点考虑的事情。在管理数据资产时,通常需要对数据资产进行类别划分和级别划分,从而满足对数据资产进行管控的需求。

3、目前对数据资产进行分类的常见做法是,通过对数据进行采样并人工利用专家规则来进行数据分类。由于不同作业人员对级别的理解不同,使得分类结果偏差较大,并且人力成本也会较高。


技术实现思路

1、为了解决上述技术问题中的至少一个,本公开提供了数据处理方法、装置、电子设备、可读存储介质及程序产品。

2、本公开第一方面提出了一种数据处理方法,包括:获取样本数据集,其中所述样本数据集包括多个数据子集,所述数据子集包括样本数据的数据类型和属性信息;分别对所述多个数据子集进行特征提取得到所述数据子集的特征集,所述特征集中包括相应所述样本数据的正确分类表示;基于所述特征集得到目标频繁项集,其中所述目标频繁项集的数据项包括所述正确分类表示;以及基于数据分类模型得到待分类数据的分类结果,其中所述数据分类模型基于所述目标频繁项集得到,所述数据分类模型的输入包括所述待分类数据。

3、根据本公开的一个实施方式,所述属性信息包括所述样本数据的存储位置信息和/或说明信息,其中所述存储位置信息对应于所述样本数据在数据源中的存储位置。

4、根据本公开的一个实施方式,所述存储位置信息包括以下一项或多项:所述样本数据所在数据库的名称;所述样本数据所在数据表的名称;所述样本数据所在字段的名称。

5、根据本公开的一个实施方式,所述说明信息包括:所述样本数据所在字段的字段注释。

6、根据本公开的一个实施方式,以id作为数据的分类表示。

7、根据本公开的一个实施方式,对所述多个数据子集进行特征提取的方式包括语义特征提取,所述特征集包括通过所述语义特征提取得到的语义特征。

8、根据本公开的一个实施方式,所述语义特征包括语义词汇。

9、根据本公开的一个实施方式,基于所述特征集得到目标频繁项集,包括:确定所述特征集的第一项集,所述第一项集包括所述特征集中作为频繁项的特征项;依据所述多个数据子集对应的多个所述第一项集生成树结构的表示;依据所述树结构的表示确定所述频繁项的条件模式基;以及依据所述条件模式基确定目标频繁项集。

10、根据本公开的一个实施方式,确定所述特征集的第一项集,包括:确定包含所述特征项的所述特征集的数量并作为第一数量;确定所述第一数量大于第一阈值的特征项并作为所述特征集的频繁项;以及依据所述特征集的频繁项得到所述特征集对应的第一项集。

11、根据本公开的一个实施方式,在所述第一项集中所述频繁项的排列顺序为按所述第一数量从大到小的顺序,所述树结构以所述频繁项作为节点,所述第一项集中包含的多个所述频繁项按所述排列顺序形成所述树结构的分支,不同所述分支之间的相同部分通过同一子分支表示,不同所述分支之间的不同部分形成独立子分支,所述相同部分以所属第一项集的首个频繁项作为起始。

12、根据本公开的一个实施方式,所述条件模式基对应于同一种所述频繁项在所述树结构中的前序分支结构,所述前序分支结构为从所述频繁项的父节点至所述树结构的根节点之间单向路径上的节点形成的集合。

13、根据本公开的一个实施方式,依据所述条件模式基确定目标频繁项集,包括:以所述条件模式基对应的频繁项为第一频繁项,以所述条件模式基包含的频繁项为对应于所述第一频繁项的第二频繁项,基于所述第二频繁项的频繁度确定所述条件模式基的候选频繁项;基于所述第一频繁项和相应候选频繁项的幂集得到候选频繁项集,所述候选频繁项集的数据项包括所述第一频繁项;以及基于包含有正确分类表示的所述候选频繁项集得到目标频繁项集。

14、根据本公开的一个实施方式,基于所述第二频繁项的频繁度确定所述条件模式基的候选频繁项,包括:基于所述第一频繁项的计数值确定相应所述第二频繁项的频繁度,所述第一频繁项的计数值通过所述第一频繁项的节点对应的所述相同部分的数量得到;以及在所述第一频繁项对应的条件模式基所包含的所述第二频繁项中,确定所述频繁度之和大于第二阈值的所述第二频繁项并作为候选频繁项。

15、根据本公开的一个实施方式,在基于数据分类模型得到待分类数据的分类结果之前,所述方法还包括:对得到的目标频繁项集进行筛选,基于筛选后的目标频繁项集得到所述数据分类模型。

16、根据本公开的一个实施方式,对得到的目标频繁项集进行筛选,包括;通过组合得到所述目标频繁项集和第一特征集的组合项集,所述第一特征集通过对第一数据进行特征提取得到,所述第一数据与所述样本数据均从采样数据中得到,所述组合项集包括第一元素和第二元素,所述第一元素对应于其中一个所述目标频繁项集,所述第二元素对应于其中一个所述第一特征集,不同所述组合项集的所含元素不完全相同;依据所述组合项集确定所述目标频繁项集的准确率;以及依据所述准确率对所述目标频繁项集进行筛选,得到所述准确率大于第三阈值的目标频繁项集。

17、根据本公开的一个实施方式,依据所述组合项集确定所述目标频繁项集的准确率,包括:对所述组合项集进行划分得到多个项集集合,同一所述项集集合中所述组合项集的所述第一元素的特征项相同,同一所述项集集合的同一所述组合项集中的所述第一元素的特征项与所述第二元素的特征项相同;以及在同一所述项集集合中,依据目标数量确定所述目标频繁项集的准确率,所述目标数量为同一目标组合项集中所述第一元素和所述第二元素的分类表示相同的数量,所述目标组合项集为包含有同一分类表示的所述第一元素所在的所述组合项集。

18、根据本公开的一个实施方式,所述第一数据和/或所述样本数据从采样数据中随机选取得到。

19、根据本公开的一个实施方式,获取样本数据集,包括:对数据源进行采样得到多个采样数据集,所述采样数据集包括采样数据的数据类型、属性信息和正确分类表示;基于生成式预训练转换模型得到至少一个补充数据集,其中所述生成式预训练转换模型的输入包括至少部分所述采样数据集,所述补充数据集用于补充所述多个采样数据集的数据集数量,所述补充数据集包括虚拟属性信息和相应的分类表示;以及基于所述多个采样数据集和所述补充数据集得到样本数据集。

20、根据本公开的一个实施方式,输入至所述生成式预训练转换模型的采样数据集包括:属于同一分类表示且数量未达到要求数量的采样数据集中的至少部分采样数据集。

21、本公开第二方面提出了一种数据处理装置,包括:样本获取模块,用于获取样本数据集,其中所述样本数据集包括多个数据子集,所述数本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述属性信息包括所述样本数据的存储位置信息和/或说明信息,其中所述存储位置信息对应于所述样本数据在数据源中的存储位置。

3.根据权利要求1所述的方法,其特征在于,基于所述特征集得到目标频繁项集,包括:

4.根据权利要求3所述的方法,其特征在于,在基于数据分类模型得到待分类数据的分类结果之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,对得到的目标频繁项集进行筛选,包括;

6.根据权利要求5所述的方法,其特征在于,依据所述组合项集确定所述目标频繁项集的准确率,包括:

7.根据权利要求1所述的方法,其特征在于,获取样本数据集,包括:

8.一种电子设备,其特征在于,包括:

9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的数据处理方法。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7任一项所述的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述属性信息包括所述样本数据的存储位置信息和/或说明信息,其中所述存储位置信息对应于所述样本数据在数据源中的存储位置。

3.根据权利要求1所述的方法,其特征在于,基于所述特征集得到目标频繁项集,包括:

4.根据权利要求3所述的方法,其特征在于,在基于数据分类模型得到待分类数据的分类结果之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,对得到的目标频繁项集进行筛选,包括;

...

【专利技术属性】
技术研发人员:白永冰王超
申请(专利权)人:贝壳找房北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1