数据处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:39275778 阅读:11 留言:0更新日期:2023-11-07 10:52
本发明专利技术实施例公开了一种数据处理方法、装置和计算机可读存储介质;本发明专利技术实施例在获取待处理数据集后,将待处理数据集对应的属性集合中的属性子集作为节点构建属性网络,基于属性网络,在待处理数据集中统计出节点对应的属性值组合的统计值,以得到属性子集中的至少一个候选属性子集的数据标签,然后,根据数据标签,预测待处理数据集中的预设属性值组合的统计值,基于预测统计值,在候选属性子集中筛选出目标属性子集,并根据目标属性子集的数据标签,对待处理数据集中每一属性对应的属性数据进行调整,得到目标数据集;该方案可以在数据计算中提升数据处理的准确性。本发明专利技术实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。各种场景。各种场景。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和计算机可读存储介质


[0001]本专利技术涉及数据处理领域,具体涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]近年来,随着互联网技术的飞速发展,数据驱动的算法及决策系统的应用也越来越广泛。有些数据因为采集方式和用户分布的差异,导致基于这些数据加工的特征分布不合理,使得依赖这些特征训练的模型或者决策系统在决策时出现严重的偏差或者不公平的现象。为了减轻数据误用和减少算法的偏差,就需要对数据进行处理。由于特征选择模式(属性值组合)的统计值是数据中描述特征的核心,特别是在在确定数据适用性和消除数据偏差方面。因此,现有的数据处理方法往往是在数据集中构建出不同的属性值组合,并统计出这些属性值组合的统计信息,最后基于这些统计信息对数据集进行处理,从而得到准确性和可靠性更高的数据集。
[0003]在对现有技术的研究和实践过程中,本申请的专利技术人发现尽管一些数据集描述中可能存储了单个属性值的统计值,但是对于大多数属性值组合而言,由于组合的数量非常大,为每个属性值存储统计值往往需要消耗大量的计算资源,而在有限的算力资源下,往往是不现实的,因此,导致数据处理的准确性较低。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法、装置、电子设备和计算机可读存储介质,可以提高数据处理的准确性。
[0005]一种数据处理方法,包括:
[0006]获取待处理数据集,所述待处理数据集包括属性集合中每一属性对应的属性数据;
[0007]将所述属性集合中的属性子集作为节点构建属性网络,所述属性网络指示所述节点之间的包含关系;
[0008]基于所述属性网络,在所述待处理数据集中统计出所述节点对应的属性值组合的统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签;
[0009]根据所述数据标签,预测所述待处理数据集中的预设属性值组合的统计值,所述预设属性值组合对应的属性子集包含所述候选属性子集;
[0010]基于预测统计值,在所述候选属性子集中筛选出目标属性子集,并根据所述目标属性子集的数据标签,对所述属性数据进行调整,得到目标数据集。
[0011]相应的,本专利技术实施例提供一种数据处理装置,包括:
[0012]获取单元,用于获取待处理数据集,所述待处理数据集包括属性集合中每一属性对应的属性数据;
[0013]构建单元,用于将所述属性集合中的属性子集作为节点构建属性网络,所述属性
网络指示所述节点之间的包含关系;
[0014]统计单元,用于基于所述属性网络,在所述待处理数据集中统计出所述节点对应的属性值组合的统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签;
[0015]预测单元,用于根据所述数据标签,预测所述待处理数据集中的预设属性值组合的统计值,所述预设属性值组合对应的属性子集包含所述候选属性子集;
[0016]筛选单元,用于基于预测统计值,在所述候选属性子集中筛选出目标属性子集,并根据所述目标属性子集的数据标签,对所述属性数据进行调整,得到目标数据集。
[0017]可选的,在一些实施例中,所述统计单元,具体可以用于对所述属性集合中的每一属性进行排序,并基于排序结果,将所述每一属性作为元素添加至初始查询队列,得到查询队列;根据所述属性网络和所述查询队列,在所述节点中筛选出至少一个候选节点;在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签。
[0018]可选的,在一些实施例中,所述统计单元,具体可以用于基于所述排序结果,在所述查询队列中筛选出目标元素;在所述属性网络中识别出所述目标元素对应的目标节点;在所述属性网络中遍历出所述目标节点对应的至少一个子节点,得到所述候选节点,所述目标节点对应的属性子集包含于所述子节点对应的属性子集。
[0019]可选的,在一些实施例中,所述统计单元,具体可以用于在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值;基于所述候选统计值,在所述属性子集中筛选出至少一个候选属性子集;根据所述候选属性子集对应的统计值,确定所述候选属性子集的数据标签。
[0020]可选的,在一些实施例中,所述统计单元,具体可以用于在所述属性子集中筛选出所述候选统计值的数量未超过预设数量阈值的至少一个属性子集,得到初始候选属性子集;将所述初始候选属性子集作为元素添加至所述查询队列,并在所述查询队列中删除所述目标元素,得到更新后的查询队列;将所述更新后的查询队列作为所述查询队列,并返回执行所述根据所述属性网络和所述查询队列,在所述节点中筛选出至少一个候选节点的步骤,直至不存在所述初始候选属性子集时为止,将所述初始候选属性子集作为所述候选属性子集。
[0021]可选的,在一些实施例中,所述统计单元,具体可以用于在所述候选统计值中筛选出所述候选属性子集中每一属性值组合对应的组合统计值,得到组合统计值集合;在所述待处理数据集中统计出所述每一属性对应的属性值的属性统计值,得到属性统计值集合;基于所述组合统计值集合和所述属性统计值集合,构建所述候选属性子集的数据标签。
[0022]可选的,在一些实施例中,所述预测单元,具体可以用于基于所述预设属性值组合,确定出所述候选属性子集对应的目标属性值组合和目标属性值,所述目标属性值包括所述预设属性值组合中除所述目标属性值组合以外的至少一个属性值;在所述数据标签中提取出所述目标属性值组合对应的目标组合统计值和所述目标属性值对应的目标属性统计值集合;基于所述目标组合统计值和所述目标属性统计值集合,预测所述预设属性组合的统计值,得到所述预测统计值。
[0023]可选的,在一些实施例中,所述预测单元,具体可以用于将所述预设属性值组合与所述候选属性子集对应的属性值组合进行对比;基于对比结果,在所述属性值组合中筛选
出包含所述预设属性值组合中的属性值的目标属性值组合;在所述预设属性值组合中筛选出除所述目标属性值组合中的属性值以外的至少一个属性值,得到目标属性值。
[0024]可选的,在一些实施例中,所述预测单元,具体可以用于在所述目标属性统计值集合中筛选出所述目标属性值对应的统计值,得到目标属性统计值;将所述目标属性统计值集合中的统计值进行融合,得到所述目标属性值对应的融合属性统计值;确定所述目标属性统计值与对应的所述融合属性统计值之间的比值,并将所述比值与所述目标组合统计值进行融合,得到所述预测统计值。
[0025]可选的,在一些实施例中,所述筛选单元,具体可以用于在所述属性网络中查询候选属性子集之间的包含关系;当不存在所述包含关系时,获取所述预设属性值组合对应的标注统计值;将所述标注统计值与所述预测统计值进行对比,以得到所述候选属性子集对应的预测损失;根据所述预测损失,在所述候选属性子集中筛选出所述目标属性子集。
[0026]可选的,在一些实施例中,所述筛选单元,具体可以用于分别将所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理数据集,所述待处理数据集包括属性集合中每一属性对应的属性数据;将所述属性集合中的属性子集作为节点构建属性网络,所述属性网络指示所述节点之间的包含关系;基于所述属性网络,在所述待处理数据集中统计出所述节点对应的属性值组合的统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签;根据所述数据标签,预测所述待处理数据集中的预设属性值组合的统计值,所述预设属性值组合对应的属性子集包含所述候选属性子集;基于预测统计值,在所述候选属性子集中筛选出目标属性子集,并根据所述目标属性子集的数据标签,对所述属性数据进行调整,得到目标数据集。2.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述属性网络,在所述待处理数据集中统计出所述节点对应的属性值组合的统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签,包括:对所述属性集合中的每一属性进行排序,并基于排序结果,将所述每一属性作为元素添加至初始查询队列,得到查询队列;根据所述属性网络和所述查询队列,在所述节点中筛选出至少一个候选节点;在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签。3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述属性网络和所述查询队列,在所述节点中筛选出至少一个候选节点,包括:基于所述排序结果,在所述查询队列中筛选出目标元素;在所述属性网络中识别出所述目标元素对应的目标节点;在所述属性网络中遍历出所述目标节点对应的至少一个子节点,得到所述候选节点,所述目标节点对应的属性子集包含于所述子节点对应的属性子集。4.根据权利要求2所述的数据处理方法,其特征在于,所述在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值,以得到所述属性子集中的至少一个候选属性子集的数据标签,包括:在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值;基于所述候选统计值,在所述属性子集中筛选出至少一个候选属性子集;根据所述候选属性子集对应的统计值,确定所述候选属性子集的数据标签。5.根据权利要求4所述的数据处理方法,其特征在于,所述基于所述候选统计值,在所述属性子集中筛选出至少一个候选属性子集,包括:在所述属性子集中筛选出所述候选统计值的数量未超过预设数量阈值的至少一个属性子集,得到初始候选属性子集;将所述初始候选属性子集作为元素添加至所述查询队列,并在所述查询队列中删除所述目标元素,得到更新后的查询队列;将所述更新后的查询队列作为所述查询队列,并返回执行所述根据所述属性网络和所述查询队列,在所述节点中筛选出至少一个候选节点的步骤,直至不存在所述初始候选属性子集时为止,将所述初始候选属性子集作为所述候选属性子集。
6.根据权利要求4所述的数据处理方法,其特征在于,所述根据所述候选属性子集对应的统计值,确定所述候选属性子集的数据标签,包括:在所述候选统计值中筛选出所述候选属性子集中每一属性值组合对应的组合统计值,得到组合统计值集合;在所述待处理数据集中统计出所述每一属性对应的属性值的属性统计值,得到属性统计值集合;基于所述组合统计值集合和所述属性统计值集合,构建所述候选属性子集的数据标签。7.根据权利要求1至6任一项所述的数据处理方法,其特征在于,所述根据所述数据标签,预测所述待处理数据集中的预设属性值组合的统计值,包括:基于所述预设属性值组合,确定出所述候选属性子集对应的目标属性值组合和目标属性值,所述目标属性值包括所述预设属性值组合中除所述目标属性值组合以外的至少一个属性值;在所述数据标签中提取出所述目标属性值组合对应的目标组合统计值和所述目标属性值对应的目标属性统计值集合;基于所述目标组合统计值和所述目标属性统计值集合,预测所述预设属性组合的统计值,得到所述预测统计值。8.根据权利要求7所述的数据处理方法,其特征在于,所述基于所述预设属性值组合,确定出所述候选属性子集对应的目标属性值组合和目标属性值,包括:将所述预设属性值组合与所述候选属性子集对应的属性值组合进行对比;基于对比结果,在所述属性值组合中筛选出包含所述预设属性值组合中的属性值的目标属性值组合;在所述预设属性值组合中筛选出除所述目标属性值组合中的属性值以外的至少一个属性值,得到目标属性值。9.根据权利要求7所述的数据处理方法,其特征在于,所述基于所...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1