数据处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：39275778 阅读：11 留言：0更新日期：2023-11-07 10:52

本发明专利技术实施例公开了一种数据处理方法、装置和计算机可读存储介质；本发明专利技术实施例在获取待处理数据集后，将待处理数据集对应的属性集合中的属性子集作为节点构建属性网络，基于属性网络，在待处理数据集中统计出节点对应的属性值组合的统计值，以得到属性子集中的至少一个候选属性子集的数据标签，然后，根据数据标签，预测待处理数据集中的预设属性值组合的统计值，基于预测统计值，在候选属性子集中筛选出目标属性子集，并根据目标属性子集的数据标签，对待处理数据集中每一属性对应的属性数据进行调整，得到目标数据集；该方案可以在数据计算中提升数据处理的准确性。本发明专利技术实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。各种场景。各种场景。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及数据处理领域，具体涉及一种数据处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]近年来，随着互联网技术的飞速发展，数据驱动的算法及决策系统的应用也越来越广泛。有些数据因为采集方式和用户分布的差异，导致基于这些数据加工的特征分布不合理，使得依赖这些特征训练的模型或者决策系统在决策时出现严重的偏差或者不公平的现象。为了减轻数据误用和减少算法的偏差，就需要对数据进行处理。由于特征选择模式(属性值组合)的统计值是数据中描述特征的核心，特别是在在确定数据适用性和消除数据偏差方面。因此，现有的数据处理方法往往是在数据集中构建出不同的属性值组合，并统计出这些属性值组合的统计信息，最后基于这些统计信息对数据集进行处理，从而得到准确性和可靠性更高的数据集。
[0003]在对现有技术的研究和实践过程中，本申请的专利技术人发现尽管一些数据集描述中可能存储了单个属性值的统计值，但是对于大多数属性值组合而言，由于组合的数量非常大，为每个属性值存储统计值往往需要消耗大量的计算资源，而在有限的算力资源下，往往是不现实的，因此，导致数据处理的准确性较低。

技术实现思路

[0004]本专利技术实施例提供一种数据处理方法、装置、电子设备和计算机可读存储介质，可以提高数据处理的准确性。
[0005]一种数据处理方法，包括：
[0006]获取待处理数据集，所述待处理数据集包括属性集合中每一属性对应的属性数据；
[0...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取待处理数据集，所述待处理数据集包括属性集合中每一属性对应的属性数据；将所述属性集合中的属性子集作为节点构建属性网络，所述属性网络指示所述节点之间的包含关系；基于所述属性网络，在所述待处理数据集中统计出所述节点对应的属性值组合的统计值，以得到所述属性子集中的至少一个候选属性子集的数据标签；根据所述数据标签，预测所述待处理数据集中的预设属性值组合的统计值，所述预设属性值组合对应的属性子集包含所述候选属性子集；基于预测统计值，在所述候选属性子集中筛选出目标属性子集，并根据所述目标属性子集的数据标签，对所述属性数据进行调整，得到目标数据集。2.根据权利要求1所述的数据处理方法，其特征在于，所述基于所述属性网络，在所述待处理数据集中统计出所述节点对应的属性值组合的统计值，以得到所述属性子集中的至少一个候选属性子集的数据标签，包括：对所述属性集合中的每一属性进行排序，并基于排序结果，将所述每一属性作为元素添加至初始查询队列，得到查询队列；根据所述属性网络和所述查询队列，在所述节点中筛选出至少一个候选节点；在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值，以得到所述属性子集中的至少一个候选属性子集的数据标签。3.根据权利要求2所述的数据处理方法，其特征在于，所述根据所述属性网络和所述查询队列，在所述节点中筛选出至少一个候选节点，包括：基于所述排序结果，在所述查询队列中筛选出目标元素；在所述属性网络中识别出所述目标元素对应的目标节点；在所述属性网络中遍历出所述目标节点对应的至少一个子节点，得到所述候选节点，所述目标节点对应的属性子集包含于所述子节点对应的属性子集。4.根据权利要求2所述的数据处理方法，其特征在于，所述在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值，以得到所述属性子集中的至少一个候选属性子集的数据标签，包括：在所述待处理数据集中统计出所述候选节点对应的属性值组合的候选统计值；基于所述候选统计值，在所述属性子集中筛选出至少一个候选属性子集；根据所述候选属性子集对应的统计值，确定所述候选属性子集的数据标签。5.根据权利要求4所述的数据处理方法，其特征在于，所述基于所述候选统计值，在所述属性子集中筛选出至少一个候选属性子集，包括：在所述属性子集中筛选出所述候选统计值的数量未超过预设数量阈值的至少一个属性子集，得到初始候选属性子集；将所述初始候选属性子集作为元素添加至所述查询队列，并在所述查询队列中删除所述目标元素，得到更新后的查询队列；将所述更新后的查询队列作为所述查询队列，并返回执行所述根据所述属性网络和所述查询队列，在所述节点中筛选出至少一个候选节点的步骤，直至不存在所述初始候选属性子集时为止，将所述初始候选属性子集作为所述候选属性子集。
6.根据权利要求4所述的数据处理方法，其特征在于，所述根据所述候选属性子集对应的统计值，确定所述候选属性子集的数据标签，包括：在所述候选统计值中筛选出所述候选属性子集中每一属性值组合对应的组合统计值，得到组合统计值集合；在所述待处理数据集中统计出所述每一属性对应的属性值的属性统计值，得到属性统计值集合；基于所述组合统计值集合和所述属性统计值集合，构建所述候选属性子集的数据标签。7.根据权利要求1至6任一项所述的数据处理方法，其特征在于，所述根据所述数据标签，预测所述待处理数据集中的预设属性值组合的统计值，包括：基于所述预设属性值组合，确定出所述候选属性子集对应的目标属性值组合和目标属性值，所述目标属性值包括所述预设属性值组合中除所述目标属性值组合以外的至少一个属性值；在所述数据标签中提取出所述目标属性值组合对应的目标组合统计值和所述目标属性值对应的目标属性统计值集合；基于所述目标组合统计值和所述目标属性统计值集合，预测所述预设属性组合的统计值，得到所述预测统计值。8.根据权利要求7所述的数据处理方法，其特征在于，所述基于所述预设属性值组合，确定出所述候选属性子集对应的目标属性值组合和目标属性值，包括：将所述预设属性值组合与所述候选属性子集对应的属性值组合进行对比；基于对比结果，在所述属性值组合中筛选出包含所述预设属性值组合中的属性值的目标属性值组合；在所述预设属性值组合中筛选出除所述目标属性值组合中的属性值以外的至少一个属性值，得到目标属性值。9.根据权利要求7所述的数据处理方法，其特征在于，所述基于所...

【专利技术属性】
技术研发人员：石志林，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人