废旧物数据的清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37985364 阅读:9 留言:0更新日期:2023-06-30 10:00
本申请提供一种废旧物数据的清洗方法、装置、电子设备及存储介质。该方法包括:获取多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度;其中,每个标准废旧物数据为对应的标准清洗规则对废旧物样本数据进行清洗得到;对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。本申请能够废旧物数据的清洗效率。本申请能够废旧物数据的清洗效率。本申请能够废旧物数据的清洗效率。

【技术实现步骤摘要】
废旧物数据的清洗方法、装置、电子设备及存储介质


[0001]本申请涉及废旧物数据清洗
,尤其涉及一种废旧物数据的清洗方法、装置、电子设备及存储介质。

技术介绍

[0002]在网络信息化的今天,通过线上交易可以加快废旧物处理的公平化、合理化,缩短废旧物品处置的周期,促进废旧物的流通效率。其中,废旧物可以包括快递纸箱、旧衣物、饮料瓶、废钢筋、废铁等。
[0003]废旧物数据大多由用户上传或者由专业人员现场采集上传,存在录入失败、数值缺失、数据重复的可能,需要对废旧物数据进行数据清洗,以纠正废旧物数据中的错误。
[0004]现有大多使用标准的清洗规则直接对废旧物数据进行清洗,然而,由于废旧物数据种类繁多,直接使用标准的清洗规则进行清洗,无法保证废旧物数据的清洗准确性,影响后续废旧物线上交易的可靠性。

技术实现思路

[0005]本申请提供了一种废旧物数据的清洗方法、装置、电子设备及存储介质,以解决现有大多使用标准的清洗规则直接对废旧物数据进行清洗,无法保证废旧物数据的清洗准确性的问题。
[0006]第一方面,本申请提供了一种废旧物数据的清洗方法,包括:获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
[0007]在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:计算每个废旧物数据与其他废旧物数据之间的第一相似度;根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。
[0008]在一种可能的实现方式中,计算每个废旧物数据与其他废旧物数据之间的第一相似度,包括:将各个废旧物数据向量化;计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并
将相似度作为第一相似度。
[0009]在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。
[0010]在一种可能的实现方式中,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,可以包括:对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;具体的,匹配度计算公式包括第一公式和第二公式,第一公式包括:第一公式包括:第一公式包括:第一公式包括:表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,表示第f类废旧物数据集的特征系数,表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一相似度,表示第f类废旧物数据集与第n个标准废旧物数据之间的相关度,表示第f类废旧物数据集中第j个废旧
物数据与第n个标准废旧物数据之间的第二相似度;其中,,越大,第f类废旧物数据集与第n个标准废旧物数据之间的匹配度越高;第二公式包括:第二公式包括:第二公式包括:n0表示与第f类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,表示第f类废旧物数据集与第n0个标准废旧物数据之间的匹配度,表示第f类废旧物数据集与第n0个标准废旧物数据之间的相关度,表示第f类废旧物数据集中第j个废旧物数据与第n0个标准废旧物数据之间的第二相似度;其中,,越大,第f类废旧物数据集与第n0个标准废旧物数据之间的匹配度越高。
[0011]在一种可能的实现方式中,该方法还包括:统计所有混合清洗规则中各个清洗规则的使用频率;筛选所有使用频率大于预设使用频率的标准清洗规则,组成通用清洗规则集。
[0012]在一种可能的实现方式中,对多个废旧物数据进行分类,得到多类废旧物数据集,包括:使用通用清洗规则集对多个废旧物数据进行数据清洗,并对未发生变化的废旧物数据进行分类,得到多类废旧物数据集。
[0013]第二方面,本申请提供了一种废旧物数据的清洗装置,包括:第一数据获取模块,用于获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;第二数据获取模块,用于获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;第一计算模块,用于确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;数据清洗模块,用于根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。
[0014]第三方面,本申请提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。
[0015]第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式废旧物数据的清洗方法的步骤。
[0016]本申请提供一种废旧物数据的清洗方法、装置、电子设备及存储介质,通过获取多个废旧物数据,并对多个废旧物数据进行分类,得到多类废旧物数据集;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度;对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种废旧物数据的清洗方法,其特征在于,包括:获取线上交易平台的多个废旧物数据,并对多个废旧物数据进行预处理,得到多类废旧物数据集;获取线上交易平台的多个废旧物样本数据和多个标准清洗规则,并采用一个标准清洗规则对一个废旧物样本数据进行清洗,得到多个标准废旧物数据;其中,每个标准废旧物数据对应至少一个标准数据清洗规则;确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,并对于每类废旧物数据集,选择匹配度大于预设匹配度的所有标准废旧物数据对应的标准清洗规则组成该类废旧物数据集的混合清洗规则集;根据每类废旧物数据集的混合清洗规则集对各类废旧物数据集进行数据清洗。2.根据权利要求1所述的废旧物数据的清洗方法,其特征在于,对多个废旧物数据进行预处理,得到多类废旧物数据集,包括:将各个废旧物数据向量化;计算每个向量化后的废旧物数据与其他向量化后的废旧物数据之间的相似度,并将所述相似度作为第一相似度;根据第一相似度对多个废旧物数据进行分类,得到多类废旧物数据集。3.根据权利要求2所述的废旧物数据的清洗方法,其特征在于,所述确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:对于每类废旧物数据集中的每个废旧物数据,计算该废旧物数据与各个标准废旧物数据之间的第二相似度,并根据所有的第二相似度确定该类废旧物数据集与各个标准废旧物数据之间的匹配度。4.根据权利要求3所述的废旧物数据的清洗方法,其特征在于,确定每类废旧物数据集与各个标准废旧物数据之间的匹配度,包括:对于每类废旧物数据集,若该类废旧物数据集中废旧物数据的数量不超过预设数量,则根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个标准废旧物数据之间的匹配度;若该类废旧物数据集中废旧物数据的数量超过预设数量,则筛选出与该类废旧物数据集中单个废旧物数据的第二相似度大于预设阈值的标准废旧物数据,标记为筛选标准废旧物数据,根据该类废旧物数据集中各个废旧物数据与其他废旧物数据之间的第一相似度计算该类废旧物数据集的特征系数,根据该类废旧物数据集中各个废旧物数据与各个筛选标准废旧物数据之间的第二相似度计算该类废旧物数据集与各个筛选标准废旧物数据之间的相关度,根据特征系数和相关度计算该类废旧物数据集与各个筛选标准废旧物数据之间的匹配度;具体的,匹配度计算公式包括第一公式和第二公式;第一公式包括:
表示第f类废旧物数据集与第n个标准废旧物数据之间的匹配度,m表示第f类废旧物数据集中废旧物数据的数量,表示第f类废旧物数据集的特征系数,表示第f类数据集中第i个废旧物数据与第x个废旧物数据之间的第一...

【专利技术属性】
技术研发人员:李君彦赵全义赵玉乐
申请(专利权)人:河北中废通网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1