缺失分类数据的填充方法、装置、计算机设备及介质制造方法及图纸

技术编号:38550942 阅读:14 留言:0更新日期:2023-08-22 20:57
本发明专利技术实施例提供了一种缺失分类数据的填充方法、装置、计算机设备及介质,涉及数据处理技术领域,其中,该方法包括以下步骤:获取分类初始数据;将分类初始数据中每一行的标识名称对应的多级标识分类展开为多个数组,多个数组形成第一分类集,对第一分类集的数组去重后生成第二分类集;将标识名称、第二分类集中标识分类对应的分类级数和第二分类集中的每个数组形成一个三元组,各个三元组形成第三分类集;判断第三分类集中每个标识名称对应的最大分类级数,并将最大分类级数所在三元组包括的数组作为基准分类;利用基准分类对分类初始数据中缺失的标识分类进行填充。该方案通过初始数据对缺失的分类进行填充,提高了分类数据的准确性。准确性。准确性。

【技术实现步骤摘要】
缺失分类数据的填充方法、装置、计算机设备及介质


[0001]本专利技术涉及数据处理
,特别涉及一种缺失分类数据的填充方法、装置、计算机设备及介质。

技术介绍

[0002]从外部平台采集商品数据时,会遇到外部平台将部分商品的分类隐藏的情况。特别是当分类数据为相互关联的多级的时候,中间分类采集的丢失会让整个商品的数据均产生混乱,对数据的准确性造成了非常大的影响。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供了一种缺失分类数据的填充方法,以解决现有技术中因数据分类丢失造成商品数据不准确的技术问题。该方法包括:获取分类初始数据,并删除分类初始数据中的异常数据,其中,分类初始数据的第一列为标识名称,分类初始数据的第二列至最后一列分别为标识名称对应的多级标识分类,第二列至最后一列对应的分类级数依次递增,分类初始数据中的标识名称为同类对象的不同名称,分类初始数据的每一行为同一标识名称和该标识名称对应的多级标识分类;将分类初始数据中每一行的标识名称对应的多级标识分类,按照标识分类的不同数量组合的方式展开为多个数组,得到每个标识名称对应的多个数组,所有标识名称对应的多个数组形成第一分类集,对第一分类集的数组去重后生成第二分类集;将标识名称、第二分类集中标识分类对应的分类级数和第二分类集中的每个数组形成一个三元组,各个三元组形成第三分类集,其中,第三分类集用于统计每个标识分类对应的分类级数;判断第三分类集中每个标识名称对应的最大分类级数,并将最大分类级数所在三元组包括的数组作为基准分类;利用基准分类对分类初始数据中缺失的标识分类进行填充,生成填充后的数据。
[0004]本专利技术实施例还提供了一种缺失分类数据的填充装置,以解决现有技术中因数据分类丢失造成商品数据不准确的技术问题。该装置包括:获取分类初始数据模块,用于获取分类初始数据,并删除分类初始数据中的异常数据,其中,分类初始数据的第一列为标识名称,分类初始数据的第二列至最后一列分别为标识名称对应的多级标识分类,第二列至最后一列对应的分类级数依次递增,分类初始数据中的标识名称为同类对象的不同名称,分类初始数据的每一行为同一标识名称和该标识名称对应的多级标识分类;分类数据展开模块,用于将分类初始数据中每一行的标识名称对应的多级标识分类,按照标识分类的不同数量组合的方式展开为多个数组,得到每个标识名称对应的多个数组,所有标识名称对应的多个数组形成第一分类集,对第一分类集的数组去重后生成第二分类集;
分类层数统计模块,用于将标识名称、第二分类集中标识分类对应的分类级数和第二分类集中的每个数组形成一个三元组,各个三元组形成第三分类集,其中,第三分类集用于统计每个标识分类对应的分类级数;基准分类生成模块,用于判断第三分类集中每个标识名称对应的最大分类级数,并将最大分类级数所在三元组包括的数组作为基准分类;数据填充模块,用于利用基准分类对分类初始数据中缺失的标识分类进行填充,生成填充后的数据。
[0005]本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的缺失分类数据的填充的方法,以解决现有技术中因数据分类丢失造成商品数据不准确的技术问题。
[0006]本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的缺失分类数据的填充的方法的计算机程序,以解决现有技术中因数据分类丢失造成商品数据不准确的技术问题。
[0007]与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:通过分类初始数据,将分类初始数据中每一行的标识名称对应的多级所述标识分类,按照标识分类的不同数量组合的方式展开为多个数组,去重后生成第二分类集,采集到了所有可能存在的分类层级关系;将标识名称、第二分类集中标识分类对应的分类级数和第二分类集中的每个数组形成一个三元组用于统计每个标识分类对应的分类级数;通过判断最大分类级数找到每个标识分类属于的最深层次并以最深层次所在行的分类作为基准分类;使用基准分类将缺失的分类数据填充。通过上述步骤达到根据分类初始数据,填充缺失的分类数据的目的,解决了因商品的部分分类数据丢失造成商品数据不准确的问题,使商品数据保持准确。
附图说明
[0008]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0009]图1是本专利技术实施例提供的一种缺失分类数据填充方法的流程图;图2是本专利技术实施例提供的一种计算机设备的结构框图;图3是本专利技术实施例提供的一种缺失分类数据填充装置的结构框图。
具体实施方式
[0010]下面结合附图对本申请实施例进行详细描述。
[0011]以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神
下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0012]在本专利技术实施例中,提供了一种缺失分类数据填充的方法,如图1所示,该方法包括:步骤S101:获取分类初始数据,并删除分类初始数据中的异常数据,其中,分类初始数据的第一列为标识名称,分类初始数据的第二列至最后一列分别为标识名称对应的多级标识分类,第二列至最后一列对应的分类级数依次递增,分类初始数据中的标识名称为同类对象的不同名称,分类初始数据的每一行为同一标识名称和该标识名称对应的多级标识分类;步骤S102:将分类初始数据中每一行的标识名称对应的多级标识分类,按照标识分类的不同数量组合的方式展开为多个数组,得到每个标识名称对应的多个数组,所有标识名称对应的多个数组形成第一分类集,对第一分类集的数组去重后生成第二分类集;步骤S103:将标识名称、第二分类集中标识分类对应的分类级数和第二分类集中的每个数组形成一个三元组,各个三元组形成第三分类集,其中,第三分类集用于统计每个标识分类对应的分类级数;步骤S104:判断第三分类集中每个标识名称对应的最大分类级数,并将最大分类级数所在三元组包括的数组作为基准分类;步骤S105:利用基准分类对分类初始数据中缺失的标识分类进行填充,生成填充后的数据。
[0013]具体的,删除分类初始数据中的异常数据。例如,若标识分类定义为数字时,将初始数据中标识分类为非数字的标识分类清空;若标识分类定义为全字母时,将初始数据中标识分类为非字母的标识分类清空;若标识分类定义为固定位数时,将初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种缺失分类数据的填充方法,其特征在于,包括:获取分类初始数据,并删除所述分类初始数据中的异常数据,其中,所述分类初始数据的第一列为标识名称,所述分类初始数据的第二列至最后一列分别为所述标识名称对应的多级标识分类,第二列至最后一列对应的分类级数依次递增,所述分类初始数据中的所述标识名称为同类对象的不同名称,所述分类初始数据的每一行为同一所述标识名称和该所述标识名称对应的多级所述标识分类;将所述分类初始数据中每一行的所述标识名称对应的多级所述标识分类,按照所述标识分类的不同数量组合的方式展开为多个数组,得到每个所述标识名称对应的多个数组,所有所述标识名称对应的多个数组形成第一分类集,对所述第一分类集的数组去重后生成第二分类集;将所述标识名称、所述第二分类集中所述标识分类对应的分类级数和所述第二分类集中的每个数组形成一个三元组,各个三元组形成第三分类集,其中,所述第三分类集用于统计每个标识分类对应的分类级数;判断所述第三分类集中每个所述标识名称对应的最大分类级数,并将所述最大分类级数所在三元组包括的数组作为基准分类;利用所述基准分类对所述分类初始数据中缺失的所述标识分类进行填充,生成填充后的数据。2.如权利要求1所述缺失分类数据的填充方法,其特征在于,将所述标识名称、所述第二分类集中所述标识分类对应的分类级数和所述第二分类集中的每个数组形成一个三元组,包括:对所述第二分类集中的每个数组循环执行以下步骤,直至所述第二分类集中的数组均处理完成,结束循环:读取当前数组中最后一个元素,判断该最后元素是否为有效的标识分类;若是,则将该有效的标识分类作为目标分类;判断所述目标分类在当前数组中所在的列数,并将所述列数作为所述目标分类的分类级数;将所述目标分类作为第一元素,将所述目标分类的分类级数作为第二元素,将当前数组作为第三元素,形成一个三元组。3.如权利要求1所述的缺失分类数据的填充方法,其特征在于,利用所述基准分类对所述分类初始数据中缺失的所述标识分类进行填充,生成填充后的数据,包括:对所述分类初始数据中的每行循环执行以下步骤,直至所述分类初始数据中的行均处理完成,结束循环:读取当前行数据中最后一个元素,判断该最后元素是否为有效的标识分类;若是,则将该有效的标识分类作为非缺失分类;在所述基准分类中,通过所述非缺失分类查找对应数组作为填充基础分类;将当前行中的多级标识分类全部替换为所述填充基础分类。4.如权利要求3所述的缺失分类数据的填充方法,其特征在于,在所述基准分类中,通过所述非缺失分类查找对应数组作为填充基础分类,包括:对所述基准分类中的每个数组循环执行以下步骤,直至所述基准分类中的数组均处理
完成,结束循环:读取当前数组数据中最后一列的元素,判断所述元素是否与所述非缺失分类一致;若是,将当前数组作为填充基准分类。5.如权利要求2所述的缺失分类数据的填充方法,其特征在于,判断所述第三分类集中每个所述标识名称对应的最大分类级数,并将所述...

【专利技术属性】
技术研发人员:董方金宏伟闫锋常星
申请(专利权)人:金锐同创北京科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1