【技术实现步骤摘要】
数据处理的方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种数据处理的方法和装置。
技术介绍
[0002]随着数据仓库的规模越来越大,其每天需要运行成千上万的数据处理任务。如何对数据仓库运行的这些数据处理任务进行合理的分级,区分出哪些数据处理任务是重要的、哪些数据处理任务是次要的,进而采取对应的数据处理方案,将直接影响到仓库数据的稳定性和数据的可信度。
[0003]目前,对数据仓库运行的数据处理任务划分等级的方式主要是决策者(人工)根据自身经验,主观判断数据处理任务的重要程度,然后为数据处理任务划分等级,然后根据人工确定出的数据处理任务的等级,确定数据处理任务的处理策略。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]现有的数据处理任务的等级划分方式主要依靠经验,导致数据处理任务的等级确定的效率以及准确率较低,从而导致为数据处理任务确定出的处理策略不合理,影响用户体验。
技术实现思路
[0006]有鉴于此,本专利技术实施例提 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:采集多个数据处理样本,所述数据处理样本具有多个特征属性和对应的等级,其中,所述等级指示了所述数据处理样本的处理优先级;针对所述数据处理样本,判断其具有的每一个所述特征属性的属性值是否缺失,如果是,则为所述特征属性填补对应的属性值;利用具有完整属性值和对应的等级的数据处理样本训练分类模型,得到任务等级模型;利用所述任务等级模型,确定新数据处理任务的等级;根据所述新数据处理任务的等级,确定所述新数据处理任务的处理策略。2.根据权利要求1所述的数据处理的方法,其特征在于,进一步包括:将多个所述数据处理样本划分到完整数据集合和缺失数据集合,其中,划分到所述完整数据集合中的数据处理样本具有完整的属性值,划分到所述缺失数据集合中的数据处理样本具有缺失的属性值;针对所述缺失数据集合中的每一个所述数据处理样本的每一个特征属性,执行判断所述特征属性的属性值是否缺失的步骤。3.根据权利要求2所述的数据处理的方法,其特征在于,进一步包括:根据所述数据处理样本的所述多个特征属性对应的属性值,为所述数据处理样本生成预设位数的编码;根据所述数据处理样本的编码,将所述完整数据集合划分为至少一个编码集合,其中,属于同一编码集合中的所有数据处理样本对应的编码相等;为所述特征属性填补对应的属性值的步骤,包括:根据所述缺失数据集合中数据处理样本对应的编码,为所述缺失数据集合中数据处理样本匹配对应的目标编码集合;根据所述目标编码集合对应的所述数据处理样本的属性值,填补所述缺失数据集合中数据处理样本所缺失的属性值。4.根据权利要求3所述的数据处理的方法,其特征在于,为所述数据处理样本生成预设位数的编码的步骤,包括:根据所述数据处理样本中每一个所述特征属性的属性值,为每一个所述特征属性生成预设位数的第一签名值,其中,所述第一签名值中的每一位值属于预设数值范围内的值;根据所述特征属性对应的预设权重和每一个所述特征属性对应的所述第一签名值,计算所述数据处理样本对应的编码。5.根据权利要求3所述的数据处理的方法,其特征在于,为所述数据处理样本生成预设位数的编码的步骤,包括:根据所述数据处理样本中每一个所述特征属性的属性值,为每一个所述特征属性生成预设位数的第二签名值;根据预设的置换策略,对所述第二签名值中的每一位数值进行数值置换;根据所述特征属性对应的预设权重和每一个所述特征属性对应的数值置换后的结果,计算所述数据处理样本对应的编码。6.根据权利要求5所述的数据处理的方法,其特征在于,所述置换策略,包括:
将数值零置换为第一值,将非零的数值置换为第二值。7.根据权利要求1至6任一所述的数据处理的方法,其特征在于,在利用具有完整属性值的数据处理样本和对应的等级训练分类模型步骤之前,进一步包括:基于处理过所述属性值的数据处理样本,计算每一个所述特征属性的信息增益;根据每一个所述特征属性的信息增益,选出多个目标特征属性;利用具有完整属性值和对应的等级的数据处...
【专利技术属性】
技术研发人员:马千里,张明阳,
申请(专利权)人:北京京东世纪贸易有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。