【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能
,尤其涉及数据筛选技术和数据处理技术。更具体地,本公开提供了一种数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]随着时间变化,业务场景的数据会发生变化,例如业务场景的主要用户群体会发生变化。进而,业务场景的数据的特征分布也会发生变化。
技术实现思路
[0003]本公开提供了一种数据处理方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种数据处理方法,该方法包括:针对当前处理周期,根据当前训练数据集和当前分类模型,得到上述当前训练数据集中样本的每个特征的重要度,其中,上述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;将重要度大于等于当前预设重要度阈值的特征从上述当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;获取上述当前分类模型的第一性能值,其中,上述第一性能值用于表征上述当前分类模型对具有高重要度特征的样本进行分类的能力,上述高重要度特征为每个样本的特征子集中重要度大于等于上述当前预设重要度阈值的特征;以及响应于上述第一性能值小于或等于预设性能阈值,将上述更新后的训练数据集作为目标训练数据集
[0005]根据第二方面,提供了一种数据处理装置,该装置包括:第一获得模块,用于针对当前处理周期,根据当前训练数据集和当前分类模型,得到上述当前训练数据集中样本的每个特征的重要度,其中,上述训练数据集包括多个样本的特征子集,每个样本的特征子集包 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:针对当前处理周期,根据当前训练数据集和当前分类模型,得到所述当前训练数据集中样本的每个特征的重要度,其中,所述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;将重要度大于等于当前预设重要度阈值的特征从所述当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;获取所述当前分类模型的第一性能值,其中,所述第一性能值用于表征所述当前分类模型对具有高重要度特征的样本进行分类的能力,所述高重要度特征为每个样本的特征子集中重要度大于等于所述当前预设重要度阈值的特征;以及响应于所述第一性能值小于或等于预设性能阈值,将所述更新后的训练数据集作为目标训练数据集。2.根据权利要求1所述的方法,还包括:响应于所述第一性能值大于所述预设性能阈值,对所述更新后的训练数据集进行下一处理周期的处理。3.根据权利要求1或2所述的方法,还包括:响应于所述第一性能值大于所述预设性能阈值,调整所述当前分类模型的参数,得到更新后的分类模型;根据更新后的分类模型进行下一处理周期的处理。4.根据权利要求3所述的方法,还包括:获取所述当前分类模型的第二性能值,其中,所述第二性能值用于表征所述当前分类模型对不具有所述高重要度特征的样本进行分类的能力;所述调整所述当前分类模型的参数,得到更新后的分类模型包括:根据所述第一性能值和所述第二性能值,调整所述当前分类模型的参数,以减小所述第一性能值与所述第二性能值之差,得到所述更新后的分类模型。5.根据权利要求1所述的方法,其中,所述获取所述当前分类模型的第一性能值包括:根据验证数据集和所述当前分类模型,获取所述当前分类模型的所述第一性能值,其中,所述验证数据集用于为所述当前分类模型提供多个具有高重要度特征的样本的特征子集。6.根据权利要求5所述的方法,其中,通过以下操作获取所述验证数据集:根据初始训练数据集,获取所述验证数据集,其中,所述初始训练数据集为第一个处理周期的当前训练数据集。7.根据权利要求4所述的方法,其中,所述获取所述当前分类模型的第二性能值包括:根据所述更新后的训练数据集和所述当前分类模型,获取所述当前分类模型的所述第二性能值。8.根据权利要求1至7任一项所述的方法,还包括:对数据集进行划分,得到第一数据集和第二数据集;为所述第一数据集中每个样本的特征子集添加第一标注,得到标注后的第一数据集;为所述第二数据集中每个样本的特征子集添加第二标注,得到标注后的第二数据集;以及
根据所述标注后的第一数据集和所述标注后的第二数据集,得到初始训练数据集,将所述初始训练数据集作为第一个处理周期的当前训练数据集。9.根据权利要求8所述的方法,其中,所述根据所述标注后的第一数据集和所述标注后的第二数据集,得到初始训练数据集包括:根据所述标注后的第一数据集和所述标注后的第二数据集,得到标注后的数据集;从所述标注后的数据集中随机选择多个样本的特征子集,得到所述初始训练数据集。10.一种数据处理装置,包括:第一获得模块,用于针对当前处理周期,根据当前训练数据集和当前分类模型,得到所述当前训练数据集中样本的每个特征的重要度,其中,所述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;第一删除模块,用于将重要度大于等于当前预设重要度阈值的特征从所述当前训练数据集的每个样本的特征子...
【专利技术属性】
技术研发人员:张巨岩,杨德将,许韩晨玺,武思文,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。