数据处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:32223778 阅读:11 留言:0更新日期:2022-02-09 17:28
本公开提供了一种数据处理方法,涉及人工智能领域,尤其涉及数据筛选技术和数据处理技术。具体实现方案为:针对当前处理周期,根据当前训练数据集和当前分类模型,得到当前训练数据集中样本的每个特征的重要度;将重要度大于等于当前预设重要度阈值的特征从当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;获取当前分类模型的第一性能值;以及响应于第一性能值小于或等于预设性能阈值,将更新后的训练数据集作为目标训练数据集。本公开还提供了一种数据处理装置、电子设备和存储介质。备和存储介质。备和存储介质。

【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及数据筛选技术和数据处理技术。更具体地,本公开提供了一种数据处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着时间变化,业务场景的数据会发生变化,例如业务场景的主要用户群体会发生变化。进而,业务场景的数据的特征分布也会发生变化。

技术实现思路

[0003]本公开提供了一种数据处理方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种数据处理方法,该方法包括:针对当前处理周期,根据当前训练数据集和当前分类模型,得到上述当前训练数据集中样本的每个特征的重要度,其中,上述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;将重要度大于等于当前预设重要度阈值的特征从上述当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;获取上述当前分类模型的第一性能值,其中,上述第一性能值用于表征上述当前分类模型对具有高重要度特征的样本进行分类的能力,上述高重要度特征为每个样本的特征子集中重要度大于等于上述当前预设重要度阈值的特征;以及响应于上述第一性能值小于或等于预设性能阈值,将上述更新后的训练数据集作为目标训练数据集
[0005]根据第二方面,提供了一种数据处理装置,该装置包括:第一获得模块,用于针对当前处理周期,根据当前训练数据集和当前分类模型,得到上述当前训练数据集中样本的每个特征的重要度,其中,上述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;第一删除模块,用于将重要度大于等于当前预设重要度阈值的特征从上述当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;第一获取模块,用于获取上述当前分类模型的第一性能值,其中,上述第一性能值用于表征上述当前分类模型对具有高重要度特征的样本进行分类的能力,上述高重要度特征为每个样本的特征子集中重要度大于等于上述当前预设重要度阈值的特征;以及第二获得模块,用于响应于上述第一性能值小于或等于预设性能阈值,将上述更新后的训练数据集作为目标训练数据集
[0006]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0007]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0008]根据第五方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开一个实施例的可以应用数据处理方法和装置的示例性系统架构示意图;
[0012]图2是根据本公开一个实施例的数据处理方法的流程图;
[0013]图3A是根据本公开一个实施例的数据处理方法的原理图;
[0014]图3B是根据本公开另一个实施例的数据处理方法的原理图;
[0015]图4是根据本公开一个实施例的数据处理装置的框图;以及
[0016]图5是根据本公开一个实施例的可以应用数据处理方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]相关业务场景的数据的特征分布会随时间的变化而发生变化。将这些数据作为样本,对模型进行训练,会影响模型的稳定性。相关技术中,可以采用人工去除部分数据的方式,对样本进行筛选,以提高模型的稳定性。
[0019]但是,对样本进行筛选需要进行一定的计算,成本较高,并且难以准确地筛选出影响模型稳定性的样本。
[0020]图1是根据本公开一个实施例的可以应用数据处理方法和装置的示例性系统架构示意图。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的
技术实现思路
,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
[0021]如图1所示,根据该实施例的系统架构100可以包括多个终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线和/或无线通信链路等等。
[0022]用户可以使用终端设备101通过网络102与服务器103进行交互,以接收或发送消息等。终端设备101可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机等等。
[0023]本公开实施例所提供的数据处理方法一般可以由服务器103执行。相应地,本公开实施例所提供的数据处理装置一般可以设置于服务器103中。本公开实施例所提供的数据处理方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
[0024]图2是根据本公开一个实施例的数据处理方法的流程图。
[0025]如图2所示,该数据处理方法200可以包括操作S210至操作S240。
[0026]在操作S210,针对当前处理周期,根据当前训练数据集和当前分类模型,得到当前训练数据集中样本的每个特征的重要度。
[0027]在本公开实施例中,训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征。
[0028]例如,多个样本的特征子集中包含了相同数量的特征。
[0029]例如,可以对训练数据集进行多个处理周期的处理。在一个示例中,上一处理周期得到的更新后的训练数据集,可以作为当前处理周期的当前训练数据集。
[0030]在本公开实施例中,可以对数据集进行划分,得到第一数据集和第二数据集。
[0031]例如,数据集可以是原始的数据集,每个数据集中包含多个样本的特征子集,每个样本的特征子集包括多个特征。
[0032]例如,数据集中的多个样本可以是根据某个产品的年度销售数据得到的多个样本。每个样本可以对应的一个该产品的用户。针对多个样本,对每个样本进行特征提取,可以得到多个样本的特征子集。
[0033]需要说明的是,本公开实施例中的样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:针对当前处理周期,根据当前训练数据集和当前分类模型,得到所述当前训练数据集中样本的每个特征的重要度,其中,所述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;将重要度大于等于当前预设重要度阈值的特征从所述当前训练数据集的每个样本的特征子集中删除,得到更新后的训练数据集;获取所述当前分类模型的第一性能值,其中,所述第一性能值用于表征所述当前分类模型对具有高重要度特征的样本进行分类的能力,所述高重要度特征为每个样本的特征子集中重要度大于等于所述当前预设重要度阈值的特征;以及响应于所述第一性能值小于或等于预设性能阈值,将所述更新后的训练数据集作为目标训练数据集。2.根据权利要求1所述的方法,还包括:响应于所述第一性能值大于所述预设性能阈值,对所述更新后的训练数据集进行下一处理周期的处理。3.根据权利要求1或2所述的方法,还包括:响应于所述第一性能值大于所述预设性能阈值,调整所述当前分类模型的参数,得到更新后的分类模型;根据更新后的分类模型进行下一处理周期的处理。4.根据权利要求3所述的方法,还包括:获取所述当前分类模型的第二性能值,其中,所述第二性能值用于表征所述当前分类模型对不具有所述高重要度特征的样本进行分类的能力;所述调整所述当前分类模型的参数,得到更新后的分类模型包括:根据所述第一性能值和所述第二性能值,调整所述当前分类模型的参数,以减小所述第一性能值与所述第二性能值之差,得到所述更新后的分类模型。5.根据权利要求1所述的方法,其中,所述获取所述当前分类模型的第一性能值包括:根据验证数据集和所述当前分类模型,获取所述当前分类模型的所述第一性能值,其中,所述验证数据集用于为所述当前分类模型提供多个具有高重要度特征的样本的特征子集。6.根据权利要求5所述的方法,其中,通过以下操作获取所述验证数据集:根据初始训练数据集,获取所述验证数据集,其中,所述初始训练数据集为第一个处理周期的当前训练数据集。7.根据权利要求4所述的方法,其中,所述获取所述当前分类模型的第二性能值包括:根据所述更新后的训练数据集和所述当前分类模型,获取所述当前分类模型的所述第二性能值。8.根据权利要求1至7任一项所述的方法,还包括:对数据集进行划分,得到第一数据集和第二数据集;为所述第一数据集中每个样本的特征子集添加第一标注,得到标注后的第一数据集;为所述第二数据集中每个样本的特征子集添加第二标注,得到标注后的第二数据集;以及
根据所述标注后的第一数据集和所述标注后的第二数据集,得到初始训练数据集,将所述初始训练数据集作为第一个处理周期的当前训练数据集。9.根据权利要求8所述的方法,其中,所述根据所述标注后的第一数据集和所述标注后的第二数据集,得到初始训练数据集包括:根据所述标注后的第一数据集和所述标注后的第二数据集,得到标注后的数据集;从所述标注后的数据集中随机选择多个样本的特征子集,得到所述初始训练数据集。10.一种数据处理装置,包括:第一获得模块,用于针对当前处理周期,根据当前训练数据集和当前分类模型,得到所述当前训练数据集中样本的每个特征的重要度,其中,所述训练数据集包括多个样本的特征子集,每个样本的特征子集包括该样本的多个特征;第一删除模块,用于将重要度大于等于当前预设重要度阈值的特征从所述当前训练数据集的每个样本的特征子...

【专利技术属性】
技术研发人员:张巨岩杨德将许韩晨玺武思文
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1