System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 样本数据处理方法、装置、存储介质和系统制造方法及图纸_技高网

样本数据处理方法、装置、存储介质和系统制造方法及图纸

技术编号:40056404 阅读:8 留言:0更新日期:2024-01-16 22:00
公开一种样本数据处理方法、装置、存储介质和系统,所述样本数据处理方法包括:获取训练样本集和测试样本集;利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果;基于各测试样本的所述预测结果,生成附加训练集;获取所述训练样本集和所述附加训练集的合集,得到目标样本集。该样本数据处理方法能够增加用于模型训练的样本量,使后续进行目标模型的训练时具有充足的训练样本,从而提升目标模型的性能。

【技术实现步骤摘要】

本公开总体说来涉及数据处理领域,更具体地讲,涉及一种样本数据处理方法、装置、存储介质和系统


技术介绍

1、人工智能领域依赖于海量数据,在数据量较少的情况下,训练出来的模型往往效果较差。例如,对于表格数据而言,收集数据的成本很高或者因为隐私的原因无法大量收集数据,导致表格数据的存量普遍不足,因此在利用表格数据训练模型时,往往面临训练样本不充足的情况,造成训练出来的模型效果较差。


技术实现思路

1、本公开提供一种样本数据处理方法、装置、存储介质和系统,用于至少解决部分的上述问题。

2、根据本公开的一方面,提供一种样本数据处理方法,所述方法包括:获取训练样本集和测试样本集;利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果;基于各测试样本的所述预测结果,生成附加训练集;获取所述训练样本集和所述附加训练集的合集,得到目标样本集。

3、可选地,所述训练样本集包括多个训练样本和每个训练样本对应的第一标签信息,所述第一标签信息用于表示对应的训练样本是否属于目标类别,所述分类模型用于预测各测试样本属于所述目标类别的第一概率,或,用于预测各测试样本不属于所述目标类别的第二概率。

4、可选地,所述附加训练集包括多个附加样本和每个附加样本对应的第二标签信息,所述第二标签信息用于表示对应的附加样本是否属于所述目标类别,其中,所述基于各测试样本的所述预测结果,生成附加训练集,包括:基于各测试样本的所述预测结果,从所述测试样本集中确定所述多个附加样本;基于每个附加样本的所述预测结果,生成所述每个附加样本对应的第二标签信息。

5、可选地,所述基于各测试样本的所述预测结果,从所述测试样本集中确定所述多个附加样本,包括:从所述测试样本集中选取所述第一概率大于第一阈值的测试样本,并将所述第一概率大于第一阈值的测试样本确定为所述附加样本中的正样本;和/或,从所述测试样本集中选取所述第一概率小于第二阈值的测试样本,并将所述第一概率小于第二阈值的测试样本确定为所述附加样本中的负样本。

6、可选地,所述基于每个附加样本的所述预测结果,生成所述每个附加样本对应的第二标签信息,包括:针对任一附加样本,在该附加样本属于正样本的情况下,将该附加样本对应的所述第二标签信息设置为第一标识,其中,所述第一标识用于表示所述任一附加样本属于所述目标类别;针对任一附加样本,在该附加样本属于负样本的情况下,将该附加样本对应的所述第二标签信息设置为第二标识,其中,所述第二标识用于表示所述任一附加样本不属于所述目标类别。

7、可选地,所述利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果,包括:利用所述训练样本集对所述分类模型进行全局训练,得到训练好的分类模型;利用所述训练好的分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果。

8、可选地,所述利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果包括:利用所述训练样本集对所述分类模型进行交叉训练,分别训练得到多个分类模型;利用所述多个分类模型,对所述测试样本集中各测试样本分别进行分类预测,得到各测试样本的多个候选预测结果;基于各测试样本的所述多个候选预测结果,得到各测试样本的所述预测结果。

9、可选地,所述基于各测试样本的所述多个候选预测结果,得到各测试样本的所述预测结果,包括:针对所述测试样本集中的任一测试样本,对该测试样本的多个所述候选预测结果进行加权处理,得到该测试样本的所述预测结果。

10、可选地,所述方法还包括:利用所述目标样本集对目标模型进行训练,得到训练好的目标模型,其中,所述训练好的目标模型用于执行与所述训练样本集相关联的任务。

11、可选地,所述训练样本集和测试样本集是表格数据。

12、根据本公开的另一方面,提供一种样本数据处理装置,所述装置包括:第一获取单元,被配置为获取训练样本集和测试样本集;分类预测单元,被配置为利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果;样本确定单元,被配置为基于各测试样本的所述预测结果,生成附加训练集;第二获取单元,被配置为获取所述训练样本集和所述附加训练集的合集,得到目标样本集。

13、可选地,所述训练样本集包括多个训练样本和每个训练样本对应的第一标签信息,所述第一标签信息用于表示对应的训练样本是否属于目标类别,所述分类模型用于预测各测试样本属于所述目标类别的第一概率,或,用于预测各测试样本不属于所述目标类别的第二概率。

14、可选地,所述附加训练集包括多个附加样本和每个附加样本对应的第二标签信息,所述第二标签信息用于表示对应的附加样本是否属于所述目标类别,其中,所述样本确定单元被配置为:基于各测试样本的所述预测结果,从所述测试样本集中确定所述多个附加样本;基于每个附加样本的所述预测结果,生成所述每个附加样本对应的第二标签信息。

15、可选地,所述样本确定单元还被配置为:从所述测试样本集中选取所述第一概率大于第一阈值的测试样本,并将所述第一概率大于第一阈值的测试样本确定为所述附加样本中的正样本;和/或,从所述测试样本集中选取所述第一概率小于第二阈值的测试样本,并将所述第一概率小于第二阈值的测试样本确定为所述附加样本中的负样本。

16、可选地,所述样本确定单元还被配置为:针对任一附加样本,在该附加样本属于正样本的情况下,将该附加样本对应的所述第二标签信息设置为第一标识,其中,所述第一标识用于表示所述任一附加样本属于所述目标类别;针对任一附加样本,在该附加样本属于负样本的情况下,将该附加样本对应的所述第二标签信息设置为第二标识,其中,所述第二标识用于表示所述任一附加样本不属于所述目标类别。

17、可选地,所述分类预测单元被配置为:利用所述训练样本集对所述分类模型进行全局训练,得到训练好的分类模型;利用所述训练好的分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果。

18、可选地,所述分类预测单元被配置为:利用所述训练样本集对所述分类模型进行交叉训练,分别训练得到多个分类模型;利用所述多个分类模型,对所述测试样本集中各测试样本分别进行分类预测,得到各测试样本的多个候选预测结果;基于各测试样本的所述多个候选预测结果,得到各测试样本的所述预测结果。

19、可选地,所述分类预测单元还被配置为:针对所述测试样本集中的任一测试样本,对该测试样本的多个所述候选预测结果进行加权处理,得到该测试样本的所述预测结果。

20、可选地,所述装置还包括:模型训练单元,被配置为利用所述目标样本集对目标模型进行训练本文档来自技高网...

【技术保护点】

1.一种样本数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的样本数据处理方法,其特征在于,所述训练样本集包括多个训练样本和每个训练样本对应的第一标签信息,所述第一标签信息用于表示对应的训练样本是否属于目标类别,所述分类模型用于预测各测试样本属于所述目标类别的第一概率,或,用于预测各测试样本不属于所述目标类别的第二概率。

3.如权利要求2所述的样本数据处理方法,其特征在于,所述附加训练集包括多个附加样本和每个附加样本对应的第二标签信息,所述第二标签信息用于表示对应的附加样本是否属于所述目标类别,

4.如权利要求3所述的样本数据处理方法,其特征在于,所述基于各测试样本的所述预测结果,从所述测试样本集中确定所述多个附加样本,包括:

5.如权利要求3所述的样本数据处理方法,其特征在于,所述基于每个附加样本的所述预测结果,生成所述每个附加样本对应的第二标签信息,包括:

6.如权利要求1-5任一项所述的样本数据处理方法,其特征在于,所述利用所述训练样本集对分类模型进行训练,并利用训练得到的所述分类模型对所述测试样本集中各测试样本进行分类预测,得到各测试样本的预测结果包括:

7.如权利要求1-5任一项所述的样本数据处理方法,其特征在于,所述方法还包括:

8.一种样本数据处理装置,其特征在于,所述装置包括:

9.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其特征在于,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的样本数据处理方法。

...

【技术特征摘要】

1.一种样本数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的样本数据处理方法,其特征在于,所述训练样本集包括多个训练样本和每个训练样本对应的第一标签信息,所述第一标签信息用于表示对应的训练样本是否属于目标类别,所述分类模型用于预测各测试样本属于所述目标类别的第一概率,或,用于预测各测试样本不属于所述目标类别的第二概率。

3.如权利要求2所述的样本数据处理方法,其特征在于,所述附加训练集包括多个附加样本和每个附加样本对应的第二标签信息,所述第二标签信息用于表示对应的附加样本是否属于所述目标类别,

4.如权利要求3所述的样本数据处理方法,其特征在于,所述基于各测试样本的所述预测结果,从所述测试样本集中确定所述多个附加样本,包括:

5.如权利要求3所述的样本数据处理方法,其特征在于,所述基于每个附加样本的所述预测结果,生成所述每个附加样...

【专利技术属性】
技术研发人员:蔡恒兴涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1