样本的选择方法、装置、设备以及存储介质制造方法及图纸

技术编号:37958046 阅读:19 留言:0更新日期:2023-06-30 09:31
本公开提供了样本的选择方法、装置、设备以及存储介质,涉及数据处理领域,尤其涉及人工智能、大数据、机器学习领域。具体实现方案为:获取多个未标注样本。针对多个未标注样本中的任一未标注样本,确定该未标注样本的扰动向量,未标注样本的扰动向量用于表征未标注样本受噪音影响的程序。其中,未标注样本的扰动向量越大,未标注样本的复杂度越高。根据多个未标注样本中每个未标注样本的扰动向量,从多个未标注样本中选择目标未标注样本,目标未标注样本包括多个扰动向量不同的未标注样本。注样本包括多个扰动向量不同的未标注样本。注样本包括多个扰动向量不同的未标注样本。

【技术实现步骤摘要】
样本的选择方法、装置、设备以及存储介质


[0001]本公开涉及数据处理领域,尤其涉及人工智能、大数据、机器学习领域,具体涉及一种样本的选择方法、装置、设备以及存储介质。

技术介绍

[0002]在使用训练数据进行模型训练时,某些情况下,训练数据包括大量的未标注样本。需要从大量的未标注样本选取合适的未标注样本进行标注,从而,可以使用标注后的数据进行模型训练。

技术实现思路

[0003]本公开提供了一种样本的选择方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种样本的选择方法,包括:
[0005]获取多个未标注样本。针对多个未标注样本中的任一未标注样本,确定该未标注样本的扰动向量,未标注样本的扰动向量用于表征未标注样本受噪音影响的程度。其中,未标注样本的扰动向量越大,未标注样本的复杂度越高。根据多个未标注样本中每个未标注样本的扰动向量,从多个未标注样本中选择目标未标注样本,目标未标注样本包括多个扰动向量不同的未标注样本。
[0006]根据本公开的另一方面,提供了一种样本的选择装置,包括:本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本的选择方法,包括:获取多个未标注样本;针对所述多个未标注样本中的任一未标注样本,确定所述未标注样本的扰动向量,所述扰动向量用于表征所述未标注样本受噪音影响的程度;所述未标注样本的扰动向量越大,所述未标注样本的复杂度越高;根据所述多个未标注样本中每个未标注样本的扰动向量,从所述多个未标注样本中选择目标未标注样本,所述目标未标注样本包括多个扰动向量不同的未标注样本。2.根据权利要求1所述的方法,其中,所述未标注样本包括多个元素,所述确定所述未标注样本的扰动向量,包括:根据所述未标注样本的初始特征向量以及扰动特征向量,确定所述未标注样本的扰动向量,所述扰动向量包括的元素与所述未标注样本包括的多个元素对应;其中,所述未标注样本的初始特征向量用于表征所述未标注样本的多个元素对应的特征值,所述未标注样本的扰动特征向量用于表征加扰后的所述未标注样本的多个元素对应的特征值。3.根据权利要求2所述的方法,其中,所述方法还包括:将所述未标注样本输入初始模型得到所述未标注样本的初始特征向量;对所述初始模型进行扰动处理,得到扰动模型,并将所述未标注样本输入所述扰动模型,得到所述未标注样本的扰动特征向量;所述初始模型具有确定样本的多个元素的多个特征值的功能。4.根据权利要求3所述的方法,其中,所述对所述初始模型进行扰动处理,得到扰动模型,包括:调整所述初始模型的目标参数,将调整后的所述初始模型确定为所述扰动模型;所述目标参数包括所述初始模型的参数中用于提取所述初始模型的输入样本的特征向量的参数。5.根据权利要求4所述的方法,其中,所述初始模型包括多个卷积层,所述目标参数包括所述多个卷积层中一个或多个卷积层的参数。6.根据权利要求2

5任一项所述的方法,其中,所述方法还包括:将所述多个未标注样本的初始特征向量进行拼接,得到所述多个未标注样本的初始特征矩阵,以及将所述多个未标注样本的扰动特征向量进行拼接,得到所述多个未标注样本的扰动特征矩阵,在所述初始特征矩阵及所述扰动特征矩阵中,所述多个未标注样本的排序相同;根据所述初始特征矩阵以及所述扰动特征矩阵,确定所述多个未标注样本对应的扰动向量矩阵,所述扰动向量矩阵包括所述多个未标注样本中每个未标注样本的扰动向量;所述根据所述多个未标注样本中每个未标注样本的扰动向量,从所述多个未标注样本中选择目标未标注样本,包括:根据所述扰动向量矩阵从所述多个标注样本中选择所述目标未标注样本。7.一种样本的选择装置,包括:获取单元,用于多个未标注样本;确定单元,用于针对所述多个未标注样本中的任一未标注样本,确定所述未标注样本
的扰动向量,所述扰动向量用于表征所述未标注样本受噪音影响的程序;所述未标注样本的扰动向量越大,所述未标注样本的复杂度越高;选择单元,用于根...

【专利技术属性】
技术研发人员:李兴建吴昊宇熊昊一
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1