样本生成方法、训练方法、数据处理方法以及电子设备技术

技术编号:33333637 阅读:23 留言:0更新日期:2022-05-08 09:15
本发明专利技术提供了一种样本生成方法、训练方法、数据处理方法以及电子设备,涉及人工智能技术领域,尤其涉及工业安全、数据挖掘、计算机视觉和深度学习技术领域。具体实现方案为:根据第一样本集,得到样本表征向量集,其中,第一样本集包括多个样本,样本未被确定类别;根据样本表征向量集,对第一样本集进行聚类,得到至少一个聚类样本集;根据至少一个聚类样本集,生成显著样本数据集。生成显著样本数据集。生成显著样本数据集。

【技术实现步骤摘要】
样本生成方法、训练方法、数据处理方法以及电子设备


[0001]本专利技术涉及人工智能
,尤其涉及工业安全、数据挖掘、计算机视觉和深度学习技术。具体地,涉及一种样本生成方法、训练方法、数据处理方法以及电子设备。

技术介绍

[0002]随着计算机技术的发展,人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术及知识图谱技术等。
[0003]人工智能技术在各种领域得到了广泛应用。例如,可以利用人工智能技术生成用于训练深度学习模型的样本。

技术实现思路

[0004]本专利技术提供了一种样本生成方法、训练方法、数据处理方法以及电子设备。
[0005]根据本专利技术的一方面,提供了一种样本生成方法,包括:根据第一样本集,得到样本表征向量集,其中,上述第一样本集包括多个样本,上述样本未被确定类别;根据上述样本表征向量集,对上述第一样本集进行聚类,得到至少一个聚类样本集;以及,根据上述至少一个聚类样本集,生成显著样本数据集。/>[0006]根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本生成方法,包括:根据第一样本集,得到样本表征向量集,其中,所述第一样本集包括多个样本,所述样本未被确定类别;根据所述样本表征向量集,对所述第一样本集进行聚类,得到至少一个聚类样本集;以及根据所述至少一个聚类样本集,生成显著样本集。2.根据权利要求1所述的方法,其中,所述根据第一样本集,得到样本表征向量集,包括:利用表征模型处理所述第一样本集,得到所述样本表征向量集,其中,所述表征模型是基于损失函数,根据正样本的样本表征向量和与所述正样本对应的多个负样本的样本表征向量训练自监督模型得到的,所述多个负样本是从与所述正样本对应的多个候选负样本中确定的。3.根据权利要求2所述的方法,其中,所述多个负样本是从与所述正样本对应的多个候选负样本中确定的,包括:与所述正样本对应的多个负样本是根据所述正样本的表征向量和与所述正样本对应的多个候选负样本的表征向量,从所述多个候选负样本中确定的;其中,所述正样本的样本表征向量是利用所述自监督模型处理所述正样本得到的;其中,所述负样本的样本表征向量是利用所述自监督模型处理所述负样本得到的。4.根据权利要求2或3所述的方法,其中,所述显著样本集包括至少一个显著样本;所述方法还包括:根据所述显著样本,从与所述显著样本对应的聚类样本集中确定异常样本集,以便利用所述显著样本集和所述异常样本集对所述表征模型进行优化,其中,所述异常样本集包括的异常样本的类别与所述显著样本的类别不同。5.根据权利要求4所述的方法,其中,所述根据所述显著样本,从与所述显著样本对应的聚类样本集中确定异常样本集,包括:响应于检测到针对所述显著样本的标记操作,显示与所述显著样本对应的聚类样本集;以及从与所述显著样本对应的聚类样本集中确定与所述显著样本的类别不同的样本,得到所述异常样本集。6.根据权利要求1或2所述的方法,其中,所述根据所述样本表征向量集,对所述第一样本集进行聚类,得到至少一个聚类样本集,包括:利用基于密度的聚类算法,根据所述样本表征向量集,得到所述至少一个聚类样本集,其中,所述聚类样本集具有聚类样本中心,所述聚类样本集包括至少一个聚类样本;其中,所述根据所述至少一个聚类样本集,确定显著样本集,包括:将所述聚类样本中心确定为所述显著样本。7.根据权利要求6所述的方法,其中,所述利用基于密度的聚类算法,根据所述样本表征向量集,得到所述至少一个聚类样本集,包括:利用所述基于密度的聚类算法,根据所述样本表征向量集,得到至少一个初始聚类样本集,其中,所述初始聚类样本集具有初始聚类样本中心;
在确定存在偏离样本的情况下,根据所述偏离样本的样本表征向量和与至少一个所述初始聚类样本中心对应的样本表征向量,确定与所述偏离样本对应的初始聚类样本集,得到更新后的初始聚类样本集;以及根据与待重聚类样本集对应的样本表征向量集,对所述待重聚类样本集进行聚类,得到与所述待重聚类样本集对应的至少一个聚类样本集,其中,所述待重聚类样本集包括以下至少一项:所述更新后的初始聚类样本集和至少一个其他聚类样本集,所述其他聚类样本集是所述至少一个初始聚类样本集中除所述更新后的初始聚类样本集以外的初始聚类样本集。8.根据权利要求1或2所述的方法,其中,所述显著样本集包括至少一个显著样本;所述方法还包括:针对所述显著样本,在根据所述显著样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集,确定所述历史显著样本集中存在与所述显著样本相匹配的匹配样本的情况下,将与所述显著样本对应的聚类样本集和与所述匹配样本对应的聚类样本集进行合并;以及在根据所述显著样本的样本表征向量和与所述历史样本集包括的历史显著样本集对应的样本表征向量集,确定所述历史显著样本集中不存在与所述显著样本相匹配的匹配样本的情况下,将所述显著样本确定为新的历史显著样本,以及将与所述显著样本对应的聚类样本集添加至所述历史样本集。9.根据权利要求8所述的方法,还包括:根据所述显著样本的样本表征向量和与所述历史样本集包括的历史显著样本集对应的样本表征向量集,确定所述显著样本与所述历史显著样本集包括的至少一个历史显著样本之间的距离,得到至少一个距离;以及根据所述至少一个距离,确定所述历史显著样本集中是否存在与所述显著样本相匹配的匹配样本。10.根据权利要求1或2所述的方法,其中,所述样本包括以下一项:样本图像、样本文本和样本音频。11.一种深度学习模型的训练方法,包括:将显著样本输入所述深度学习模型,得到输出值;根据所述输出值和所述显著样本的标签值,确定损失函数值;以及根据所述损失函数值调整所述深度学习模型的模型参数,得到经训练的深度学习模型,其中,所述显著样本数据是利用根据权利要求1~10中任一项所述的方法生成的。12.根据权利要求11所述的方法,还包括:在根据与所述显著样本对应的输出值和标签值确定所述显著样本是错误样本的情况下,根据错误样本的样本表征向量和与历史样本集包括的历史显著样本集对应的样本表征向量集,从所述历史样本集中确定与所述错误样本对应的相似样本集,以便利用所述相似样本集执行针对所述经训练的深度学习模型的训练操作。
13.一种数据处理方法,包括:将待处理数据输入所述经训练的深度学习模型,得到数据处理结果,其中,所述经训练的深度学习模型是利用根据权利要求11或12所述的方法训练得到的。14.一种样本生成装置,包括:第一获得模块,用于根据第一样本集,得到样本表征向量集,其中,所述第一样本集包括多个样本,所述样本未被确定类别;第二获得模块,用于根据所述样本表征向量集,对所述第一样本集进行聚类,得到至少一个聚类样本集;以及生成模块,用于根据所述至少一个聚类样本集,生成显著样本数据集。15.根据权利要求14所述的装置,其中,所述第一获得模块包括:第一获得单元,用于利用表征模型处理所述第...

【专利技术属性】
技术研发人员:李硕许晓文聂磊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1