负采样方法和装置制造方法及图纸

技术编号:18784400 阅读:47 留言:0更新日期:2018-08-29 07:11
本发明专利技术提出一种负采样方法和装置,其中,方法包括:确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

【技术实现步骤摘要】
负采样方法和装置
本专利技术涉及大数据分析
,尤其涉及一种负采样方法和装置。
技术介绍
随着信息技术的不断发展,时下已经步入了大数据时代。为了有效的利用和管理这些信息,基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同时包含多个主题的,即多标签问题,而多标签问题中,同一个样例根据不同的主题可以标定不同的分类,多标签分类应用于文本分类、图像识别等领域,而多标签文本分类是最主要的应用,例如,对一篇新闻报道,如果从不同的角度分析就可以将其划分到不同的类别中,也就是说一篇新闻报道即可以看做是政治类的,也可以划分到经济类或体育类。多标签分类任务中,通过样本数据对模型训练,训练后的模型可以从海量数据中筛选出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身,还依赖于提供给模型训练使用的数据,这些数据中,有正样本和负样本,在已知的许多机器学习任务中,负样本的重要程度甚至不低于正样本,比如词嵌入模型Word2Vec。相关技术中,在多标签学习和文档相似性学习任务中,文档的负采样的质量会对模型的学习产生很大的影响。而负采样过程中,通常采用纯随机的方式组成负样本,本文档来自技高网...

【技术保护点】
1.一种负采样方法,其特征在于,包括以下步骤:确定模型训练所采用的正样本;获取所述正样本与待选样本之间的物理相似程度和内容相似程度;根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的负样本。

【技术特征摘要】
1.一种负采样方法,其特征在于,包括以下步骤:确定模型训练所采用的正样本;获取所述正样本与待选样本之间的物理相似程度和内容相似程度;根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的负样本。2.根据权利要求1所述的负采样方法,其特征在于,所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度,包括:根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度;根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。3.根据权利要求2所述的负采样方法,其特征在于,所述待选样本为多个,所述正样本是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度之前,还包括:生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本对中的待选样本不同;计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度;根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵;根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵。4.根据权利要求3所述的负采样方法,其特征在于,所述根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵,包括:确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;针对每一个样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。5.根据权利要求3所述的...

【专利技术属性】
技术研发人员:王兴光林芬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1