训练样本排查方法及其装置、设备、介质、产品制造方法及图纸

技术编号:31748407 阅读:18 留言:0更新日期:2022-01-05 16:28
本申请公开一种训练样本排查方法及其装置、设备、介质、产品,所述方法包括:获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,所述被训练模型为神经网络模型;构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中;根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标训练样本;获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练。本申请能够筛选出具有数据特点的未标识训练样本供人工标注循环投入对被训练模型的有监督训练,从而提升被训练模型的收敛效率,减少被训练模型对训练样本的依赖。本的依赖。本的依赖。

【技术实现步骤摘要】
训练样本排查方法及其装置、设备、介质、产品


[0001]本申请涉及信息
,尤其涉及一种训练样本排查方法及其相应的装 置、计算机设备、计算机可读存储介质,以及计算机程序产品。

技术介绍

[0002]神经网络模型的训练,依赖于大数据,因此,训练样本的多寡对模型的收 敛起关键作用。目前解决训练样本稀少的常用方式包括对训练样本做数据增强、 进行半监督学习、微调、迁移学习等方式,这些常用方式在某种程度上改善了 问题,然后在很多应用领域中,由于数据分布稀疏、无标注的情况依然存在, 这些常用手段所能贡献的效果依然是有限的。
[0003]典型的,例如在电商信息处理
,特别是基于独立站的跨境电商领 域,每家独立站内,商品类目树中不同叶端节点所对应的训练样本差别非常大, 如果依赖于这些常用手段,部分类目的训练样本,依然难以完成训练任务。
[0004]另一方面,现有技术在进行自监督或半监督学习的过程中,一些未标注训 练样本存在自身的数据特征,使得其被模型分类时未能得到良好的分类结果, 这种情况下,这些训练样本自身的数据价值并未被有效利用,因此,仍残存对 这部分未标识训练样本进行二次数据挖掘的可能性。
[0005]有鉴于此,本申请人做出相应的探索,期望在现有技术的基础上做出相应 的贡献。

技术实现思路

[0006]本申请的首要目的在于解决上述问题至少之一而提供一种训练样本排查方 法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0007]为满足本申请的各个目的,本申请采用如下技术方案:
[0008]适应本申请的目的之一而提供的一种训练样本排查方法,包括如下步骤:
[0009]获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分 布数据,所述被训练模型为神经网络模型;
[0010]构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱, 将特征图谱添加到图谱库中;
[0011]根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分 布数据命中该筛选策略的目标训练样本;
[0012]获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施 有监督训练。
[0013]深化的实施例中,获取被训练模型根据未标注的训练样本的特征表示进行 分类生成的概率分布数据,包括如下步骤:
[0014]启动至少一个训练任务用于对所述被训练模型进行训练;
[0015]将所述未标注的训练样本输入所述被训练模型进行表示学习,获得相应的 特征表示;
[0016]将所述特征表示进行全连接后映射到分类空间,由分类器对应各个训练任 务计算出分类空间中各个分类标签相对应的概率值;
[0017]提取各个分类标签的概率值构成所述训练样本的概率分布数据。
[0018]深化的实施例中,构造用于表示所述训练样本与其概率分布数据的映射关 系数据的特征图谱,将特征图谱添加到图谱库中,包括如下步骤:
[0019]获取每个训练样本相对应的概率分布数据;
[0020]构造所述训练样本的特征图谱,该特征图谱包括该训练样本与其所映射的 分类标签相对应的概率值之间的映射关系数据;
[0021]将所述特征图谱添加至所述的图谱库中。
[0022]深化的实施例中,所述筛选策略按照如下任意一种或任意多种方式进行配 置:
[0023]所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选 出概率分布数据中最大概率与次大概率差值低于第一预定阈值的目标训练样本。
[0024]所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选 出概率分布数据的信息熵超过第二预设阈值的目标训练样本。
[0025]所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选 出概率分布数据中最大概率低于第三预设阈值的目标训练样本。
[0026]深化的实施例中,获取所述目标训练样本的人工标注的监督标签,据以对 所述训练模型实施有监督训练,包括如下步骤:
[0027]获取为所述目标训练样本人工标注的监督标签;
[0028]以目标训练样本及其监督标签更新样本库中相应的未标注训练样本的数据 记录;
[0029]创建训练任务启动对所述被训练模型实施有监督训练,训练过程中以所述 目标训练样本为输入,以其相应的监督标签监督分类所得的概率分布数据对被 训练模型实施梯度更新。
[0030]较佳的实施例中,所述被训练模型为文本特征提取模型或图像特征提取模 型,相应的,所述训练样本为商品对象的标题文本或商品图片。
[0031]适应本申请的目的之一而提供的一种训练样本排查装置,包括:概率获取 模块、图谱生成模块、样本筛选模块,以及循环训练模块,其中,所述概率获 取模块,用于获取被训练模型根据未标注的训练样本的特征表示进行分类生成 的概率分布数据,所述被训练模型为神经网络模型;所述图谱生成模块,用于 构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将 特征图谱添加到图谱库中;所述样本筛选模块,用于根据预设筛选策略对所述 图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标 训练样本;所述循环训练模块,用于获取所述目标训练样本的人工标注的监督 标签,据以对所述训练模型实施有监督训练。
[0032]深化的实施例中,所述概率获取模块包括:训练启动子模块,用于启动至 少一个训练任务用于对所述被训练模型进行训练;特征表示子模块,用于将所 述未标注的训练样本输入所述被训练模型进行表示学习,获得相应的特征表示; 分类映射子模块,用于将所
述特征表示进行全连接后映射到分类空间,由分类 器对应各个训练任务计算出分类空间中各个分类标签相对应的概率值;概率提 取子模块,用于提取各个分类标签的概率值构成所述训练样本的概率分布数据。
[0033]深化的实施例中,所述图谱生成模块包括:概率获取子模块,用于获取每 个训练样本相对应的概率分布数据;图谱构造子模块,用于构造所述训练样本 的特征图谱,该特征图谱包括该训练样本与其所映射的分类标签相对应的概率 值之间的映射关系数据;图谱存储子模块,用于将所述特征图谱添加至所述的 图谱库中。
[0034]深化的实施例中,所述筛选策略按照如下任意一种或任意多种方式进行配 置:所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选 出概率分布数据中最大概率与次大概率差值低于第一预定阈值的目标训练样本; 所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概 率分布数据的信息熵超过第二预设阈值的目标训练样本;所述筛选策略被配置 为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据中最大概 率低于第三预设阈值的目标训练样本。
[0035]深化的实施例中,所述循环训练模块包括:标注获取子模块,用于获取为 所述目标训练样本人工标注的监督标签;样本更新子模块,用于以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练样本排查方法,其特征在于,包括如下步骤:获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,所述被训练模型为神经网络模型;构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中;根据预设筛选策略对所述图谱库中的特征图谱进行筛选,确定其中概率分布数据命中该筛选策略的目标训练样本;获取所述目标训练样本的人工标注的监督标签,据以对所述训练模型实施有监督训练。2.根据权利要求1所述的训练样本排查方法,其特征在于,获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据,包括如下步骤:启动至少一个训练任务用于对所述被训练模型进行训练;将所述未标注的训练样本输入所述被训练模型进行表示学习,获得相应的特征表示;将所述特征表示进行全连接后映射到分类空间,由分类器对应各个训练任务计算出分类空间中各个分类标签相对应的概率值;提取各个分类标签的概率值构成所述训练样本的概率分布数据。3.根据权利要求2所述的训练样本排查方法,其特征在于,构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱,将特征图谱添加到图谱库中,包括如下步骤:获取每个训练样本相对应的概率分布数据;构造所述训练样本的特征图谱,该特征图谱包括该训练样本与其所映射的分类标签相对应的概率值之间的映射关系数据;将所述特征图谱添加至所述的图谱库中。4.根据权利要求2所述的训练样本排查方法,其特征在于,所述筛选策略按照如下任意一种或任意多种方式进行配置:所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据中最大概率与次大概率差值低于第一预定阈值的目标训练样本。所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据的信息熵超过第二预设阈值的目标训练样本。所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱,筛选出概率分布数据中最...

【专利技术属性】
技术研发人员:徐进添
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1