训练样本排查方法及其装置、设备、介质、产品制造方法及图纸

技术编号：31748407 阅读：18 留言：0更新日期：2022-01-05 16:28

本申请公开一种训练样本排查方法及其装置、设备、介质、产品，所述方法包括：获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据，所述被训练模型为神经网络模型；构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱，将特征图谱添加到图谱库中；根据预设筛选策略对所述图谱库中的特征图谱进行筛选，确定其中概率分布数据命中该筛选策略的目标训练样本；获取所述目标训练样本的人工标注的监督标签，据以对所述训练模型实施有监督训练。本申请能够筛选出具有数据特点的未标识训练样本供人工标注循环投入对被训练模型的有监督训练，从而提升被训练模型的收敛效率，减少被训练模型对训练样本的依赖。本的依赖。本的依赖。

全部详细技术资料下载

【技术实现步骤摘要】
训练样本排查方法及其装置、设备、介质、产品

[0001]本申请涉及信息
，尤其涉及一种训练样本排查方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

技术介绍

[0002]神经网络模型的训练，依赖于大数据，因此，训练样本的多寡对模型的收敛起关键作用。目前解决训练样本稀少的常用方式包括对训练样本做数据增强、进行半监督学习、微调、迁移学习等方式，这些常用方式在某种程度上改善了问题，然后在很多应用领域中，由于数据分布稀疏、无标注的情况依然存在，这些常用手段所能贡献的效果依然是有限的。
[0003]典型的，例如在电商信息处理
，特别是基于独立站的跨境电商领域，每家独立站内，商品类目树中不同叶端节点所对应的训练样本差别非常大，如果依赖于这些常用手段，部分类目的训练样本，依然难以完成训练任务。
[0004]另一方面，现有技术在进行自监督或半监督学习的过程中，一些未标注训练样本存在自身的数据特征，使得其被模型分类时未能得到良好的分类结果，这种情况下，这些训练样本自身的数据价值并未被有效利用，因此，仍残存对这部分未标识训练样本进行二次数据挖掘的可能性。
[0005]有鉴于此，本申请人做出相应的探索，期望在现有技术的基础上做出相应的贡献。

技术实现思路

[0006]本申请的首要目的在于解决上述问题至少之一而提供一种训练样本排查方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
[0007]为满足本申请的各个目的，...

【技术保护点】

【技术特征摘要】
1.一种训练样本排查方法，其特征在于，包括如下步骤：获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据，所述被训练模型为神经网络模型；构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱，将特征图谱添加到图谱库中；根据预设筛选策略对所述图谱库中的特征图谱进行筛选，确定其中概率分布数据命中该筛选策略的目标训练样本；获取所述目标训练样本的人工标注的监督标签，据以对所述训练模型实施有监督训练。2.根据权利要求1所述的训练样本排查方法，其特征在于，获取被训练模型根据未标注的训练样本的特征表示进行分类生成的概率分布数据，包括如下步骤：启动至少一个训练任务用于对所述被训练模型进行训练；将所述未标注的训练样本输入所述被训练模型进行表示学习，获得相应的特征表示；将所述特征表示进行全连接后映射到分类空间，由分类器对应各个训练任务计算出分类空间中各个分类标签相对应的概率值；提取各个分类标签的概率值构成所述训练样本的概率分布数据。3.根据权利要求2所述的训练样本排查方法，其特征在于，构造用于表示所述训练样本与其概率分布数据的映射关系数据的特征图谱，将特征图谱添加到图谱库中，包括如下步骤：获取每个训练样本相对应的概率分布数据；构造所述训练样本的特征图谱，该特征图谱包括该训练样本与其所映射的分类标签相对应的概率值之间的映射关系数据；将所述特征图谱添加至所述的图谱库中。4.根据权利要求2所述的训练样本排查方法，其特征在于，所述筛选策略按照如下任意一种或任意多种方式进行配置：所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱，筛选出概率分布数据中最大概率与次大概率差值低于第一预定阈值的目标训练样本。所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱，筛选出概率分布数据的信息熵超过第二预设阈值的目标训练样本。所述筛选策略被配置为针对图谱库中各训练样本相对应的特征图谱，筛选出概率分布数据中最...

【专利技术属性】
技术研发人员：徐进添，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人