System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度语义模型的多数据集训练采样方法技术_技高网

一种基于深度语义模型的多数据集训练采样方法技术

技术编号:40909521 阅读:4 留言:0更新日期:2024-04-18 14:38
本发公开了一种基于深度语义模型的多数据集训练采样方法,包括以下步骤:S1、对多数据集的标注标签文本进行编码,获得文本语义向量;S2、对文本语义向量进行聚类,得到若干个簇类;S3、对每个簇类计算重复因子;S4、将每张训练图片的所有标注标签文本所对应的簇类的重复因子的最大值作为此训练图片的图片重复因子;S5、将每张图片的图片重复因子与所有图片重复因子之和的比例作为这张图片被采样到的概率,在对模型的训练过程中以此采样概率对多数据集进行采样。本方案适用于多数据集合并训练且相互之间没有做额外标注的场景。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域的目标检测模型训练,特别涉及一种基于深度语义模型的多数据集训练采样方法


技术介绍

1、计算机视觉作为人工智能众多
中的核心研究方向之一,主要包含的任务有图像分类、目标检测、语义分割和实例分割等。多数据集目标检测是目标检测任务中的一个新颖的技术方向。其目的旨在不进行额外人工数据标注工作的前提下,仅利用一个单独的目标检测算法模型同时在多个独立且识别目标不同的数据集上进行训练并同步学会这多个数据集中的所有识别目标。传统目标检测算法模型训练方法在同时学习多个数据集时存在标注一致性冲突的问题,直接使用多个数据集分别作为训练数据训练一个传统目标识别算法模型是行不通的,例如数据集a只标注了猫但其图片数据中是可能存在狗的,当使用a和b同时训练一个算法模型时,模型根据b的标注信息学到了要把狗识别出来,可在碰到a中有狗的图片数据时却没有标注信息。这就是标注一致性冲突,它会导致模型的参数在训练数据上冲突,无法学会识别目标。一种简单的方案是重新在多数据集中补充标注所有要训练的标签,但这样费时费力,达不到重复利用数据提升效率的目的。目前业界的研究方向是通过支持多数据集训练的模型结构来解决标注一致性冲突。但支持多数据集训练的模型存在一个很重要的问题,即多数据集训练时的数据采样问题。在多数据集训练且数据集大小非常不平衡的情况下,数据采样策略会严重影响模型训练和拟合效果。对大的数据集采样多,会减少小数据集的拟合,使得小数据集训练不够。而提高小数据集的采样比重则会使大数据集在训练时被模型训练得不够。


>技术实现思路

1、本专利技术主要是解决现有技术所存在的多数据集大小不平衡导致的采样不合理会使得模型训练和拟合效果不佳等的技术问题,提供一种具有合理的数据集采样比重参数的基于深度语义模型的多数据集训练采样方法。

2、本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:一种基于深度语义模型的多数据集训练采样方法,包括以下步骤:

3、s1、对多数据集的标注标签文本进行编码,获得文本语义向量;

4、s2、对文本语义向量进行聚类,得到若干个簇类;

5、s3、对每个簇类计算重复因子,计算公式如下:

6、

7、式中,r(c)为第c个簇类的重复因子,t为超参数,f(c)为第c个簇类的频率比例,即f(c)为在标注数据中包含第c个簇类的训练图片数量占训练图片总数的比例;

8、对于f(c)≤t的簇类,会是一个大于等于1的值,且随着频率比例f(c)越小而越大,帮助图片数量较少的簇类有更大的概率被模型学习到。对于f(c)>t的簇类,会是一个小于1的值且随着频率比例f(c)越大而越小,从而对在训练数据中出现越大的簇类赋予越小的重复因子。与1取较大值的目的是限制重复因子的最小值,防止某些出现数量特别多的簇类拥有极小的重复因子,导致重复采样过小,数据失衡;

9、s4、将每张训练图片的所有标注标签文本所对应的簇类的重复因子的最大值作为此训练图片的图片重复因子;

10、s5、计算所有图片重复因子之和,将每张图片的图片重复因子与所有图片重复因子之和的比例作为这张图片被采样到的概率,在对模型的训练过程中以此采样概率对多数据集进行采样。也就是说重复因子越大的图片,在训练时被重复采样到的概率越高。通过这种采样方式,多数据集中标注标签越稀有的图片会被采样得越多,从而帮助多数据集中的每个数据集得到充分地训练。

11、本专利技术中的数据集指的是目标检测领域中的一个进行目标标注后的图像训练集,一个数据集应有大于10的标注图像以及至少1个类别标签。此数据集所要训练的目标类别在此数据集中所有图片如果存在,则都应该有标注信息,且标注信息为目标的具体类别标签以及在图像中的矩形框坐标。多数据应为至少2个数据集。

12、作为优选,所述步骤s1具体为:使用经过预训练的深度语义文本模型作为编码器,将多数据集中非结构化的标注标签文本转换为固定长度的文本语义向量,长度通常为512。

13、作为优选,所述步骤s2具体为:首先对文本语义向量进行降维,得到低纬度向量,然后通过无监督聚类将语义相近的标签聚到同一个簇类。对文本语义向量进行聚类的目的在于将语义相近的标签聚合到一起统计,减少标签的稀疏性。在进行聚类之前,需要使用降维算法对高维度的文本语义向量进行降维,低维度语义向量能帮助聚类算法更快地完成聚类,通常512维的高维度向量会被降维到5维的低维度向量。

14、作为优选,所述步骤s1中,采用clip图文多模态预训练大模型中的文本编码器对多数据集的标注标签文本进行编码。也可以替换为bert、ernie的其他文本编码器模型。

15、作为优选,所述步骤s2中,采用umap算法对文本语义向量进行降维,在尽量保证原语义向量分布的情况下对其进行降维,也可替换为pca、tsne和svd等其他降维算法;采用hdbscan算法将语义相同的标签聚到同一个簇类,hdbscan能在保持高性能聚类的同时,自动计算簇类数量,除此之外,也可以选用k-means、dbsacn等其他无监督聚类算法。

16、作为优选,所述超参数t为0.001,t用于控制采样的阈值。

17、进行多数据集训练时,每个训练图片会根据计算出对应的重复因子,模型训练时采样器在每一个迭代会以重复因子作为权重来对图片进行采样。具体来说,采样器需要计算出所有图片重复因子之和,每个图片的重复因子除以重复因子之和即为这张图片被采样到的概率。也就是说重复因子越大的图片,在训练时被重复采样到的概率越高。通过这种采样方式,多数据集中标注标签越稀有的图片会被采样得越多,从而帮助多数据集中的每个数据集得到充分地训练。

18、本专利技术带来的实质性效果是,能根据数据集分布情况自动计算出合理的数据集采样比重参数,使每个数据集都得到充分地训练。本专利技术针对多数据集合并训练且相互之间没有做额外标注的这个场景所存在的跨数据集数据采样平衡问题,提出了一种利用语义向量聚类数据集标签之后,跨数据集平衡每张图的采样概率。本专利技术基于语义向量的采样平衡方法能解决不同数据集之间标签类别的分配问题,将语义相同但目标名称文字不同的标签归为一类,更好地平衡多数据集之间标注目标的采样。

本文档来自技高网...

【技术保护点】

1.一种基于深度语义模型的多数据集训练采样方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤S1具体为:使用经过预训练的深度语义文本模型作为编码器,将多数据集中非结构化的标注标签文本转换为固定长度的文本语义向量。

3.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤S2具体为:首先对文本语义向量进行降维,得到低纬度向量,然后通过无监督聚类将语义相近的标签聚到同一个簇类。

4.根据权利要求2所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤S1中,采用CLIP图文多模态预训练大模型中的文本编码器对多数据集的标注标签文本进行编码。

5.根据权利要求3所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤S2中,采用UMAP算法对文本语义向量进行降维,采用HDBSCAN算法将语义相同的标签聚到同一个簇类。

6.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述超参数t为0.001。

...

【技术特征摘要】

1.一种基于深度语义模型的多数据集训练采样方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤s1具体为:使用经过预训练的深度语义文本模型作为编码器,将多数据集中非结构化的标注标签文本转换为固定长度的文本语义向量。

3.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法,其特征在于,所述步骤s2具体为:首先对文本语义向量进行降维,得到低纬度向量,然后通过无监督聚类将语义相近的标签聚到同一个簇类。

【专利技术属性】
技术研发人员:赵天成刘鹏邓冬梅
申请(专利权)人:杭州联汇科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1