一种基于深度语义模型的多数据集训练采样方法技术

技术编号：40909521 阅读：27 留言：0更新日期：2024-04-18 14:38

本发公开了一种基于深度语义模型的多数据集训练采样方法，包括以下步骤：S1、对多数据集的标注标签文本进行编码，获得文本语义向量；S2、对文本语义向量进行聚类，得到若干个簇类；S3、对每个簇类计算重复因子；S4、将每张训练图片的所有标注标签文本所对应的簇类的重复因子的最大值作为此训练图片的图片重复因子；S5、将每张图片的图片重复因子与所有图片重复因子之和的比例作为这张图片被采样到的概率，在对模型的训练过程中以此采样概率对多数据集进行采样。本方案适用于多数据集合并训练且相互之间没有做额外标注的场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域的目标检测模型训练，特别涉及一种基于深度语义模型的多数据集训练采样方法。

技术介绍

1、计算机视觉作为人工智能众多
中的核心研究方向之一，主要包含的任务有图像分类、目标检测、语义分割和实例分割等。多数据集目标检测是目标检测任务中的一个新颖的技术方向。其目的旨在不进行额外人工数据标注工作的前提下，仅利用一个单独的目标检测算法模型同时在多个独立且识别目标不同的数据集上进行训练并同步学会这多个数据集中的所有识别目标。传统目标检测算法模型训练方法在同时学习多个数据集时存在标注一致性冲突的问题，直接使用多个数据集分别作为训练数据训练一个传统目标识别算法模型是行不通的，例如数据集a只标注了猫但其图片数据中是可能存在狗的，当使用a和b同时训练一个算法模型时，模型根据b的标注信息学到了要把狗识别出来，可在碰到a中有狗的图片数据时却没有标注信息。这就是标注一致性冲突，它会导致模型的参数在训练数据上冲突，无法学会识别目标。一种简单的方案是重新在多数据集中补充标注所有要训练的标签，但这样费时费力，达不到重复利用数据提升效率的...

【技术保护点】

1.一种基于深度语义模型的多数据集训练采样方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法，其特征在于，所述步骤S1具体为：使用经过预训练的深度语义文本模型作为编码器，将多数据集中非结构化的标注标签文本转换为固定长度的文本语义向量。

3.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法，其特征在于，所述步骤S2具体为：首先对文本语义向量进行降维，得到低纬度向量，然后通过无监督聚类将语义相近的标签聚到同一个簇类。

4.根据权利要求2所述的一种基于深度语义模型的多数据集训练采样方法，其特征在...

【技术特征摘要】

1.一种基于深度语义模型的多数据集训练采样方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法，其特征在于，所述步骤s1具体为：使用经过预训练的深度语义文本模型作为编码器，将多数据集中非结构化的标注标签文本转换为固定长度的文本语义向量。

3.根据权利要求1所述的一种基于深度语义模型的多数据集训练采样方法，其特征在于，所述步骤s2具体为：首先对文本语义向量进行降维，得到低纬度向量，然后通过无监督聚类将语义相近的标签聚到同一个簇类。

【专利技术属性】
技术研发人员：赵天成，刘鹏，邓冬梅，
申请(专利权)人：杭州联汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人