负样本构建方法、模型训练方法、装置、电子设备和介质制造方法及图纸

技术编号:42114576 阅读:15 留言:0更新日期:2024-07-25 00:35
本申请提供一种负样本构建方法、模型训练方法、装置、电子设备和介质,包括:获取包含特定场景信息的文本模态的正样本;采用预训练的场景图模型对所述正样本进行解析,以生成对应的场景图;所述场景图包括所述正样本中的若干个关键元素、所述关键元素的关联属性以及所述关键元素之间的相互关系;根据预设规则,在所述关键元素之间和/或所述关联属性之间进行信息交换,以生成与所述正样本结构相似但语义不同的困难负样本。本申请基于场景图指导高质量语义负样本的构建,实现了样本数据增强;增加了训练数据的多样性,提升了模型的训练效果,提高了模型的泛化能力,提高了模型的细粒度表征学习能力,改善了模型在实际应用中的检索准确性和精度。

【技术实现步骤摘要】

本申请属于自然语言处理,具体涉及一种负样本构建方法、模型训练方法、装置、电子设备和介质


技术介绍

1、在跨模态学习模型的训练中,为了提高模型的泛化能力和检索精度,构建有效的负样本至关重要。

2、传统的负样本构建方法通常在训练批次内随意选择一些与正样本无关的样本作为负样本。这种方法的随机性较高,导致正负样本之间的语义差异性较大。当模型面对相似但有细微差异的文本和图像时,可能无法做出准确的区分。此外,传统的负样本构建方法也可能会直接替换正样本中的某个字或单词来生成负样本。这种方法无法考虑到整个句子的语义和上下文信息,这限制了模型在细粒度表征学习能力方面的提升。

3、例如,如果正样本内容是“人在草坪里遛狗”,而传统的负样本构建方法可能会将“人在草坪上遛猫”作为负样本。这样的负样本与正样本在整体结构上相似度较高,但在细粒度上却差异明显。这可能导致模型在区分类似的场景时出现困难,影响其准确性和鲁棒性。

4、因此,传统的负样本构建方法存在一定的局限性,无法满足跨模态学习模型对细粒度差异的需求。


技术实现本文档来自技高网...

【技术保护点】

1.一种基于场景图的负样本构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述困难负样本与所述正样本具有相同的句子结构和词汇组成。

3.根据权利要求1所述的方法,其特征在于,根据预设规则,在所述关键元素之间进行信息交换包括:

4.根据权利要求1所述的方法,其特征在于,根据预设规则,在所述关联属性之间进行信息交换包括:

5.根据权利要求1所述的方法,其特征在于,还包括:随机替换所述正样本中的关键元素、所述关键元素的关联属性和/或所述关键元素之间的相互关系,以生成与所述正样本不相关且与所述困难负样本细粒度语义不同的简单负...

【技术特征摘要】

1.一种基于场景图的负样本构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述困难负样本与所述正样本具有相同的句子结构和词汇组成。

3.根据权利要求1所述的方法,其特征在于,根据预设规则,在所述关键元素之间进行信息交换包括:

4.根据权利要求1所述的方法,其特征在于,根据预设规则,在所述关联属性之间进行信息交换包括:

5.根据权利要求1所述的方法,其特征在于,还包括:随机替换所述正样本中的关键元素、所述关键元素的关联属...

【专利技术属性】
技术研发人员:战保行
申请(专利权)人:上海蜜度数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1