负样本构建方法、模型训练方法、装置、电子设备和介质制造方法及图纸

技术编号：42114576 阅读：15 留言：0更新日期：2024-07-25 00:35

本申请提供一种负样本构建方法、模型训练方法、装置、电子设备和介质，包括：获取包含特定场景信息的文本模态的正样本；采用预训练的场景图模型对所述正样本进行解析，以生成对应的场景图；所述场景图包括所述正样本中的若干个关键元素、所述关键元素的关联属性以及所述关键元素之间的相互关系；根据预设规则，在所述关键元素之间和/或所述关联属性之间进行信息交换，以生成与所述正样本结构相似但语义不同的困难负样本。本申请基于场景图指导高质量语义负样本的构建，实现了样本数据增强；增加了训练数据的多样性，提升了模型的训练效果，提高了模型的泛化能力，提高了模型的细粒度表征学习能力，改善了模型在实际应用中的检索准确性和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于自然语言处理，具体涉及一种负样本构建方法、模型训练方法、装置、电子设备和介质。

技术介绍

1、在跨模态学习模型的训练中，为了提高模型的泛化能力和检索精度，构建有效的负样本至关重要。

2、传统的负样本构建方法通常在训练批次内随意选择一些与正样本无关的样本作为负样本。这种方法的随机性较高，导致正负样本之间的语义差异性较大。当模型面对相似但有细微差异的文本和图像时，可能无法做出准确的区分。此外，传统的负样本构建方法也可能会直接替换正样本中的某个字或单词来生成负样本。这种方法无法考虑到整个句子的语义和上下文信息，这限制了模型在细粒度表征学习能力方面的提升。

3、例如，如果正样本内容是“人在草坪里遛狗”，而传统的负样本构建方法可能会将“人在草坪上遛猫”作为负样本。这样的负样本与正样本在整体结构上相似度较高，但在细粒度上却差异明显。这可能导致模型在区分类似的场景时出现困难，影响其准确性和鲁棒性。

4、因此，传统的负样本构建方法存在一定的局限性，无法满足跨模态学习模型对细粒度差异的需求。

技术实现本文档来自技高网...

【技术保护点】

1.一种基于场景图的负样本构建方法，其特征在于，包括：
2.根据权利要求1所述的方法，其特征在于，所述困难负样本与所述正样本具有相同的句子结构和词汇组成。
3.根据权利要求1所述的方法，其特征在于，根据预设规则，在所述关键元素之间进行信息交换包括：
4.根据权利要求1所述的方法，其特征在于，根据预设规则，在所述关联属性之间进行信息交换包括：
5.根据权利要求1所述的方法，其特征在于，还包括：随机替换所述正样本中的关键元素、所述关键元素的关联属性和/或所述关键元素之间的相互关系，以生成与所述正样本不相关且与所述困难负样本细粒度语义不同的简单负...

【技术特征摘要】

1.一种基于场景图的负样本构建方法，其特征在于，包括：
2.根据权利要求1所述的方法，其特征在于，所述困难负样本与所述正样本具有相同的句子结构和词汇组成。
3.根据权利要求1所述的方法，其特征在于，根据预设规则，在所述关键元素之间进行信息交换包括：
4.根据权利要求1所述的方法，其特征在于，根据预设规则，在所述关联属性之间进行信息交换包括：
5.根据权利要求1所述的方法，其特征在于，还包括：随机替换所述正样本中的关键元素、所述关键元素的关联属...

【专利技术属性】
技术研发人员：战保行，
申请(专利权)人：上海蜜度数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：一种用于基因测序的样品托盘装置制造方法及图纸
下一篇：一种成品烧结矿皮带机头自动取样装置制造方法及图纸

相关技术

一种图像文字翻译方法及设备技术

一种用于视频分类的方法、装置及设备制...

图像描述方法、系统、存储介质及电子设...

突发事件检测方法、设备及计算机可读介...

一种网络信息的处理方法、装置及设备制...

ASR训练数据获取方法、系统、存储介...

训练数据获取方法及系统、语音识别方法...

训练数据获取方法及系统、文本识别方法...

动物图像分类方法、系统、存储介质及电...

爬虫品牌代理监测、质量评估的方法及设...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

一种智能化企业贯通监督管理系统技术方...

一种极端天气下能源与交通系统耦合风险...

一种高能同步辐射光源快速轨道反馈系统...

商品信息处理方法及电子设备技术

一种基于公有云的AR文旅场景的生成方...

一种前端列表组件的大数据渲染更新方法...

基于多智能体大模型的交互方法、装置、...

一种基于自蒸馏技术的信号识别模型及计...