目标编码器训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:43500908 阅读:20 留言:0更新日期:2024-11-29 17:06
本发明专利技术涉及人工智能技术领域,公开了目标编码器训练方法、装置、计算机设备及存储介质,方法包括:获取预处理的训练样本,训练样本包括文本内容、文本内容对应的目标框位置和文本内容的类别;基于文本内容、文本内容对应的目标框位置和文本内容的类别为预处理的训练样本添加位置编码信息,获得目标训练样本;将目标训练样本输入预设编码器,获得第一特征值;将预处理的训练样本输入至预设图片编码器,获得第二特征值;基于第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数;基于第一损失函数,对预设图片编码器进行参数调优,以获得预训练的图片编码器。本发明专利技术减少了大型视觉语言模型进行文本理解的时间消耗。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及目标编码器训练方法、装置、计算机设备及存储介质


技术介绍

1、随着大模型技术的发展,大语言模型正深度融入日常生活。大语言模型凭借其卓越的文本处理能力与理解能力,通过精细调节以贴合用户需求,彰显出其作为高效生产力工具的强大潜力。这类模型核心在于擅长文本交互,导致这类模型难以涉足图像、语音、视频等其他媒介形式,从而影响了普及度与实用性。

2、为拓宽应用场景,大型视觉语言模型(large-scale language model,lvlm)应运而生,作为多模态大模型的一员,旨在融合视觉与语言理解,有效应对复杂的现实视觉挑战,展现出非凡的应用前景。在富含文本信息的场景中,利用对象检测模型将文本信息分为不同类别,将不同类别的文本信息输入对应的编码器,实现对文本信息的编码,再将文本信息的编码提供给lvlm,以使lvlm基于文本信息的编码进行文本信息理解。

3、然而,这种需要利用对象检测模型先将文本信息分为不同类别的方式,增加了lvlm进行文本理解的时间消耗,且增加了lvlm的算力需求。>

<本文档来自技高网...

【技术保护点】

1.一种目标编码器训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括;

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:</p>

7.根据...

【技术特征摘要】

1.一种目标编码器训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括...

【专利技术属性】
技术研发人员:许博
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1