【技术实现步骤摘要】
本专利技术涉及人工智能,具体涉及目标编码器训练方法、装置、计算机设备及存储介质。
技术介绍
1、随着大模型技术的发展,大语言模型正深度融入日常生活。大语言模型凭借其卓越的文本处理能力与理解能力,通过精细调节以贴合用户需求,彰显出其作为高效生产力工具的强大潜力。这类模型核心在于擅长文本交互,导致这类模型难以涉足图像、语音、视频等其他媒介形式,从而影响了普及度与实用性。
2、为拓宽应用场景,大型视觉语言模型(large-scale language model,lvlm)应运而生,作为多模态大模型的一员,旨在融合视觉与语言理解,有效应对复杂的现实视觉挑战,展现出非凡的应用前景。在富含文本信息的场景中,利用对象检测模型将文本信息分为不同类别,将不同类别的文本信息输入对应的编码器,实现对文本信息的编码,再将文本信息的编码提供给lvlm,以使lvlm基于文本信息的编码进行文本信息理解。
3、然而,这种需要利用对象检测模型先将文本信息分为不同类别的方式,增加了lvlm进行文本理解的时间消耗,且增加了lvlm的算力需求。
><本文档来自技高网...
【技术保护点】
1.一种目标编码器训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括;
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:<
...【技术特征摘要】
1.一种目标编码器训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括...
【专利技术属性】
技术研发人员:许博,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。