跨模态模型表征能力的评估方法、装置、设备以及介质制造方法及图纸

技术编号：37966016 阅读：5 留言：0更新日期：2023-06-30 09:41

本发明专利技术涉及深度学习领域，应用于对金融票据或医疗影像进行训练学习的跨模态模型。本发明专利技术公开了一种跨模态模型表征能力的评估方法、装置、设备以及介质，包括：获取跨模态模型训练的样本，其中，所述样本包括正样本对；计算每个所述正样本对中样本之间的距离，获得多个对齐性值；对多个所述对齐性值进行平均值计算，获得对齐性平均值；计算每个样本与其他样本的距离，得到样本的距离值；根据所述样本的距离值，计算样本分布的均匀程度，得到均匀性值；对所述对齐性平均值和所述均匀性值进行加权求和，得到评估值。得到评估值。得到评估值。

全部详细技术资料下载

【技术实现步骤摘要】
跨模态模型表征能力的评估方法、装置、设备以及介质

[0001]本专利技术涉及到深度学习领域，具体而言，涉及到一种跨模态模型表征能力的评估方法、装置、设备以及介质。

技术介绍

[0002]图像信息的检索一般分为基于文本的图像检索和基于内容的图像检索方式。
[0003]基于文本的图像检索需要人工给图像标注关键字，标注的文本信息主要描述图像内容，此时用户通过输入关键字，利用关键字与标注信息之间的匹配完成检索任务。另外搜索引擎利用关键字进行搜索，因此用户通过基于文本的图像检索可以找到这些图片。但是，如果与图片配套的文本信息不是描述图片本身，那么检索到的结果很可能有较大误差。
[0004]基于内容的图像检索，通过比较图像的特征来获得图像检索结果，也就是“以图搜图”。但图像在计算机视觉特征上的相似与人类认为的相似有一定区别。一般地，人们在判别图像相似性时，是建立在对图像所描述的对象或事件的语义理解的基础上，如森林、喜庆等，但这些无法从图像的特征上直接获得的。另外基于内容的搜索需要用户预先给出相关图像，如果直接应用于检索中，会降低用户交互体验。
[0005]因此图像信息的检索会涉及到多模态数据的处理，多模态数据是指多种类型的数据，如图像、音频、视频和文本内容。
[0006]不同模态之间的数据无法直接进行比较，需要根据任务需求定义图像特征与文本特征之间的相似性关系。与单模态下的信息检索不同，跨模态不仅要求模型能够学习到本身模态下的特征，还需要学习不同模态的数据之间的内在关系，因此如何利用模型对这种内在...

【技术保护点】

【技术特征摘要】
1.一种跨模态模型表征能力的评估方法，其特征在于，包括：获取跨模态模型训练的样本，其中，所述样本包括正样本对；计算每个所述正样本对中样本之间的距离，获得多个对齐性值；对多个所述对齐性值进行平均值计算，获得对齐性平均值；计算每个样本与其他样本的距离，得到样本的距离值；根据所述样本的距离值，计算样本分布的均匀程度，得到均匀性值；对所述对齐性平均值和所述均匀性值进行加权求和，得到评估值。2.根据权利要求1所述的跨模态模型表征能力的评估方法，其特征在于，所述计算每个所述正样本对中样本之间的距离，获得多个对齐性值的步骤，包括：根据下述公式对每个所述正样本对进行计算，获得多个所述对齐性值：其中：(x,y)组成所述正样本对，f(x)为样本x的特征向量，f(y)为样本y的特征向量，α∈{1，2}，当α设置为1时，代表特征向量f(x)与特征向量f(y)对位相减，当α设置为2时，代表特征向量f(x)的值平方与特征向量f(y)的值平方对位相减。3.根据权利要求1所述的跨模态模型表征能力的评估方法，其特征在于，所述计算每个样本与其他样本的距离，得到样本的距离值的步骤，包括：根据下述公式进行计算：G(u,v)＝||f(a)
‑
f(b)||其中：a代表样本a，b代表样本b，f(a)和f(b)分别为所述样本a和所述样本b的特征向量，u和v代表所述样本。4.根据权利要求3所述的跨模态模型表征能力的评估方法，其特征在于，所述根据所述样本的距离值，计算样本分布的均匀程度，得到均匀性值的步骤，包括：根据下述公式进行计算，得到均匀性值：其中：a代表样本a，b代表样本b，所述G
t
(u,v)为所述样本的距离值，f(a)和f(b)均为所述样本的特征向量，t为手动设置参数。5.一种跨模态模型表征能力的评估装置，其特征在于，包括：获取模块，用于获取跨模态模型训练的样本，其中，所述样本包括正样本对；对齐性值计算模块，用于计算每个所述正样本对...

【专利技术属性】
技术研发人员：舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人