跨模态模型表征能力的评估方法、装置、设备以及介质制造方法及图纸

技术编号:37966016 阅读:5 留言:0更新日期:2023-06-30 09:41
本发明专利技术涉及深度学习领域,应用于对金融票据或医疗影像进行训练学习的跨模态模型。本发明专利技术公开了一种跨模态模型表征能力的评估方法、装置、设备以及介质,包括:获取跨模态模型训练的样本,其中,所述样本包括正样本对;计算每个所述正样本对中样本之间的距离,获得多个对齐性值;对多个所述对齐性值进行平均值计算,获得对齐性平均值;计算每个样本与其他样本的距离,得到样本的距离值;根据所述样本的距离值,计算样本分布的均匀程度,得到均匀性值;对所述对齐性平均值和所述均匀性值进行加权求和,得到评估值。得到评估值。得到评估值。

【技术实现步骤摘要】
跨模态模型表征能力的评估方法、装置、设备以及介质


[0001]本专利技术涉及到深度学习领域,具体而言,涉及到一种跨模态模型表征能力的评估方法、装置、设备以及介质。

技术介绍

[0002]图像信息的检索一般分为基于文本的图像检索和基于内容的图像检索方式。
[0003]基于文本的图像检索需要人工给图像标注关键字,标注的文本信息主要描述图像内容,此时用户通过输入关键字,利用关键字与标注信息之间的匹配完成检索任务。另外搜索引擎利用关键字进行搜索,因此用户通过基于文本的图像检索可以找到这些图片。但是,如果与图片配套的文本信息不是描述图片本身,那么检索到的结果很可能有较大误差。
[0004]基于内容的图像检索,通过比较图像的特征来获得图像检索结果,也就是“以图搜图”。但图像在计算机视觉特征上的相似与人类认为的相似有一定区别。一般地,人们在判别图像相似性时,是建立在对图像所描述的对象或事件的语义理解的基础上,如森林、喜庆等,但这些无法从图像的特征上直接获得的。另外基于内容的搜索需要用户预先给出相关图像,如果直接应用于检索中,会降低用户交互体验。
[0005]因此图像信息的检索会涉及到多模态数据的处理,多模态数据是指多种类型的数据,如图像、音频、视频和文本内容。
[0006]不同模态之间的数据无法直接进行比较,需要根据任务需求定义图像特征与文本特征之间的相似性关系。与单模态下的信息检索不同,跨模态不仅要求模型能够学习到本身模态下的特征,还需要学习不同模态的数据之间的内在关系,因此如何利用模型对这种内在关系进行建模,实现多模态之间的信息交流从而完成模态转化是跨模态模型的关键。跨模态检索需要将不同模态的数据转化到一个合适的特征空间上,使得数据在该特征空间上存在一定的直接对应关系。搜索结果则是在完成模态转化后,根据跨模态模型所定义的检索函数,找出对应的结果。通过跨模态模型可以建立视觉特征与文本语义之间的关系,用户可以直接输入搜索图像的描述语句,模型则将描述转换为特征,根据文本与图片之间的语义关系,得到更符合描述的结果。例如,在用户可以直接输入搜索金融票据或者医疗影像的描述语句,跨模态模型可以直接搜索到相关的图像。而使用图片搜索文本时,模型无需考虑数据库中的图片是否有着正确的文本信息,可以直接根据图像特征与文本的关系来获取。
[0007]因此跨模态模型对于处理多模态数据非常有帮助。现在市面上存在多种跨模态模型,如何评估跨模态模型的区分能力就比较重要。一般会利用cosines相似度计算跨模态模型训练的图片和文本的相似度,这种单一图文对的比较并不能够完全体现跨模态模型的区分能力,因为单一图文对的计算还是比较片面,不能够很好的评估模型在训练过程中的好与坏。

技术实现思路

[0008]本专利技术的主要目的为提供一种跨模态模型表征能力的评估方法、装置、设备以及介质,旨在解决单一图文对的比较不能够完全体现跨模态模型的区分能力的技术问题。
[0009]本专利技术公开了以下技术方案:
[0010]一种跨模态模型表征能力的评估方法,包括:
[0011]获取跨模态模型训练的样本,其中,所述样本包括正样本对;
[0012]计算每个所述正样本对中样本之间的距离,获得多个对齐性值;
[0013]对多个所述对齐性值进行平均值计算,获得对齐性平均值;
[0014]计算每个样本与其他样本的距离,得到样本的距离值;
[0015]根据所述样本的距离值,计算样本分布的均匀程度,得到均匀性值;
[0016]对所述对齐性平均值和所述均匀性值进行加权求和,得到评估值。
[0017]进一步地,所述计算每个所述正样本对中样本之间的距离,获得多个对齐性值的步骤,包括:
[0018]根据下述公式对每个所述正样本对进行计算,获得多个所述对齐性值:
[0019][0020]其中:(x,y)组成所述正样本对,f(x)为样本x的特征向量,f(y)为样本y的特征向量,α∈{1,2},当α设置为1时,代表特征向量f(x)与特征向量f(y)对位相减,当α设置为2时,代表特征向量f(x)的值平方与特征向量f(y)的值平方对位相减。
[0021]进一步地,所述计算每个样本与其他样本的距离,得到样本的距离值的步骤,包括:
[0022]根据下述公式进行计算:
[0023]G(u,v)=||f(a)

f(b)||
[0024]其中:a代表样本a,b代表样本b,f(a)和f(b)分别为所述样本a和所述样本b的特征向量,u和v代表所述样本。
[0025]进一步地,所述根据所述样本的距离值,计算样本分布的均匀程度,得到均匀性值的步骤,包括:
[0026]根据下述公式进行计算,得到均匀性值:
[0027][0028]其中:a代表样本a,b代表样本b,所述G
t
(u,v)为所述样本的距离值,f(a)和f(b)均为所述样本的特征向量,t为手动设置参数。
[0029]本专利技术还提供一种跨模态模型表征能力的评估装置,包括:
[0030]获取模块,用于获取跨模态模型训练的样本,其中,所述样本包括正样本对;
[0031]对齐性值计算模块,用于计算每个所述正样本对中样本之间的距离,获得多个对齐性值;
[0032]对齐性平均值计算模块,用于对多个所述对齐性值进行平均值计算,获得对齐性
平均值;
[0033]样本距离值计算模块,用于计算每个样本与其他样本的距离,得到样本的距离值;
[0034]均匀性值计算模块,用于根据所述样本的距离值,计算每个样本分布的均匀程度,得到均匀性值;
[0035]评估值计算模块,用于对所述对齐性平均值和所述均匀性值进行加权求和,得到评估值。
[0036]进一步地,所述对齐性值计算模块,包括:
[0037]第一计算单元,用于根据下述公式对每个所述正样本对进行计算,获得多个所述对齐性值:
[0038][0039]其中:(x,y)组成所述正样本对,f(x)为样本x的特征向量,f(y)为样本y的特征向量,α∈{1,2},当α设置为1时,代表特征向量f(x)与特征向量f(y)对位相减,当α设置为2时,代表特征向量f(x)的值平方与特征向量f(y)的值平方对位相减。
[0040]进一步地,所述样本距离值计算模块,包括:
[0041]第二计算单元,用于根据下述公式进行计算:
[0042]G(u,v)=||f(a)

f(b)||
[0043]其中:a代表样本a,b代表样本b,f(a)和f(b)分别为所述样本a和所述样本b的特征向量,,u和v代表所述样本。
[0044]进一步地,所述均匀性值计算模块,包括:
[0045]第三计算单元,用于根据下述公式进行计算,得到均匀性值:
[0046][0047]其中:a代表样本a,b代表样本b,所述G
t
(u,v)为所述样本的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态模型表征能力的评估方法,其特征在于,包括:获取跨模态模型训练的样本,其中,所述样本包括正样本对;计算每个所述正样本对中样本之间的距离,获得多个对齐性值;对多个所述对齐性值进行平均值计算,获得对齐性平均值;计算每个样本与其他样本的距离,得到样本的距离值;根据所述样本的距离值,计算样本分布的均匀程度,得到均匀性值;对所述对齐性平均值和所述均匀性值进行加权求和,得到评估值。2.根据权利要求1所述的跨模态模型表征能力的评估方法,其特征在于,所述计算每个所述正样本对中样本之间的距离,获得多个对齐性值的步骤,包括:根据下述公式对每个所述正样本对进行计算,获得多个所述对齐性值:其中:(x,y)组成所述正样本对,f(x)为样本x的特征向量,f(y)为样本y的特征向量,α∈{1,2},当α设置为1时,代表特征向量f(x)与特征向量f(y)对位相减,当α设置为2时,代表特征向量f(x)的值平方与特征向量f(y)的值平方对位相减。3.根据权利要求1所述的跨模态模型表征能力的评估方法,其特征在于,所述计算每个样本与其他样本的距离,得到样本的距离值的步骤,包括:根据下述公式进行计算:G(u,v)=||f(a)

f(b)||其中:a代表样本a,b代表样本b,f(a)和f(b)分别为所述样本a和所述样本b的特征向量,u和v代表所述样本。4.根据权利要求3所述的跨模态模型表征能力的评估方法,其特征在于,所述根据所述样本的距离值,计算样本分布的均匀程度,得到均匀性值的步骤,包括:根据下述公式进行计算,得到均匀性值:其中:a代表样本a,b代表样本b,所述G
t
(u,v)为所述样本的距离值,f(a)和f(b)均为所述样本的特征向量,t为手动设置参数。5.一种跨模态模型表征能力的评估装置,其特征在于,包括:获取模块,用于获取跨模态模型训练的样本,其中,所述样本包括正样本对;对齐性值计算模块,用于计算每个所述正样本对...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1