一种基于跨模态算法的关键词推荐方法技术

技术编号:35649106 阅读:22 留言:0更新日期:2022-11-19 16:43
本发明专利技术公开了一种基于跨模态算法的关键词推荐方法,该方法的过程为:使用者在图片中框选感兴趣的目标,利用多模态向量化模型或多模态目标识别模型对框选区域进行向量化,用向量在大词表中进行匹配,对匹配结果进行排序获得推荐列表。本发明专利技术方法能够作为开放词表的无限类识别模型的辅助,在用户不知道应该采用什么关键词作为识别标签时,给出推荐。给出推荐。给出推荐。

【技术实现步骤摘要】
一种基于跨模态算法的关键词推荐方法


[0001]本专利技术涉及图片识别处理领域,尤其是涉及跨模态算法以及开放词表无限类识别模型,主要应用于在开放词表无限类识别模型的实际应用中,解决标签难定义的问题。

技术介绍

[0002]开放词表无限类识别模型是目前图像识别领域最前沿,最受关注的领域之一。不同于传统计算机视觉算法每个模型有固定的识别目标列表,开放词表无限类识别模型的识别目标是允许用户使用自然语言定义的。这得益于跨模态算法的突破性发展。在获得更大程度自由的同时,一个问题也应运而生。在一些情况下,我们并不知道我们想要识别的目标物体叫什么,或者目标物体有多种可能的名称,我们不知道应该选择哪一个。

技术实现思路

[0003]本专利技术主要是解决现有技术所存在的标签难定义的技术问题,提供一种基于跨模态算法的关键词推荐方法。
[0004]本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:一种基于跨模态算法的关键词推荐方法,包括以下步骤:
[0005]S1、获取感兴趣的目标并向量化:首先由用户对示例图片进行标注反馈,在图中框选出希望进行识别的目标物体,得到用户反馈的目标物体框,之后使用目标识别模型来对图片进行识别处理,得到候选目标识别框以及每个候选目标识别框对应的特征向量,最后将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表;
[0006]S2、通过相似度匹配从大规模目标物体列表中获得备选关键词;
[0007]S3、对备选关键词进行排序并推荐。/>[0008]作为优选,所述使用目标识别模型来对图片进行识别处理使用基于跨模态的目标识别模型进行目标识别和向量编码,具体为:
[0009]识别出图片中可能为识别目标的区域作为候选目标识别框,同时每个候选目标识别框都得到一个代表其特征的向量;
[0010]基于跨模态的目标识别模型包括文本编码器和图像编码器。基于跨模态的目标识别模型为Detic算法模型或AttrDet模型。
[0011]作为优选,所述使用目标识别模型来对图片进行识别处理具体包括:
[0012]S111、使用区域选取模型进行识别,获取候选区域;
[0013]S112、使用图像编码器对候选区域进行向量化处理。
[0014]图像编码器为基于跨模态的目标识别模型的图像编码器部分。这里跨模态目标识别模型可以为CLIP模型,区域选取模型可以实用vin模型或faster RCNN模型。
[0015]作为优选,将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表具体为:
[0016]通过下式计算用户反馈的目标物体框与候选目标识别框的交并比:
[0017][0018]式中,a∈A,b∈B,A为用户反馈的目标物体框的集合,B为候选目标识别框的集合,IOU
ab
为用户反馈的目标物体框a与候选目标识别框b的面积的交并比,IOU
thresh
为交并比阈值,当IOU
ab
>IOU
thresh
,则将b记为目标识别模型物体框并纳入a的匹配列表。
[0019]作为优选,所述通过相似度匹配从大规模目标物体列表中获得备选关键词具体为:用基于跨模态的目标识别模型中的文本编码器将大规模目标物体列表进行向量化,获得大规模目标物体向量库,然后将匹配列表中的每个向量在大规模目标物体向量库中进行余弦相似度匹配,相似度大于相似度阈值的目标列为备选关键词。即将匹配列表中的每个向量依次与大规模目标物体向量库中的每个向量计算余弦相似度,如果余弦相似度大于相似度阈值,则此大规模目标物体向量库的向量所对应的目标被列为备选关键词。
[0020]作为优选,所述对备选关键词进行排序并推荐具体为:
[0021]在进行余弦相似度匹配时,每个匹配到的关键词称为对这个关键词的一次命中,计算每个备选关键词命中总次数K,按照K进行降序排列,从高到低进行推荐。
[0022]作为优选,所述对备选关键词进行排序并推荐具体为:
[0023]计算每个备选关键词命中时的平均相似度Mean
i
,按照平均相似度Mean
i
进行降序排列,从高到底进行推荐。
[0024]本专利技术带来的实质性效果是,能够作为开放词表的无限类识别模型的辅助,在用户不知道应该采用什么关键词作为识别标签时,让用户通过在图片中选择目标物体,来获得目标标签的推荐,从而可以更好的发挥开放词表无限类识别模型的威力。
附图说明
[0025]图1是本专利技术的一种基于跨模态算法的关键词推荐方法流程图。
具体实施方式
[0026]下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。
[0027]实施例:
[0028]一种基于跨模态算法的关键词推荐方法,包括以下步骤:人工反馈获取目标物体以及其向量;通过相似度匹配获得备选关键词;对备选关键词进行排序。
[0029]其中,人工反馈获取目标物体以及其向量的主要目的是获取用户关注的目标物体的特征。首先由用户对示例图片进行标注反馈,在图中框选出希望进行识别的目标物体。之后使用目标识别模型来对图片进行识别处理,得到目标识别框以及每个框对应的特征向量。这里提到的特征向量指的是具有跨模态属性的特征向量。跨模态算法通常包括两个部分:即文本编码器和图像编码器。两者分别可以将文本和图像进行编码转化,得到特征向量,这些特征向量被设计为映射在同一个向量空间里,且含义相同的文本与图像在这个向量空间中距离接近,含义不同的距离拉远。
[0030]这里的处理方式可以分为两种,一是选择基于跨模态算法的目标识别模型,例如Detic算法模型或AttrDet模型,进行目标识别和向量编码。基于跨模态算法的目标识别模型是一种二阶段式的目标识别模型,二阶段式目标识别模型包含两个处理阶段,一是目标
检测阶段,任务是识别出图片中可能为识别目标的区域;二是分类阶段,任务是将候选区域进行分类,获得识别目标以及每个目标的标签。基于跨模态算法的目标识别模型其特点是在第一阶段目标检测处理结束后,每个候选识别区域都会得到一个代表其特征的向量,这个向量即是具有跨模态属性的。因此在获得识别框的同时我们即可以获得识别框对应的包含跨模态信息的特征向量。
[0031]二是首先使用RPN(区域选取)模型进行识别,获取候选区域,之后再使用跨模态向量化模型对候选区域进行向量化处理。所谓的RPN模型,即可以预测出图像中潜在识别目标的模型。区域选取模型可以实用vin模型或faster RCNN模型。跨模态向量化模型即上面提到的跨模态算法模型的图像编码器部分,或者CLIP模型。
[0032]方法一可以一步获得候选目标和向量,而方法二则是使用两步的策略。
[0033]在同时获得用户反馈目标框和模型识别目标框后,以用户反馈的目标物体框为真值来获取目标识别模型物体框的对应关系。计算用户反馈的目标物体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态算法的关键词推荐方法,其特征在于,包括以下步骤:S1、获取感兴趣的目标并向量化:首先由用户对示例图片进行标注反馈,在图中框选出希望进行识别的目标物体,得到用户反馈的目标物体框,之后使用目标识别模型来对图片进行识别处理,得到候选目标识别框以及每个候选目标识别框对应的特征向量,最后将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表;S2、通过相似度匹配从大规模目标物体列表中获得备选关键词;S3、对备选关键词进行排序并推荐。2.根据权利要求1所述的一种基于跨模态算法的关键词推荐方法,其特征在于,所述使用目标识别模型来对图片进行识别处理使用基于跨模态的目标识别模型进行目标识别和向量编码,具体为:识别出图片中可能为识别目标的区域作为候选目标识别框,同时每个候选目标识别框都得到一个代表其特征的向量;基于跨模态的目标识别模型包括文本编码器和图像编码器。3.根据权利要求1所述的一种基于跨模态算法的关键词推荐方法,其特征在于,所述使用目标识别模型来对图片进行识别处理具体包括:S111、使用区域选取模型进行识别,获取候选区域;S112、使用图像编码器对候选区域进行向量化处理。图像编码器为基于跨模态的目标识别模型的图像编码器部分。4.根据权利要求2或3所述的一种基于跨模态算法的关键词推荐方法,其特征在于,将交并比大于交并比阈值的候选目标识别框记为目标识别模型物体框纳入匹配列表具体为:通过下式计算用户反馈的目标物体框与候选目标识别框的交...

【专利技术属性】
技术研发人员:张璐陆骁鹏赵天成刘鹏刘全
申请(专利权)人:杭州联汇科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1