一种基于多模态的特定图片识别方法技术

技术编号:39716400 阅读:16 留言:0更新日期:2023-12-17 23:24
本发明专利技术公开了一种基于多模态的特定图片识别方法,涉及某特定图片识别领域,包含

【技术实现步骤摘要】
一种基于多模态的特定图片识别方法


[0001]本专利技术涉及某特定图片识别领域,尤其涉及一种基于多模态的特定图片识别方法


技术介绍

[0002]随着互联网的发展,互联网上产生的图片越来越多,不同种类的图片数据混在一起,不方便使用和查看,需要对图片进行分类识别,在海量数据中找出想要的图片

[0003]传统的人工查找方法,耗时且成本较高,现有的某特定图片识别方法多以单一模态进行,即只利用图片特征,识别结果比较单一,主要集中在某一特征性较高的图片,解决方法多采用对图片进行分类,每一类图片做为一个分类类别,当遇到新的类别需要进行识别时,就需要搜集数据,然后训练模型,反复迭代模型

[0004]现有的某特定图片识别方法识别出的每类特定图片较单一,对于特定图片类内差异较大的效果较差,很多图片识别不出,若想识别出,必须要做精细分类,工作量较大,当有新的特定类别时,必须要搜集数据,训练模型,然后更新模型,过程较复杂,成本较高


技术实现思路

[0005]本专利技术所要解决的技术问题是为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于多模态的特定图片识别方法,其特征在于:包含两个部分:
(

)、
对图片

文本的特征信息提取;
(

)、
特定图片匹配策略;具体包含如下步骤:步骤1,通过多模态特征提取网络
FH

LANet
模型对图片提取特征;其中,多模态特征提取网络
FH

LANet
模型包含图像编码器和文本编码器两部分,具体如下:步骤
1.1
,收集图片和文本配对的图文对,文本是对图像内容的描述;步骤
1.2
,通过图像分块

文本的词向量化,把图片

文本转化为序列化;步骤
1.3
,选择图像编码器

文本编码器对图像

文本进行前向传播提取特征,并利用对比学习损失函数进行反向传播,训练多模态图文模型;步骤2,使用输入图片的特征和查询特征进行余弦相似度计算,然后进行阈值判断,匹配上的和过滤图片

过滤文本再进行匹配,过滤掉噪声数据,与查询图片没有匹配上的与查询文本进行二次匹配,获得图片的识别结果,其中,余弦相似度具体计算方式如下:其中
A、B
表示为两个
N
维的向量
。2.
根据权利要求1所述的一种基于多模态的特定图片识别方法,其特征在于:在步骤2中,执行步骤
2.1
到步骤
2.7
获取特定图片识别结果:步骤
2.1
,对查询图片

过滤图片进行前处理,裁剪到模型要求的大小,然后归一化处理;步骤
2.2
,对查询文本

过滤文本提取特征,查询图片特征和查询文本特征进行融合作为最终的查询特征,过滤图片特征和对应的文本特征进行融合作为过滤特征;步骤
2.3
,对输入图片进行前处理,裁剪到模型要求的大小,然后归一化处理;步骤
2.4
,对输入的图片提取特征,然后和查询特征计算余弦相似度;步骤
2.5
,进行阈值判断...

【专利技术属性】
技术研发人员:卢山潘通郑鹏董文君汤国强周天河于文年
申请(专利权)人:江苏省海量数据技术研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1