基于人工智能的目标识别方法、模型训练方法和装置制造方法及图纸

技术编号:37144344 阅读:16 留言:0更新日期:2023-04-06 21:54
本公开提供了一种目标识别方法,涉及人工智能技术领域,尤其涉及图像识别技术领域和视频分析技术领域,可应用于智慧城市、城市治理以及应急管理等场景下。具体实现方案为:响应于获取到目标文本,对目标文本进行特征提取,得到目标文本特征;对与目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;根据目标文本特征和至少一个初始图像特征,得到至少一个目标融合特征;根据至少一个目标融合特征,确定与至少一个初始图像对应的至少一个识别结果;以及根据至少一个识别结果,从至少一个初始图像中确定与目标对象相关的目标图像。本公开还提供了一种目标识别模型的训练方法、装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。

【技术实现步骤摘要】
基于人工智能的目标识别方法、模型训练方法和装置


[0001]本公开涉及人工智能
,尤其涉及图像识别
和视频分析
,可应用于智慧城市、城市治理以及应急管理等场景下。更具体地,本公开提供了一种目标识别方法、目标识别模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能技术的发展,可以对视频采集设备采集图像或视频进行识别,以确定图像和视频中对象的位置和类别。

技术实现思路

[0003]本公开提供了一种目标识别方法、目标识别模型的训练方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种目标识别方法,该方法包括:响应于获取到目标文本,对目标文本进行特征提取,得到目标文本特征,其中,目标文本与目标对象相关;对与目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;根据目标文本特征和至少一个初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征;对至少一个查询特征、至少一个键特征和至少一个值特征进行融合,得到至少一个目标融合特征;根据至少一个目标融合特征,确定与至少一个初始图像对应的至少一个识别结果;以及根据至少一个识别结果,从至少一个初始图像中确定与目标对象相关的目标图像。
[0005]根据本公开的另一方面,提供了一种目标识别模型的训练方法,目标识别模型包括图像特征提取网络、文本特征提取网络、融合网络和识别网络,该方法包括:将样本文本输入文本特征提取网络,得到样本文本特征,其中,样本文本与样本对象相关;将样本图像输入图像特征提取网络,得到样本图像特征;根据样本文本特征和样本图像特征,得到查询特征、键特征和值特征;将查询特征、键特征和值特征输入融合网络,得到样本融合特征;将样本融合特征输入识别网络,得到与样本图像对应的样本识别结果;以及根据样本图像的标签和样本识别结果,训练图像识别模型。
[0006]根据本公开的另一方面,提供了一种目标识别装置,该装置包括:第一特征提取模型,用于响应于获取到目标文本,对目标文本进行特征提取,得到目标文本特征,其中,目标文本与目标对象相关;第二特征提取模块,用于对与目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;第一获得模块,用于根据目标文本特征和至少一个初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征;融合模块,用于对至少一个查询特征、至少一个键特征和至少一个值特征进行融合,得到至少一个目标融合特征;第一确定模块,用于根据至少一个目标融合特征,确定与至少一个初始图像对应的至少一个识别结果;以及第二确定模块,用于根据至少一个识别结果,从至少一个初始图像中确定与目标对象相关的目标图像。
[0007]根据本公开的另一方面,提供了一种目标识别模型的训练装置,目标识别模型包括图像特征提取网络、文本特征提取网络、融合网络和识别网络,该装置包括:第二获得模块,用于将样本文本输入文本特征提取网络,得到样本文本特征,其中,样本文本与样本对象相关;第三获得模块,用于将样本图像输入图像特征提取网络,得到样本图像特征;第四获得模块,用于根据样本文本特征和样本图像特征,得到查询特征、键特征和值特征;第五获得模块,用于将查询特征、键特征和值特征输入融合网络,得到样本融合特征;第六获得模块,用于将样本融合特征输入识别网络,得到与样本图像对应的样本识别结果;以及训练模块,用于根据样本图像的标签和样本识别结果,训练图像识别模型。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开提供的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开的一个实施例的可以应用目标识别方法和装置的示例性系统架构示意图;
[0014]图2是根据本公开的一个实施例的目标识别方法的流程图;
[0015]图3是根据本公开的一个实施例的目标识别模型的示意图;
[0016]图4A是根据本公开的一个实施例的初始图像的示意图;
[0017]图4B是根据本公开的一个实施例的识别结果的示意图;
[0018]图5是根据本公开的另一个实施例的目标识别模型的训练方法的流程图;
[0019]图6是根据本公开的一个实施例的目标识别模型的训练方法的原理图;
[0020]图7是根据本公开的一个实施例的目标识别装置的框图;
[0021]图8是根据本公开的一个实施例的目标识别模型的训练装置的框图;以及
[0022]图9是根据本公开的一个实施例的可以应用目标识别方法的电子设备的框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]随着城市化进程的不断发展,超大城市逐渐凸显出人口集约化的特点。基于城市内广泛部署的摄像头,可以利用计算机视觉技术,确定人脸、人体特征,以便进行城市管控。
与此同时,宠物也逐渐成为城市中的不可忽视的元素。但是,针对宠物的智能化管理方案仍处于起步阶段。对宠物实现精细化的智能管理,有助于提升城市的市容市貌,也有助于改善城市的公共卫生。
[0025]在进行行人身份识别时,可以利用计算机视觉技术,收集数量庞大的人脸或人体图片进行特征提取,以便构建身份数据底库。在识别时,根据采集到的图像的特征与身份数据底库中的特征之间的相似度,确定采集到的图像中对象的身份。
[0026]在进行宠物识别时,也可以利用计算机视觉技术,对采集到的图像进行类别检测,再基于检测框提取特征,与宠物身份数据底库中的特征进行特征相似度计算,以进行宠物身份识别。
[0027]然而,宠物物种繁杂且视觉区分度低,为宠物识别构建庞大的身份特征底库,所需的成本较高。此外,在建立宠物身份特征底库时,宠物的采集配合度较低,宠物的脸部和肢体特征难以采集。
[0028]图1是根据本公开一个实施例的可以应用目标识别方法和装置的示例性系统架构示意图。需要注意的是,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标识别方法,包括:响应于获取到目标文本,对所述目标文本进行特征提取,得到目标文本特征,其中,所述目标文本与目标对象相关;对与所述目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;根据所述目标文本特征和至少一个所述初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征;对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行融合,得到至少一个目标融合特征;根据至少一个所述目标融合特征,确定与至少一个所述初始图像对应的至少一个识别结果;以及根据至少一个所述识别结果,从至少一个所述初始图像中确定与所述目标对象相关的目标图像。2.根据权利要求1所述的方法,其中,所述根据所述目标文本特征和至少一个所述初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征包括:根据所述目标文本特征,得到至少一个所述键特征;以及根据至少一个所述初始图像特征,得到至少一个所述查询特征和至少一个所述值特征。3.根据权利要求1所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行融合,得到至少一个目标融合特征包括:对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征。4.根据权利要求3所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征包括:将所述查询特征、所述键特征和值特征分别作为第1级所述查询特征、第1级所述键特征和第1级所述值特征;以及基于多头注意力机制,将第1级所述查询特征、第1级所述键特征和第1级所述值特征融合,得到第1级中间融合特征。5.根据权利要求4所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征还包括:将第i级所述中间融合特征分别与所述目标文本特征和所述初始图像特征融合,得到第i+1级文本融合特征和第i+1级图像融合特征,其中,i为大于或等于1且小于I的整数,I为大于1的整数;根据第i+1级所述文本融合特征,得到第i+1级所述键特征;根据第i+1级所述图像融合特征,得到第i+1级所述查询特征和第i+1级所述值特征;基于多头注意力机制,将第i+1级所述查询特征、第i+1级所述键特征和第i+1级所述值特征融合,得到第i+1级所述中间融合特征;以及将第I级所述中间融合特征作为所述目标融合特征。6.根据权利要求1所述的方法,其中,至少是一个初始图像为J个,J为大于或等于1的整
数,所述对与所述目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征包括:对与所述目标文本相关的第j个所述初始图像进行K级特征提取,得到第j个所述初始图像的K个初始图像特征,其中,j为大于或等于1且小于或等于J的整数,K为大于或等于1的整数。7.根据权利要求1所述的方法,其中,所述根据至少一个所述目标融合特征,确定与至少一个所述初始图像对应的至少一个识别结果包括:对所述目标融合特征进行至少一次卷积,得到所述识别结果,其中,所述识别结果包括所述初始图像的候选检测框和目标类别置信度。8.根据权利要求7所述的方法,其中,所述根据至少一个所述识别结果,从至少一个所述初始图像中确定与所述目标对象相关的目标图像包括:响应于确定所述目标类别置信度大于或等于预设置信度阈值,将与所述识别结果对应的所述初始图像确定为所述目标图像。9.一种目标识别模型的训练方法,所述目标识别模型包括图像特征提取网络、文本特征提取网络、融合网络和识别网络,所述方法包括:将样本文本输入所述文本特征提取网络,得到样本文本特征,其中,所述样本文本与样本对象相关;将样本图像输入所述图像特征提取网络,得到样本图像特征;根据所述样本文本特征和所述样本图像特征,得到查询特征、键特征和值特征;将所述查询特征、所述键特征和所述值特征输入所述融合网络,得到样本融合特征;将所述样本融合特征输入识别网络,得到与所述样本图像对应的样本识别结果;以及根据所述样本图像的标签和所述样本识别结果,训练所述图像识别模型。10.根据权利要求9所述的方法,其中,所述根据所述样本文本特征和所述样本图像特征,得到查询特征、键特征和值特征包括:根据所述样本文本特征,得到所述键特征;根据所述样本图像特征,得到所述查询特征和所述值特征。11.根据权利要求9所述的方法,其中,所述融合网络包括至少一个融合单元,所...

【专利技术属性】
技术研发人员:赵一麟沈智勇陆勤龚建
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1