【技术实现步骤摘要】
基于人工智能的目标识别方法、模型训练方法和装置
[0001]本公开涉及人工智能
,尤其涉及图像识别
和视频分析
,可应用于智慧城市、城市治理以及应急管理等场景下。更具体地,本公开提供了一种目标识别方法、目标识别模型的训练方法、装置、电子设备和存储介质。
技术介绍
[0002]随着人工智能技术的发展,可以对视频采集设备采集图像或视频进行识别,以确定图像和视频中对象的位置和类别。
技术实现思路
[0003]本公开提供了一种目标识别方法、目标识别模型的训练方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种目标识别方法,该方法包括:响应于获取到目标文本,对目标文本进行特征提取,得到目标文本特征,其中,目标文本与目标对象相关;对与目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;根据目标文本特征和至少一个初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征;对至少一个查询特征、至少一个键特征和至少一个值特征进行融合,得到至少一个目标融合特征;根据至少一个目标融合特征,确定与至少一个初始图像对应的至少一个识别结果;以及根据至少一个识别结果,从至少一个初始图像中确定与目标对象相关的目标图像。
[0005]根据本公开的另一方面,提供了一种目标识别模型的训练方法,目标识别模型包括图像特征提取网络、文本特征提取网络、融合网络和识别网络,该方法包括:将样本文本输入文本特征提取网络,得到样本文本特征,其中,样本文本与样本对象相关;将样 ...
【技术保护点】
【技术特征摘要】
1.一种目标识别方法,包括:响应于获取到目标文本,对所述目标文本进行特征提取,得到目标文本特征,其中,所述目标文本与目标对象相关;对与所述目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征;根据所述目标文本特征和至少一个所述初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征;对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行融合,得到至少一个目标融合特征;根据至少一个所述目标融合特征,确定与至少一个所述初始图像对应的至少一个识别结果;以及根据至少一个所述识别结果,从至少一个所述初始图像中确定与所述目标对象相关的目标图像。2.根据权利要求1所述的方法,其中,所述根据所述目标文本特征和至少一个所述初始图像特征,得到至少一个查询特征、至少一个键特征和至少一个值特征包括:根据所述目标文本特征,得到至少一个所述键特征;以及根据至少一个所述初始图像特征,得到至少一个所述查询特征和至少一个所述值特征。3.根据权利要求1所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行融合,得到至少一个目标融合特征包括:对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征。4.根据权利要求3所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征包括:将所述查询特征、所述键特征和值特征分别作为第1级所述查询特征、第1级所述键特征和第1级所述值特征;以及基于多头注意力机制,将第1级所述查询特征、第1级所述键特征和第1级所述值特征融合,得到第1级中间融合特征。5.根据权利要求4所述的方法,其中,所述对至少一个所述查询特征、至少一个所述键特征和至少一个所述值特征进行至少一级融合,得到至少一个目标融合特征还包括:将第i级所述中间融合特征分别与所述目标文本特征和所述初始图像特征融合,得到第i+1级文本融合特征和第i+1级图像融合特征,其中,i为大于或等于1且小于I的整数,I为大于1的整数;根据第i+1级所述文本融合特征,得到第i+1级所述键特征;根据第i+1级所述图像融合特征,得到第i+1级所述查询特征和第i+1级所述值特征;基于多头注意力机制,将第i+1级所述查询特征、第i+1级所述键特征和第i+1级所述值特征融合,得到第i+1级所述中间融合特征;以及将第I级所述中间融合特征作为所述目标融合特征。6.根据权利要求1所述的方法,其中,至少是一个初始图像为J个,J为大于或等于1的整
数,所述对与所述目标文本相关的至少一个初始图像进行特征提取,得到至少一个初始图像特征包括:对与所述目标文本相关的第j个所述初始图像进行K级特征提取,得到第j个所述初始图像的K个初始图像特征,其中,j为大于或等于1且小于或等于J的整数,K为大于或等于1的整数。7.根据权利要求1所述的方法,其中,所述根据至少一个所述目标融合特征,确定与至少一个所述初始图像对应的至少一个识别结果包括:对所述目标融合特征进行至少一次卷积,得到所述识别结果,其中,所述识别结果包括所述初始图像的候选检测框和目标类别置信度。8.根据权利要求7所述的方法,其中,所述根据至少一个所述识别结果,从至少一个所述初始图像中确定与所述目标对象相关的目标图像包括:响应于确定所述目标类别置信度大于或等于预设置信度阈值,将与所述识别结果对应的所述初始图像确定为所述目标图像。9.一种目标识别模型的训练方法,所述目标识别模型包括图像特征提取网络、文本特征提取网络、融合网络和识别网络,所述方法包括:将样本文本输入所述文本特征提取网络,得到样本文本特征,其中,所述样本文本与样本对象相关;将样本图像输入所述图像特征提取网络,得到样本图像特征;根据所述样本文本特征和所述样本图像特征,得到查询特征、键特征和值特征;将所述查询特征、所述键特征和所述值特征输入所述融合网络,得到样本融合特征;将所述样本融合特征输入识别网络,得到与所述样本图像对应的样本识别结果;以及根据所述样本图像的标签和所述样本识别结果,训练所述图像识别模型。10.根据权利要求9所述的方法,其中,所述根据所述样本文本特征和所述样本图像特征,得到查询特征、键特征和值特征包括:根据所述样本文本特征,得到所述键特征;根据所述样本图像特征,得到所述查询特征和所述值特征。11.根据权利要求9所述的方法,其中,所述融合网络包括至少一个融合单元,所...
【专利技术属性】
技术研发人员:赵一麟,沈智勇,陆勤,龚建,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。