图像描述生成方法、装置、设备及介质制造方法及图纸

技术编号:34140512 阅读:20 留言:0更新日期:2022-07-14 17:42
本发明专利技术涉及人工智能技术领域,提供了一种图像描述生成方法、装置、设备及介质。该方法包括:将待测图像输入预设目标检测模型进行识别,输出所述待测图像的区域特征;将所述区域特征输入预设标签注意力模型进行权重计算,输出所述待测图像的类别嵌入;将所述区域特征输入预设变压模型的编码器进行处理,输出所述编码器的输出值;将所述输出值和所述类别嵌入输入所述预设变压模型的解码器进行处理,生成所述待测图像的描述文本。本发明专利技术还涉及区块链技术领域,上述区域特征、类别嵌入还可以存储于一区块链的节点中。一区块链的节点中。一区块链的节点中。

【技术实现步骤摘要】
图像描述生成方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种图像描述生成方法、装置、设备及介质。

技术介绍

[0002]图像描述(Image Caption)是一种融合了计算机视觉技术、自然语言处理技术以及机器学习技术的综合性新兴学科。图像描述的目的是根据图片内容自动生成一段描述性文字。
[0003]随着Transformer模型在NLP领域流行起来,相继出现了很多基于Transformer的图像描述方法,并且表现出了比大多传统方法都要好的性能,其相较于用于自然语言处理的Transformer模型,在输入位置编码和编码器部分的注意力机制模块做出了改进来更好地适应以图像为输入的模型。
[0004]但是目前的方法并不能将图像目标间关系和目标与对应标签的映射关系这些抽象特征融合进注意力机制中,得到的描述信息不够准确和丰富。

技术实现思路

[0005]鉴于以上内容,本专利技术提供一种图像描述生成方法、装置、设备及介质,其目的在于解决现有技术中图像生成描述信息不够准确和丰富的技术问题。...

【技术保护点】

【技术特征摘要】
1.一种图像描述生成方法,其特征在于,所述方法包括:将待测图像输入预设目标检测模型进行识别,输出所述待测图像的区域特征;将所述区域特征输入预设标签注意力模型进行权重计算,输出所述待测图像的类别嵌入;将所述区域特征输入预设变压模型的编码器进行处理,输出所述编码器的输出值;将所述输出值和所述类别嵌入输入所述预设变压模型的解码器进行处理,生成所述待测图像的描述文本。2.如权利要求1所述的图像描述生成方法,其特征在于,所述将待测图像输入预设目标检测模型进行识别,输出所述待测图像的区域特征,包括:根据预设几何关系计算公式,对所述待测图像包含的目标进行边框识别,得到所述目标的边框和每个所述边框的目标类别;调整所述边框的大小至预设范围,输出所述待测图像的区域特征。3.如权利要求2所述的图像描述生成方法,其特征在于,所述预设几何关系计算公式,包括:其中,ξ(a,b)为所述待测图像的区域特征,(x
a
,y
a
)为所述待测图像的第a个边框的中心点坐标,(x
b
,y
b
)为所述待测图像的第b个边框的中心点坐标,(w
a
,h
a
)为所述第a个边框的宽和高,(w
b
,h
b
)为所述第b个边框的宽和高。4.如权利要求1所述的图像描述生成方法,其特征在于,所述将所述区域特征输入预设标签注意力模型进行权重计算,输出所述待测图像的类别嵌入,包括:根据预设匹配公式将所述待测图像的目标类别与预设多维词典的预设词进行匹配,得到所述目标类别的预测词和目标标签;根据预设第一注意力公式将所述预测词进行编码嵌入,得到所述待测图像的类别嵌入。5.如权利要求4所述的图像描述生成方法,其特征在于,所述预设标签注意力模型包括多个注意模块,每个所述注意模块包含一个独立的缩放点积注意函数,所述根据预设第一注意力公式将所述预测词进行编码嵌入,得到所述待测图像的类别嵌入,包括:A1、根据所述预设第一注意力计算公式和所述缩放点积注意函数,将所述预测词输入第一注意模块的矩阵进行权重计算,输出第一注意模块的第一权重值;A2、将所述第一权重输入至第二注意模的矩阵进行权重计算,输出第二注意模块的第二权重值;A3、重复A1

A2得到所有注意模块的权重值,根据串联拼接函数将所有权重值进行拼接,输出所述待测图像的类别嵌入。6.如权利要求1所述的图像描述生成方...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1