【技术实现步骤摘要】
图像内容分析方法、装置、设备和介质
[0001]本申请涉及人工智能
,尤其涉及一种图像内容分析方法、装置、设备和介质。
技术介绍
[0002]图像内容分析和理解是一项重要的业务应用,主要利用人工智能技术来对图像内容进行分析,输出业务所需要的有效信息。长期以来,受限于深度学习技术的发展,现有的内容分析理解技术主要基于特定的多项AI技术配合业务后处理逻辑实现。比如判断一张图片是否含有特定内容,一般需要多模型输出才能够理解识别:人脸识别模型检测图片中是否含有特定人物,元素检测模型检测图片中是否含有特定元素,事件分析模型再判断该图像表达的内容是否涉及特定事件,特定内容识别模型判断图像是否含有特定内容,当上述独立的模型都没有检测到特定内容,才能够确定该图片属于正常类别。该方式需整合多种模型,图像内容分析效率很低,同时需进行独立的模型训练,并且依赖于人工设置的先验知识,训练成本高。
技术实现思路
[0003]本申请提供了一种图像内容分析方法、装置、设备和介质,可以显著提升图像内容分析的准确性和分析效率。
[0004]一方面,本申请提供了一种图像内容分析方法,所述方法包括:获取待分析图像和任务指示文本;将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果;所述任务指示文本用于提供所述内容理解模型执行所述图像内容提取和图像分类所需的指导信息;所述内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,所述图像 ...
【技术保护点】
【技术特征摘要】
1.一种图像内容分析方法,其特征在于,所述方法包括:获取待分析图像和任务指示文本;将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果;所述任务指示文本用于提供所述内容理解模型执行图像内容提取和图像分类所需的指导信息;所述内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,所述图像编码模块用于以所述待分析图像为输入并输出视觉特征,所述多模态映射模块用于将所述视觉特征转换为文本特征嵌入空间的映射特征,所述文本解码模块是基于预训练的大语言模型构建的,用于基于所述映射特征和所述任务指示文本输出内容理解特征和所述内容描述文本,所述分类模块用于基于所述内容理解特征进行分类识别,得到所述图像类别结果;所述内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对所述初始理解模型进行图像内容提取和图像分类的约束训练得到的。2.根据权利要求1所述的方法,其特征在于,所述将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果包括:将所述待分析图像输入所述图像编码模块进行特征提取,得到所述视觉特征;将所述视觉特征输入所述多模态映射模块进行特征映射,以将所述视觉特征映射至所述文本解码模块的文本特征嵌入空间,得到所述映射特征;将所述映射特征和所述任务指示文本输入所述文本解码模块进行内容理解,得到所述内容理解特征和所述内容描述文本,所述内容描述文本是基于所述文本解码模块的输出层对所述内容理解特征进行特征文本映射得到的;将所述内容理解特征输入所述分类模块进行分类识别,得到所述图像类别结果。3.根据权利要求2所述的方法,其特征在于,所述多模态映射模块包括第一转换器层和第二转换器层,所述将所述视觉特征输入所述多模态映射模块进行特征映射,以将所述视觉特征映射至所述文本解码模块的文本特征嵌入空间,得到所述映射特征包括:将所述视觉特征输入所述第一转换器层进行分片级的特征表示,以将所述视觉特征映射至词嵌入空间,得到分片嵌入特征;将所述分片嵌入特征输入所述第二转换器层进行上下文信息交叉提取,得到所述映射特征。4.根据权利要求1所述的方法,其特征在于,所述图像编码模块是结合图文样本对,对预设的文本特征提取网络和基于自注意力机制的图像特征提取网络进行图像和文本匹配的分类识别约束训练得到的。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述方法还包括:获取通用领域的图文对指令数据集、预设业务领域的图文对指令数据集和文本对话数据集;基于所述通用领域的图文对指令数据集和所述预设业务领域的图文对指令数据集,对所述初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本
特征对齐的第一约束训练,在训练过程中冻结所述文本解码模块的模型参数并调整所述图像编码模块和所述多模态映射模块的模型参数,至满足第一训练结束条件;基于由所述预设业务领域的图文对指令数据集和所述文本对话数据集形成的多模态指令数据集,对满足所述第一训练结束条件的初始理解模型进行图像内容提取和图像分类的第二约束训练,在训练过程中冻结所述图像编码模块和所述多模态映射模块的模型参数并调整所述文本解码模块和所述分类模块的模型参数,至满足第二训练结束条件;将满足所述第二训练结束条件的初始理解模型确定为所述内容理解模型。6.根据权利要求5所述的方法,其特征在于,所述通用领域对应的图文对指令数据集包括第一样本图像、第一指示信息和所述第一样本图像对应的第一文本标注,所述预设业务领域对应的图文对指令数据集包括第二样本图像、第二指示信息和所述第二样本图像对应的第二文本标注,所述第一指示信息和所述第二指示信息均用于提供所述文本解码模块在进行内容理解时所需的指导信息,所述第一文本标注为基于所述第一指示信息进行图像描述所对应的文本响应真值,所述第二文本标注为基于所述第二指示信息进行图像描述所对应的文本响应真值;所述第一约束训练采用下述步骤实现:以所述第一样本图像或所述第二样本图像作为所述图像编码模块...
【专利技术属性】
技术研发人员:任玉强,鄢科,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。