图像内容分析方法、装置、设备和介质制造方法及图纸

技术编号:39003537 阅读:8 留言:0更新日期:2023-10-07 10:35
本申请提供了图像内容分析方法、装置、设备和介质,涉及人工智能技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等场景,方法包括:获取待分析图像和任务指示文本;将待分析图像和任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到待分析图像的内容描述文本和图像类别结果;内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对初始理解模型进行图像内容提取和图像分类的约束训练得到的。本申请能够显著提升模型能力和业务匹配性。能够显著提升模型能力和业务匹配性。能够显著提升模型能力和业务匹配性。

【技术实现步骤摘要】
图像内容分析方法、装置、设备和介质


[0001]本申请涉及人工智能
,尤其涉及一种图像内容分析方法、装置、设备和介质。

技术介绍

[0002]图像内容分析和理解是一项重要的业务应用,主要利用人工智能技术来对图像内容进行分析,输出业务所需要的有效信息。长期以来,受限于深度学习技术的发展,现有的内容分析理解技术主要基于特定的多项AI技术配合业务后处理逻辑实现。比如判断一张图片是否含有特定内容,一般需要多模型输出才能够理解识别:人脸识别模型检测图片中是否含有特定人物,元素检测模型检测图片中是否含有特定元素,事件分析模型再判断该图像表达的内容是否涉及特定事件,特定内容识别模型判断图像是否含有特定内容,当上述独立的模型都没有检测到特定内容,才能够确定该图片属于正常类别。该方式需整合多种模型,图像内容分析效率很低,同时需进行独立的模型训练,并且依赖于人工设置的先验知识,训练成本高。

技术实现思路

[0003]本申请提供了一种图像内容分析方法、装置、设备和介质,可以显著提升图像内容分析的准确性和分析效率。
[0004]一方面,本申请提供了一种图像内容分析方法,所述方法包括:获取待分析图像和任务指示文本;将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果;所述任务指示文本用于提供所述内容理解模型执行所述图像内容提取和图像分类所需的指导信息;所述内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,所述图像编码模块用于以所述待分析图像为输入并输出视觉特征,所述多模态映射模块用于将所述视觉特征转换为文本特征嵌入空间的映射特征,所述文本解码模块是基于预训练的大语言模型构建的,用于基于所述映射特征和所述任务指示文本输出内容理解特征和所述内容描述文本,所述分类模块用于基于所述内容理解特征进行分类识别,得到所述图像类别结果;所述内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对所述初始理解模型进行图像内容提取和图像分类的约束训练得到的。
[0005]另一方面提供了一种图像内容分析装置,所述装置包括:获取模块:获取待分析图像和任务指示文本;内容分析模块:用于将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果;所述
任务指示文本用于提供所述内容理解模型执行所述图像内容提取和图像分类所需的指导信息;所述内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,所述图像编码模块用于以所述待分析图像为输入并输出视觉特征,所述多模态映射模块用于将所述视觉特征转换为文本特征嵌入空间的映射特征,所述文本解码模块是基于预训练的大语言模型构建的,用于基于所述映射特征和所述任务指示文本输出内容理解特征和所述内容描述文本,所述分类模块用于基于所述内容理解特征进行分类识别,得到所述图像类别结果;所述内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对所述初始理解模型进行图像内容提取和图像分类的约束训练得到的。
[0006]另一方面提供了一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像内容分析方法。
[0007]另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的图像内容分析方法。
[0008]另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像内容分析方法。
[0009]另一方面提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的图像内容分析方法。
[0010]另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的图像内容分析方法。
[0011]本申请提供的图像内容分析方法、装置、设备、存储介质、服务器、终端、计算机程序和计算机程序产品,具有如下技术效果:本申请的技术方案首先获取待分析图像和任务指示文本,将待分析图像和任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到待分析图像的内容描述文本和图像类别结果,该任务指示文本用于提供内容理解模型执行图像内容提取和图像分类所需的指导信息,能够通过指令方式提升模型理解能力,进而提升内容描述和图像分类的准确性;其中,内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,图像编码模块用于以待分析图像为输入并输出视觉特征,多模态映射模块用于将视觉特征转换为文本特征嵌入空间的映射特征,文本解码模块是基于预训练的大语言模型构建的,用于基于映射特征和任务指示文本输出内容理解特征和内容描述文本,分类模块用于基于内容理解特征进行分类识别,得到图像类别结果;内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对初始理解模型进行图像内容提取和图像分类的约束训练得到的;如此,结合大语言模型和指令方式将内容分析和内
容分类整合至同一模型中进行内容理解和分类识别,能够将内容理解中的多种任务进行统一,满足需结合内容分析的分类业务需求,输入是指示文本和图像,能够由单独的一个模型来综合分析图像中出现的所有元素和元素之间的关系,综合分析后输出图像分析的结果,相比于已有方法中多个模型单独分析再后处理的方式,流程更简洁高效,内容理解也更准确,显著提升分析效率和降低训练成本;此外,能够实现图像编码模块、多模态映射模块和分类层的分段训练,提升模型能力和训练收敛效率,且经指令学习迁移训练得到多模态模型,能够显著提升其图像分析能力。
附图说明
[0012]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0013]图1是本申请实施例提供的一种应用环境的示意图;图2是本申请实施例提供的一种图像内容分析方法的流程示意图;图3是本申请实施例提供的另一种图像内容分析方法的流程示意图;图4是本申请实施例提供的另一种图像内容分析方法的流程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像内容分析方法,其特征在于,所述方法包括:获取待分析图像和任务指示文本;将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果;所述任务指示文本用于提供所述内容理解模型执行图像内容提取和图像分类所需的指导信息;所述内容理解模型包括依次连接的图像编码模块、多模态映射模块、文本解码模块和分类模块,所述图像编码模块用于以所述待分析图像为输入并输出视觉特征,所述多模态映射模块用于将所述视觉特征转换为文本特征嵌入空间的映射特征,所述文本解码模块是基于预训练的大语言模型构建的,用于基于所述映射特征和所述任务指示文本输出内容理解特征和所述内容描述文本,所述分类模块用于基于所述内容理解特征进行分类识别,得到所述图像类别结果;所述内容理解模型是结合图文对指令数据集对初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本特征对齐的约束训练,以及结合多模态指令数据集对所述初始理解模型进行图像内容提取和图像分类的约束训练得到的。2.根据权利要求1所述的方法,其特征在于,所述将所述待分析图像和所述任务指示文本输入内容理解模型进行图像内容提取和图像分类,得到所述待分析图像的内容描述文本和图像类别结果包括:将所述待分析图像输入所述图像编码模块进行特征提取,得到所述视觉特征;将所述视觉特征输入所述多模态映射模块进行特征映射,以将所述视觉特征映射至所述文本解码模块的文本特征嵌入空间,得到所述映射特征;将所述映射特征和所述任务指示文本输入所述文本解码模块进行内容理解,得到所述内容理解特征和所述内容描述文本,所述内容描述文本是基于所述文本解码模块的输出层对所述内容理解特征进行特征文本映射得到的;将所述内容理解特征输入所述分类模块进行分类识别,得到所述图像类别结果。3.根据权利要求2所述的方法,其特征在于,所述多模态映射模块包括第一转换器层和第二转换器层,所述将所述视觉特征输入所述多模态映射模块进行特征映射,以将所述视觉特征映射至所述文本解码模块的文本特征嵌入空间,得到所述映射特征包括:将所述视觉特征输入所述第一转换器层进行分片级的特征表示,以将所述视觉特征映射至词嵌入空间,得到分片嵌入特征;将所述分片嵌入特征输入所述第二转换器层进行上下文信息交叉提取,得到所述映射特征。4.根据权利要求1所述的方法,其特征在于,所述图像编码模块是结合图文样本对,对预设的文本特征提取网络和基于自注意力机制的图像特征提取网络进行图像和文本匹配的分类识别约束训练得到的。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述方法还包括:获取通用领域的图文对指令数据集、预设业务领域的图文对指令数据集和文本对话数据集;基于所述通用领域的图文对指令数据集和所述预设业务领域的图文对指令数据集,对所述初始理解模型的图像编码模块、多模态映射模块和文本解码模块进行视觉特征和文本
特征对齐的第一约束训练,在训练过程中冻结所述文本解码模块的模型参数并调整所述图像编码模块和所述多模态映射模块的模型参数,至满足第一训练结束条件;基于由所述预设业务领域的图文对指令数据集和所述文本对话数据集形成的多模态指令数据集,对满足所述第一训练结束条件的初始理解模型进行图像内容提取和图像分类的第二约束训练,在训练过程中冻结所述图像编码模块和所述多模态映射模块的模型参数并调整所述文本解码模块和所述分类模块的模型参数,至满足第二训练结束条件;将满足所述第二训练结束条件的初始理解模型确定为所述内容理解模型。6.根据权利要求5所述的方法,其特征在于,所述通用领域对应的图文对指令数据集包括第一样本图像、第一指示信息和所述第一样本图像对应的第一文本标注,所述预设业务领域对应的图文对指令数据集包括第二样本图像、第二指示信息和所述第二样本图像对应的第二文本标注,所述第一指示信息和所述第二指示信息均用于提供所述文本解码模块在进行内容理解时所需的指导信息,所述第一文本标注为基于所述第一指示信息进行图像描述所对应的文本响应真值,所述第二文本标注为基于所述第二指示信息进行图像描述所对应的文本响应真值;所述第一约束训练采用下述步骤实现:以所述第一样本图像或所述第二样本图像作为所述图像编码模块...

【专利技术属性】
技术研发人员:任玉强鄢科
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1