一种图片多标签分类的处理方法以及相关装置制造方法及图纸

技术编号：39952310 阅读：8 留言：0更新日期：2024-01-08 23:24

本申请实施例公开了一种图片多标签分类的处理方法以及相关装置，至少涉及人工智能等技术，减少不必要的图片质量评价领域的算法重复建模，降低研发成本投入，而且能够快速地响应业务的需求，适用于多种应用场景。该方法包括：获取待预测图片和预设标签分类结果，所述预设标签分类结果包括至少两个标记标签；基于预设自监督模型对所述待预测图片进行特征提取处理，得到所述待预测图片的图片嵌入特征；基于预设标签模型对每个所述标记标签进行特征提取，得到所述标记标签的标签嵌入特征；基于预设多标签分类模型对所述图片嵌入特征和所述标签嵌入特征进行融合处理，得到所述待预测图片的多标签分类结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及图片识别，具体涉及一种图片多标签分类的处理方法以及相关装置。

技术介绍

1、随着互联网的快速发展和内容生产的门槛降低，各种内容的发布量以指数级的速度增长，人们可随时随地获取各式各样的信息。无论是图文内容，还是视频内容，对象看到内容最核心的因素是内容的标题、封面图以及自媒体账号名称。例如，在消费场景的图文内容中，封面图的质量好坏很大程度上影响了对象的点击浏览欲望。封面图的质量好坏可以从两个层面来看，一方面是图片的质量，例如图片是否清晰、是否美观等；另一方面是图片所传达的信息，比如图片的内容是否有效、是否契合主旨等。另外，图片的标签抽取和标签分类对信息流中图片处理业务也非常重要，业务处理过程当中涉及大量图片的处理，比如选图、裁图、图文相关性、相似重复图片计算等等。在相关信息流的图片内容的处理过程当中，最典型场景的比如封面图处理的场景，主要涉及到选图和截图2个主要过程。在每个过程中，都需要使用到图片多个维度的特征标签，比如物理维度、质量维度、信息维度和感知维度等。而且，在这些处理过程中，都涉及到大量的图片特征，以及为这些图片特征设置不同阈值或者组合，例如，在输出一张封面图的时候，需要对多张封面图进行综合质量判断，选取图片综合评级最高的图片作为优质封面并输出。

2、然而，在对于封面图的图片标签分类过程中，现有的标签分类模型通常是以提取到的图片以及图片对应的上下文文本信息作为输入，进而预测得到该图片对应的标签结果。而由于图片内容来源非常广泛，使得标签分类模型在针对图片不同角度的标签确定的过程中，都需要使用不同的

技术实现思路

1、本申请实施例提供了一种图片多标签分类的处理方法以及相关装置，能够有效减少不必要的图片质量评价领域的算法重复建模，降低研发成本投入，提升研发的效率，而且能够快速地响应业务的需求，适用于多种应用场景。

2、第一方面，本申请实施例提供了一种图片多标签分类的处理方法。该方法包括：获取待预测图片和预设标签分类结果，所述预设标签分类结果包括至少两个标记标签，每个所述标记标签用于指示所述待预测图片的预设图片分类情况；基于预设自监督模型对所述待预测图片进行特征提取处理，得到所述待预测图片的图片嵌入特征；基于预设标签模型对每个所述标记标签进行特征提取，得到所述标记标签的标签嵌入特征；基于预设多标签分类模型对所述图片嵌入特征和所述标签嵌入特征进行融合处理，得到所述待预测图片的多标签分类结果，所述多标签分类结果用于指示所述待预测图片所匹配的目标图片类别，其中，预设多标签分类模型是以样本图片的多标签分类结果为训练目标，以样本图片的图片嵌入特征以及样本图片的标记标签所对应的标签嵌入特征为训练数据进行迭代训练得到的机器学习模型。

3、第二方面，本申请实施例提供一种多标签分类处理装置。该多标签分类处理装置包括但不限于终端设备、服务器等。该多标签分类处理装置包括获取单元和处理单元。其中，获取单元用于获取待预测图片和预设标签分类结果，所述预设标签分类结果包括至少两个标记标签，每个所述标记标签用于指示所述待预测图片的预设图片分类情况。处理单元，用于基于预设自监督模型对待预测图片进行特征提取处理，得到待预测图片的图片嵌入特征；基于预设标签模型对每个标记标签进行特征提取，得到标记标签的标签嵌入特征；基于预设多标签分类模型对图片嵌入特征和标签嵌入特征进行融合处理，得到待预测图片的多标签分类结果，多标签分类结果用于指示待预测图片所匹配的目标图片类别，其中，预设多标签分类模型是以样本图片的多标签分类结果为训练目标，以样本图片的图片嵌入特征以及样本图片的标记标签所对应的标签嵌入特征为训练数据进行迭代训练得到的机器学习模型。

4、在一些可选的示例中，处理单元用于：将图片嵌入特征和标签嵌入特征输入至预设多标签分类模型，得到待预测图片的每个标记标签的预测分类概率值；基于每个标记标签的预测分类概率值确定待预测图片的多标签分类结果。

5、在一些可选的示例中，预设多标签分类模型包括第一transform子模型和第二transform子模型；处理单元用于：基于第一transform子模型对图片嵌入特征和标签嵌入特征进行编码处理，得到编码特征向量；基于第二第一transform子模型对编码特征向量和图片嵌入特征进行融合处理，得到待预测图片的每个标记标签的预测分类概率值。

6、在一些可选的示例中，获取单元还用于基于每个标记标签与对应的预测分类概率值之间的差异，获取目标损失值；处理单元还用于基于目标损失值更新预设多标签分类模型的模型参数，得到训练好的预设多标签分类模型。

7、在一些可选的示例中，处理单元用于：计算每个标记标签与对应的预测分类概率值之间的差异，得到每个标记标签与对应的预测分类概率值之间的损失值；对每个标记标签与对应的预测分类概率值之间的损失值进行平均处理，得到目标损失值。

8、在一些可选的示例中，处理单元还用于在基于每个标记标签的预测分类概率值确定待预测图片的多标签分类结果之后，基于多标签分类结果中的每个标签，确定与每个标签对应的业务策略，业务策略用于指示对图片进行业务处理时采用的图片处理策略；基于标签和业务策略对待预测图片进行业务处理。

9、在一些可选的示例中，获取单元还用于：获取训练样本集，训练样本集包括至少两个图片样本；处理单元用于基于预设对比损失模型对样本标签和样本特征相似度进行处理，得到对比损失值，其中，样本标签用于指示至少两个图片样本中每两个图片样本的匹配情况，样本相似度为每两个图片样本的样本特征之间的相似度；基于对比损失值更新预设自监督模型的模型参数，得到训练好的预设自监督模型。

10、在一些可选的示例中，标记标签包括待预测图片的图片内容、图片几何结构、图片风格、画面质量、拍摄技巧、以及对象对待预测图片的感受情况中的一个或多个。

11、本申请实施例第三方面提供了一种多标签分类处理装置，包括：存储器、输入/输出(i/o)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的图片多标签分类的处理方法。

12、本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法。

13、本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法。

14、从以上技本文档来自技高网...

【技术保护点】

1.一种图片多标签分类的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于预设多标签分类模型对所述图片嵌入特征和所述标签嵌入特征进行融合处理，得到所述待预测图片的多标签分类结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设多标签分类模型包括第一Transform子模型和第二Transform子模型；将所述图片嵌入特征和所述标签嵌入特征输入至所述预设多标签分类模型，得到所述待预测图片的每个预测标签的预测分类概率值，包括：

4.根据权利要求2至3中任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述每个标记标签与对应的预测分类概率值之间的差异，获取目标损失值，包括：

6.根据权利要求1至3中任一项所述的方法，其特征在于，在基于所述每个标记标签的预测分类概率值确定所述待预测图片的多标签分类结果之后，所述方法还包括：

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至3中任一

9.一种多标签分类处理装置，其特征在于，包括：

10.一种多标签分类处理装置，其特征在于，包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8中任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种图片多标签分类的处理方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设多标签分类模型包括第一transform子模型和第二transform子模型；将所述图片嵌入特征和所述标签嵌入特征输入至所述预设多标签分类模型，得到所述待预测图片的每个预测标签的预测分类概率值，包括：

4.根据权利要求2至3中任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述每个标记标签与对应的预测分类概率值之间的差异，获取目标损失值，包括：

6.根据权利要求1至3中任一项所述的方法，其特征在于，在基于所述每个标记标签的预测分类概率值确定所述待预测图片的多标签分类结果之...

【专利技术属性】
技术研发人员：刘刚，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人