一种智能化图片配文方法及系统技术方案

技术编号：40799811 阅读：2 留言：0更新日期：2024-03-28 19:26

本申请的实施例提供了一种智能化图片配文方法和系统。所述方法包括通过接收用户端发送的图片配文请求，图片配文请求携带待配文的目标图片；通过预设的正面标签词组模型生成目标图片的目标正面标签词组；基于目标正面标签词组生成目标图片的多个匹配文本；根据多个匹配文本确定最终智能化图片配文结果；向用户端发送图片配文请求响应，所述图片配文请求响应携带所述最终智能化图片配文结果。正面标签词组模型通过采用双向自注意力掩码策略、单模态自注意力掩码策略和因果自注意力掩码策略，联合训练图文匹配、图文对比和图文生成任务，每一次输入图像生成的正面标签词组都具有一定的差异化，有利于增加图片配文内容的丰富性和多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请的实施例涉及图像处理，尤其涉及智能化图片配文方法及系统。

技术介绍

1、在运营推广场景中，经常会对宣传推广、分享、广告海报等图片进行配文，以提高运营推广的效果。尤其对于一个每日更新文章篇数上万级的资讯类网站而言，运营人员每天会发布大量的图文资讯。因此，如何准确且高效地为这些用于推广的图片匹配文字，对于企业运营推广至关重要。

2、现有技术中，通过预设配文关系库，配文关系库存储有大量与待配文图片相对应的特征信息及关联的文字配文；通过获取待配文图片的特征信息，比对配文关系库提取与待配文图片特征信息相关联的文字配文反馈给用户，从而实现对图片匹配适当文字内容的目的。根据照片内容自动给照片配上优雅的文字衬托照片的意境，让人们的社交网络分享照片或保存照片时，让照片看上去更耐人寻味，使照片更显精致、特别，则更能增加大家分享、保存照片的乐趣。其中，通过获取大量影视作品和其对应的字幕文件，对影片抽取多个关键帧，对应每个关键帧图像根据播放时间从字幕文件中获取对应图像所配的字幕文字，将每个关键帧图像比对预设的图像识别模型获取场景、主体及主体特征信息，并将每个关键帧图像的信息识别结果与对应的字幕文字建立关联关系，完成配文关系库的建立。

3、但是，本申请专利技术人在实现本申请实施例中专利技术技术方案的过程中，发现上述技术方案至少存在如下技术问题：

4、可见，上述配文关系库是预先建立的图像信息识别结果与对应的字幕文字之间的关联关系，无法根据不同的输入图像生成多样化的配文，缺乏配文内容的丰富性和多样性，因此，不适用于本

技术实现思路

1、根据本申请的实施例，提供了一种智能化图片配文方案，能够解决现有技术中图片配文内容缺乏丰富性和多样性的技术问题。

2、在本申请的第一方面，提供了一种智能化图片配文方法，通过一种智能化图片配文系统执行，包括以下内容：

3、智能化图片配文系统接收用户端发送的图片配文请求，图片配文请求携带待配文的目标图片；智能化图片配文系统通过预设的正面标签词组模型生成所述目标图片的目标正面标签词组；所述正面标签词组模型包含图像transformer子模型和文本transformer子模型，所述图像transformer子模型和文本transformer子模型共享自注意力层；分别采用双向自注意力掩码策略、单模态自注意力掩码策略和因果自注意力掩码策略，利用所述图像transformer子模型和文本transformer子模型，联合训练所述正面标签词组模型的图文匹配任务、图文对比任务和图文生成任务，所述正面标签词组模型输出训练样本图片的图文匹配特征矩阵，所述图文匹配特征矩阵包含训练样本图片的图像特征和文本词嵌入；根据所述图文匹配特征矩阵，利用全连接网络和大语言模型生成所述训练样本图片的正面标签词组；智能化图片配文系统基于所述目标正面标签词组生成所述目标图片的多个匹配文本；根据所述多个匹配文本确定最终智能化图片配文结果；最后智能化图片配文系统向所述用户端发送图片配文请求响应，所述图片配文请求响应携带所述最终智能化图片配文结果。

4、进一步地，采用双向自注意力掩码策略，将图像transformer子模型输入的queries词嵌入矩阵和文本transformer子模型输入的文本词嵌入矩阵进行相互作用，合并为图像transformer子模型的第一输入张量，文本词嵌入矩阵包含文本词嵌入向量；将利用图像编码器提取的训练样本图片的图像特征矩阵和第一输入张量进行相互作用，得到图像transformer子模型输出的图文匹配特征矩阵；基于所述图文匹配特征矩阵，遍历判断训练样本图片的图像特征与文本词嵌入向量是否匹配，通过二元交叉熵计算不匹配的图像特征与文本词嵌入向量的交叉熵损失，通过梯度反向传播进行梯度更新训练，直至迭代完成，获得最终的图文匹配特征矩阵。

5、进一步地，采用单模态自注意力掩码策略，对图像transformer子模型输入的queries词嵌入矩阵进行编码，获得编码后的queries词嵌入矩阵，以及，利用单模态自注意力掩码策略，对文本transformer子模型输入的文本词嵌入矩阵进行编码，文本词嵌入矩阵包含文本词嵌入向量，选取标记有特殊字符的文本词嵌入向量作为特征向量，其中，预先基于训练样本图片对部分文本词嵌入向量采用特殊字符作为标签进行标记；计算特征向量与编码后的queries词嵌入矩阵中的每一个queries词嵌入向量，之间的相似度；选取相似度最大值作为所述正面标签词组模型输出的最终相似度；计算每一组训练样本图片的图形特征与最终相似度的交叉熵损失，通过梯度反向传播进行梯度更新训练，直至迭代完成，获得最终相似度。

6、进一步地，采用因果自注意力掩码策略，将图像transformer子模型输入的queries词嵌入矩阵和文本transformer子模型输入的文本词嵌入矩阵进行相互作用，合并为文本transformer子模型的第二输入张量，文本词嵌入矩阵包含文本词嵌入向量，其中，预先在文本词嵌入向量的开头使用特殊符号作为标签进行标记，以此表征该文本词嵌入向量中的文本内容为待大语言模型解码生成的文本内容；将所述第二输入张量进行编码，得到已编码的标签文本特征矩阵，根据所述标签文本特征矩阵，通过文本transformer子模型的线性层和softmax层，产生下一标记为标签文本词嵌入向量的概率分布；计算每累加一个标记为标签文本词嵌入向量的概率与所述下一标记为标签文本词嵌入向量的概率，之间的交叉熵损失，通过梯度反向传播进行梯度更新训练，直至迭代完成，获得最终的产生下一标记为标签文本词嵌入向量的概率分布。

7、进一步地，还包括：基于所述目标正面标签词组从多角度生成相应的提示词，将所述提示词汇总成提示语，并将所述提示语向量化，获得提示语向量；向本地知识向量库服务器发送索引指令，所述索引指令携带所述提示语向量，所述索引指令用于指示所述本地知识向量库服务器基于所述提示语向量在预先构建的本地知识向量库中进行语义相似度索引，获得与所述提示语相匹配的若干目标文案库，所述本地知识向量库包含多个领域的文案库；接收所述本地知识向量库服务器反馈的索引指令响应，所述索引指令响应携带所述若干目标文案库；基于所述目标文案库和所述目标正面标签词组，通过提示工程和大语言模型的多次交互，生成所述目标图片的多个匹配文本。

8、进一步地，所述本地知识向量库包含网络热词文案库；系统实时获取网络热点；向所述本地知识向量库服务器发送文案库更新指令，所述文案库更新指令携带所述网络热点，所述文案库更新指令用于指示所述本地知识向量库服务器，基于所述网络热点更新所述网络热词文案库。

9、进一步地，基于语法因素、主题相关性因素和情感倾向因素，对所述多个匹配文本按照相关性从高至低的顺序进行排序，选取排序前n个匹配文本作为最终智能化图片配文结果，n为正整数。

10、进一步地，还包括：对所述目标本文档来自技高网...

【技术保护点】

1.一种智能化图片配文方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，采用双向自注意力掩码策略训练所述正面标签词组模型的图文匹配任务，包括：

3.根据权利要求1所述的方法，其特征在于，采用单模态自注意力掩码策略训练所述正面标签词组模型的图文对比任务，包括：

4.根据权利要求1所述方法，其特征在于，采用因果自注意力掩码策略训练所述正面标签词组模型的图文生成任务，包括：

5.根据权利要求1所述方法，其特征在于，基于所述目标正面标签词组生成所述目标图片的多个匹配文本，包括：

6.根据权利要求5所述方法，其特征在于，所述本地知识向量库包含网络热词文案库，所述方法还包括：

7.根据权利要求6所述方法，其特征在于，根据所述多个匹配文本确定最终智能化图片配文结果，包括：

8.根据权利要求1-7任一项所述方法，其特征在于，还包括：

9.根据权利要求8所述方法，其特征在于，还包括：

10.一种智能化图片配文系统，其特征在于，包括：

【技术特征摘要】

1.一种智能化图片配文方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，采用双向自注意力掩码策略训练所述正面标签词组模型的图文匹配任务，包括：

3.根据权利要求1所述的方法，其特征在于，采用单模态自注意力掩码策略训练所述正面标签词组模型的图文对比任务，包括：

4.根据权利要求1所述方法，其特征在于，采用因果自注意力掩码策略训练所述正面标签词组模型的图文生成任务，包括：

5.根据权利要求1所述方法，其特征在于，...

【专利技术属性】
技术研发人员：杨良志，白琳，汪志新，李海涛，张润璞，李自然，周学友，
申请(专利权)人：彩讯科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人