基于图片作诗的方法、装置、设备及存储介质制造方法及图纸

技术编号：34986572 阅读：32 留言：0更新日期：2022-09-21 14:31

本申请公开了一种基于图片作诗的方法、装置、设备及存储介质，本申请预先配置了图片文本相似度模型，基于该模型计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度，基于相似度可以筛选出满足设定条件的目标关键词，基于该目标关键词和待生成诗的目标体裁，生成与目标图片匹配的诗。本申请配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征，进而计算图片和文本间的相似度。在此基础上，通过预先配置关键词列表，能够针对任一目标图片通过模型计算得到匹配的目标关键词，当有新的关键词出现时，可以直接添加到关键词列表中即可，无需对模型进行更新训练，减少了人力成本。减少了人力成本。减少了人力成本。

全部详细技术资料下载

【技术实现步骤摘要】
基于图片作诗的方法、装置、设备及存储介质

[0001]本申请涉及自然语言处理
，更具体的说，是涉及一种基于图片作诗的方法、装置、设备及存储介质。

技术介绍

[0002]诗歌作为人类语言形式的巅峰，它是高度文学化，艺术化，凝练化的表达形式，多年以来都是研究自然语言生成的热门切入点。生成的诗需要满足形式格律的要求，也要满足语义方面的要求，例如文从字顺，上下文连贯一致，内容紧密围绕用户输入展开。
[0003]诗歌的生成可以辅助文学工作者进行诗歌文案的生成，激发其创作思路，也可以提供给科技馆、学校，从而激发大众、少儿对诗歌的兴趣。除此之外，还可以通过智能作诗研究如何激活人工智能的文字创作能力。
[0004]当前基于图片作诗的方案，需要额外接入一个物体识别网络以从图片中识别出包含的物体，进而以识别出的物体描述信息作为关键词，进行自动作诗。这就需要训练物体识别网络，一般性的要求用户收集大量的包含山、水、花、鸟等图片，来对物体识别网络进行训练。但是，训练后的物体识别网络依赖于训练集，对于训练集以外的新物体的图片无法识别，需要重新收集相关图片对网络进行重新训练，因而会浪费人力。

技术实现思路

[0005]鉴于上述问题，提出了本申请以便提供一种基于图片作诗的方法、装置、设备及存储介质，以实现支持对任意图片进行作诗，且不需要重复训练网络模型的目的。具体方案如下：第一方面，提供了一种基于图片作诗的方法，包括：获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本，所述关键词对应的关键文本为包...

【技术保护点】

【技术特征摘要】
1.一种基于图片作诗的方法，其特征在于，包括：获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本，所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容；利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度；其中，所述图片文本相似度模型基于对比学习策略进行预训练，训练过程，由训练图片与其标注的文字描述内容互为正例样本对，由训练图片与其它训练图片标注的文字描述内容互为负例样本对，以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标；基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词；基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗。2.根据权利要求1所述的方法，其特征在于，基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗，包括：将所述目标关键词及待生成诗的目标体裁按照设定模板编辑成输入文本，并将编辑后的输入文本输入至预配置的诗句生成模型，得到诗句生成模型输出的与目标图片匹配的诗；所述诗句生成模型以训练诗句、所述训练诗句的体裁，及从所述训练诗句中抽取的关键词作为训练数据训练得到。3.根据权利要求2所述的方法，其特征在于，所述诗句生成模型采用生成式预训练模型结构；所述诗句生成模型在生成与目标图片匹配的诗时，基于所述目标关键词、所述目标体裁及已生成字符，逐个预测得到下一字符，直至得到最后一个字符后，按照预测顺序将各字符组合为一首诗；在预测得到每一字符时，基于模型计算的词典中各字符的概率，选取概率最大的字符作为预测得到的字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测得到的字符，Q为设定值。4.根据权利要求3所述的方法，其特征在于，在选取概率最大的字符作为预测字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测字符之前，还包括：按照当前所要预测的字符在整首诗中的出现位置，以及预设的韵律规律要求，分别判断词典中每一字符的发音是否符合韵律规律要求，并基于判断结果确定每一字符的惩罚系数；将计算得到的词典中每一字符的概率与对应的惩罚系数相乘，结果作为字符的最终概率。5.根据权利要求1所述的方法，其特征在于，所述图片文本相似度模型包括文本编码器和图片编码器，所述文本编码器用于对输入的文本内容进行编码得到文本表征特征，所述图片编码器用于对输入的图片进行编码得到图片表征特征；所述利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度，包括：
利用所述图片文本相似度模型中的图片编码器，对所述目标图片编码，得到目标图片的表征特征；利用所述图片文本相似度模型中的文本编码器，对所述每一关键词对应的关键文本编码，得到每一关键文本的表征特征；计算所述目标图片的表征特征与每一关键文本的表征特征的相似度。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，所述预配置的关键词列表为关键词树状结构表，所述关键词树状结构表包括多级节点，子节点中存储的关键词从属于父节点中存储的关键词，结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关键词...

【专利技术属性】
技术研发人员：刘一凡，李亚，刘权，
申请(专利权)人：科大讯飞股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人