基于图片作诗的方法、装置、设备及存储介质制造方法及图纸

技术编号:34986572 阅读:32 留言:0更新日期:2022-09-21 14:31
本申请公开了一种基于图片作诗的方法、装置、设备及存储介质,本申请预先配置了图片文本相似度模型,基于该模型计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度,基于相似度可以筛选出满足设定条件的目标关键词,基于该目标关键词和待生成诗的目标体裁,生成与目标图片匹配的诗。本申请配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征,进而计算图片和文本间的相似度。在此基础上,通过预先配置关键词列表,能够针对任一目标图片通过模型计算得到匹配的目标关键词,当有新的关键词出现时,可以直接添加到关键词列表中即可,无需对模型进行更新训练,减少了人力成本。减少了人力成本。减少了人力成本。

【技术实现步骤摘要】
基于图片作诗的方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种基于图片作诗的方法、装置、设备及存储介质。

技术介绍

[0002]诗歌作为人类语言形式的巅峰,它是高度文学化,艺术化,凝练化的表达形式,多年以来都是研究自然语言生成的热门切入点。生成的诗需要满足形式格律的要求,也要满足语义方面的要求,例如文从字顺,上下文连贯一致,内容紧密围绕用户输入展开。
[0003]诗歌的生成可以辅助文学工作者进行诗歌文案的生成,激发其创作思路,也可以提供给科技馆、学校,从而激发大众、少儿对诗歌的兴趣。除此之外,还可以通过智能作诗研究如何激活人工智能的文字创作能力。
[0004]当前基于图片作诗的方案,需要额外接入一个物体识别网络以从图片中识别出包含的物体,进而以识别出的物体描述信息作为关键词,进行自动作诗。这就需要训练物体识别网络,一般性的要求用户收集大量的包含山、水、花、鸟等图片,来对物体识别网络进行训练。但是,训练后的物体识别网络依赖于训练集,对于训练集以外的新物体的图片无法识别,需要重新收集相关图片对网络进行重新训练,因而会浪费人力。

技术实现思路

[0005]鉴于上述问题,提出了本申请以便提供一种基于图片作诗的方法、装置、设备及存储介质,以实现支持对任意图片进行作诗,且不需要重复训练网络模型的目的。具体方案如下:第一方面,提供了一种基于图片作诗的方法,包括:获取目标图片,以及与预配置的关键词列表中每一关键词对应的关键文本,所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容;利用预配置的图片文本相似度模型,计算所述目标图片与每一关键词对应的关键文本的相似度;其中,所述图片文本相似度模型基于对比学习策略进行预训练,训练过程,由训练图片与其标注的文字描述内容互为正例样本对,由训练图片与其它训练图片标注的文字描述内容互为负例样本对,以最大化正例样本对的表征特征间的相似度,最小化负例样本对的表征特征间的相似度为训练目标;基于所述目标图片与各关键词对应的关键文本的相似度,筛选相似度满足设定条件的目标关键词;基于所述目标关键词及待生成诗的目标体裁,生成与所述目标图片匹配的诗。
[0006]第二方面,提供了一种基于图片作诗的装置,包括:图片及关键文本获取单元,用于获取目标图片,以及与预配置的关键词列表中每一关键词对应的关键文本,所述关键词对应的关键文本为包含所述关键词且不包含其余关
键词的文本内容;相似度计算单元,用于利用预配置的图片文本相似度模型,计算所述目标图片与每一关键词对应的关键文本的相似度;其中,所述图片文本相似度模型基于对比学习策略进行预训练,训练过程,由训练图片与其标注的文字描述内容互为正例样本对,由训练图片与其它训练图片标注的文字描述内容互为负例样本对,以最大化正例样本对的表征特征间的相似度,最小化负例样本对的表征特征间的相似度为训练目标;目标关键词筛选单元,用于基于所述目标图片与各关键词对应的关键文本的相似度,筛选相似度满足设定条件的目标关键词;诗句生成单元,用于基于所述目标关键词及待生成诗的目标体裁,生成与所述目标图片匹配的诗。
[0007]第三方面,提供了一种基于图片作诗的设备,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上所述的基于图片作诗的方法的各个步骤。
[0008]第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的基于图片作诗的方法的各个步骤。
[0009]借由上述技术方案,本申请预先配置了图片文本相似度模型,该图片文本相似度模型采用对比学习策略预训练,训练过程由训练图片与其标注的文字描述内容互为正例样本对,由训练图片与其它训练图片标注的文字描述内容互为负例样本对,以最大化正例样本对的表征特征间的相似度,最小化负例样本对的表征特征间的相似度为训练目标,基于该训练后的图片文本相似度模型,可以计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度,进而基于相似度可以筛选出满足设定条件的目标关键词,基于该目标关键词和待生成诗的目标体裁,生成与目标图片匹配的诗。由此可见,本申请预先配置的是图片文本相似度模型,而非直接对图片进行物体识别的模型,配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征,进而计算图片和文本间的相似度。在此基础上,通过预先配置关键词列表,能够针对任一目标图片通过模型计算得到匹配的目标关键词,当有新的关键词出现时,可以直接添加到关键词列表中即可,无需对图片文本相似度模型进行更新训练,极大减少了人力成本。
[0010]并且,本申请通过对比学习策略预训练得到图片文本相似度模型,该模型能够学习到图片与其标注的文字描述内容间的关系,从而更好表征输入图片及文本的表征特征,进而可以更加准确的计算图片与文本的相似度,据此能够准确的得到与图片相匹配的目标关键词,以该目标关键词进行作诗,所得到的诗句内容能够更加贴合目标图片的内容,提升了诗句的切题性。
附图说明
[0011]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的基于图片作诗的方法的一流程示意图;图2示例了一种图片文本相似度模型训练过程示意图;图3示例了一种利用图片文本相似度模型计算目标图片与关键文本的相似度的过程示意图;图4示例了一种采用本申请方案基于图片生成诗句的示意图;图5为本申请实施例提供的一种基于图片作诗的装置结构示意图;图6为本申请实施例提供的基于图片作诗的设备的结构示意图。
具体实施方式
[0012]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]本申请提供了一种基于图片作诗的方案,可以基于用户提供的图片智能生成匹配的诗,保证诗句与图片内容的切合。
[0014]本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
[0015]接下来,结合图1所述,本申请的基于图片作诗的方法可以包括如下步骤:步骤S100、获取目标图片,以及与预配置的关键词列表中每一关键词对应的关键文本。
[0016]其中,所述目标图片可以是用户提供或指定的需要进行作诗的图片。用户可以直接提供目标图片本身,也可以提供目标图片的链接,进而本申请访问该链接以获取到对应的目标图片。
[0017]本申请预先可以配置关键词列表,其中包含若干个关键词。关键词可以是对大量图片进行识别,所得到的图片中包含的物体的描述内容,如花朵、小溪、山、天空、鸟等等。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图片作诗的方法,其特征在于,包括:获取目标图片,以及与预配置的关键词列表中每一关键词对应的关键文本,所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容;利用预配置的图片文本相似度模型,计算所述目标图片与每一关键词对应的关键文本的相似度;其中,所述图片文本相似度模型基于对比学习策略进行预训练,训练过程,由训练图片与其标注的文字描述内容互为正例样本对,由训练图片与其它训练图片标注的文字描述内容互为负例样本对,以最大化正例样本对的表征特征间的相似度,最小化负例样本对的表征特征间的相似度为训练目标;基于所述目标图片与各关键词对应的关键文本的相似度,筛选相似度满足设定条件的目标关键词;基于所述目标关键词及待生成诗的目标体裁,生成与所述目标图片匹配的诗。2.根据权利要求1所述的方法,其特征在于,基于所述目标关键词及待生成诗的目标体裁,生成与所述目标图片匹配的诗,包括:将所述目标关键词及待生成诗的目标体裁按照设定模板编辑成输入文本,并将编辑后的输入文本输入至预配置的诗句生成模型,得到诗句生成模型输出的与目标图片匹配的诗;所述诗句生成模型以训练诗句、所述训练诗句的体裁,及从所述训练诗句中抽取的关键词作为训练数据训练得到。3.根据权利要求2所述的方法,其特征在于,所述诗句生成模型采用生成式预训练模型结构;所述诗句生成模型在生成与目标图片匹配的诗时,基于所述目标关键词、所述目标体裁及已生成字符,逐个预测得到下一字符,直至得到最后一个字符后,按照预测顺序将各字符组合为一首诗;在预测得到每一字符时,基于模型计算的词典中各字符的概率,选取概率最大的字符作为预测得到的字符,或,在概率最大的topQ个字符中随机选取一个字符作为预测得到的字符,Q为设定值。4.根据权利要求3所述的方法,其特征在于,在选取概率最大的字符作为预测字符,或,在概率最大的topQ个字符中随机选取一个字符作为预测字符之前,还包括:按照当前所要预测的字符在整首诗中的出现位置,以及预设的韵律规律要求,分别判断词典中每一字符的发音是否符合韵律规律要求,并基于判断结果确定每一字符的惩罚系数;将计算得到的词典中每一字符的概率与对应的惩罚系数相乘,结果作为字符的最终概率。5.根据权利要求1所述的方法,其特征在于,所述图片文本相似度模型包括文本编码器和图片编码器,所述文本编码器用于对输入的文本内容进行编码得到文本表征特征,所述图片编码器用于对输入的图片进行编码得到图片表征特征;所述利用预配置的图片文本相似度模型,计算所述目标图片与每一关键词对应的关键文本的相似度,包括:
利用所述图片文本相似度模型中的图片编码器,对所述目标图片编码,得到目标图片的表征特征;利用所述图片文本相似度模型中的文本编码器,对所述每一关键词对应的关键文本编码,得到每一关键文本的表征特征;计算所述目标图片的表征特征与每一关键文本的表征特征的相似度。6.根据权利要求1

5任一项所述的方法,其特征在于,所述预配置的关键词列表为关键词树状结构表,所述关键词树状结构表包括多级节点,子节点中存储的关键词从属于父节点中存储的关键词,结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关键词...

【专利技术属性】
技术研发人员:刘一凡李亚刘权
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1