【技术实现步骤摘要】
基于常识引导的文本到图像生成方法及装置
[0001]本专利技术涉及图像生成领域,尤其涉及一种基于常识引导的文本到图像生成方法及装置。
技术介绍
[0002]近年来,随着人工智能的发展,由给定文本生成一幅相关的图像受到越来越多的关注
[1,2]。文生图研究有着重要意义并有着很大的潜在应用价值,例如:计算机辅助设计、图像编辑等。文生图任务不仅要求生成图像的视觉效果逼真,还需要和给定文本描述保持语义一致性。但由于文本和图像两种模态之间的巨大鸿沟,文生图任务成为一个极具挑战性的工作,很难使生成的图像在整体和局部语义上都与给定的文本保持一致。
[0003]目前大多数基于生成对抗网络的文生图方法
[3]以输入的单一文本语句为条件,对图像生成的过程进行约束和调整。但自然语言抽象性、信息有限性的特点,使图像生成过程变得困难。一方面,单一文本所涵盖的信息比较有限,以至于很难全面描述一幅视觉上逼真的图像。另一方面,自然语言具有抽象性的特点,对于包含多物体和复杂场景关系的描述语句,生成器难以把握多个物体的场景关系。比如很多 ...
【技术保护点】
【技术特征摘要】
1.一种基于常识引导的文本到图像生成方法,其特征在于,所述方法包括:构建先验知识库并从中选择和输入语句相关的文本描述以丰富单一的文本输入;提取输入语句中的名词,以每个名词为条件,检索ConceptNet外部常识库中的相关常识三元组并对常识三元组进行过滤;对输入的描述语句进行场景图解析得到若干个由<主语
‑
谓词
‑
宾语>构成的场景三元组并将其作为结构化知识;将原始语句和知识描述输入到生成对抗网络的生成器中生成图像;判别器以合成图像和对应的文本向量作为输入计算对抗损失,并更新生成器网络的参数;生成器和判别器进行交替优化,生成器最终生成质量最好的图像,该图像用于新闻内容智能图像生成。2.根据权利要求1所述的一种基于常识引导的文本到图像生成方法,其特征在于,所述选择和输入语句相关的文本描述以丰富单一的文本输入为:给定输入文本从先验知识库中选择6个和不同的人工标注语句作为文本补充,其中:其中,i为第i个图像的标号,n
q
为第i个图像对应的第n
q
个人工标注的标号,j为输入人工标注的标号。3.根据权利要求1所述的一种基于常识引导的文本到图像生成方法,其特征在于,所述以每个名词为条件,检索ConceptNet外部常识库中的相关常识三元组为:以名词为起始节点,检索ConceptNet常识库中的相关常识三元组,设置每个开始节点对应的常识个数为k,检索到的常识三元组由<开始节点,关系标签,结束节点>构成,每个常识三元组带有一个置信度权重,代表这个常识三元组的可信度,每个名词对应的常识三元组集合按照置信度降序排列。4.根据权利要求1所述的一种基于常识引导的文本到图像生成方法,其特征在于,所述对常识三元组进行过滤具体为:1)仅保留开始节点和结束节点都在数据集文本词典中的常识三元组;2)仅保留常识三元组特征向量与目标图像特征向量余弦相似度分数、常识三元组特征向量与输入语句特征向量的余弦相似度分数加权排名前k个常识三元组。5.根据权利要求4所述的一种基于常识引导的文本到图像生成方法,其特征在于,所述仅保留开始节点和结束节点都在数据集文本词典中的常识三元组为:K
t
=<ω
s
‑
R
‑
ω
e
>Ω={ω1,ω2.ω3,
…
,ω
n
}K1={K
t
|ω
s
∈Ω,ω
e
∈Ω}其中,K
t
代表一个常识三元组,ω
s
代表常识三元组的开始节点,R代表关系标签,ω
e
代表常识三元组的结束节点;Ω代表数据集的词典,n代表词典的大小,ω
i
表示词典中的第i个单词;K1代表第一次筛选后保留的常识三元组集合。6.根据权利要求4所述的一种基于常识引导的文本到图像生成方法,其特征在于,所述
仅保留常识三元组特征向量与目标图像特征向量余弦相似度分数、常识三元组特征向量与输入语句特征向量的余弦相似度分数加权排名前k个常识三元组为:输入语句特征向量的余弦相似度分数加权排名前k个常识三元组为:其中,u,v代表两个特征向量,K代表一级过滤后的常识三元组特征向量的集合...
【专利技术属性】
技术研发人员:刘安安,孙泽方,徐宁,颜成钢,郑博仑,吕博,段玉龙,张勇东,
申请(专利权)人:杭州电子科技大学中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。