【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质
[0001]本申请属于图像处理
,具体涉及一种文本生成方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]图像描述,其目的是从图像中自动生成一段描述性文字,即看图说话
。
现有的预训练模型可以对整张图像提取特征用于生成描述文本,或者,获取图像中包含各个实体的图像块,然后提取图像块特征用于生成描述文本
。
[0003]然而,上述对整张图像提取特征用于生成描述文本时,图像中实体的描述较为笼统,例如:在图像
A
内容为,一个小女孩手里拿着一个苹果时,对整张图像
A
提取特征,生成的图像
A
的描述文本可能为:有一个小女孩;上述获取图像中包含各个实体的图像块,然后提取图像块特征用于生成描述文本时,图像中的实体间关联性较低,例如:生成的图像
A
的描述文本可能为:有一个小女孩和一个苹果
。
如此,电子设备生成图像描述的文本的准确性较低
。
技术实现思路
[0004]本申请实施例的目的是提供一种文本生成方法
、
装置
、
电子设备及存储介质,能够提高电子设备生成图像描述的文本的准确性
。
[0005]第一方面,本申请实施例提供了一种文本生成方法,该方法包括:提取第一图像的第一特征信息
、
第二特征信息以及第三特征信息,第一图像包括至少 ...
【技术保护点】
【技术特征摘要】
1.
一种文本生成方法,其特征在于,所述方法包括:提取第一图像的第一特征信息
、
第二特征信息以及第三特征信息,所述第一图像包括至少一个实体对象,所述第一特征信息包括所述第一图像的全局图像特征信息,所述第二特征信息包括每个所述实体对象的实体特征信息,所述第三特征信息包括每个所述实体对象对应的对象类型特征信息;将所述第一特征信息
、
所述第二特征信息以及所述第三特征信息融合,得到目标特征信息,所述目标特征信息包括每个所述实体对象的融合特征向量;基于所述目标特征信息,生成第一文本,所述第一文本用于描述所述第一图像
。2.
根据权利要求1所述的方法,其特征在于,所述提取第一图像的第二特征信息,包括:获取
N
个第二图像,所述
N
个第二图像为
N
个不同尺寸规格的所述第一图像;获取每个所述第二图像中第一实体对象所在图像块对应的图像块特征信息;将所述每个所述第二图像中第一实体对象所在图像块的图像块特征信息拼接,得到所述第一实体对象的实体特征信息;其中,所述第一实体对象为所述至少一个实体对象中的其中一个
。3.
根据权利要求1所述的方法,其特征在于,所述将所述第一特征信息
、
所述第二特征信息以及所述第三特征信息融合,得到目标特征信息,包括:将第二实体对象的实体特征信息与所述第二实体对象对应的对象类型特征信息融合,得到所述第二实体对象的实体特征向量;将所述第二实体对象的实体特征向量和所述第一特征信息进行融合,得到所述第二实体对象的融合特征向量,所述目标特征信息包括所述第二实体对象的融合特征向量;其中,所述第二实体对象为所述至少一个实体对象中的其中一个
。4.
根据权利要求3所述的方法,其特征在于,所述将第二实体对象的实体特征信息与所述第二实体对象对应的对象类型特征信息融合,得到所述第二实体对象的实体特征向量,包括:采用第一权重对所述第二实体对象的实体特征信息加权,得到第一实体特征信息,并采用第二权重对所述第二实体对象对应的对象类型特征信息加权,得到第一对象类型特征信息;其中,所述第一权重表征所述第二实体对象的实体特征信息与所述实体特征向量的关联程度,所述第二权重表征所述第二实体对象对应的对象类型特征信息与所述实体特征向量的关联程度;将所述第一实体特征信息与所述第一对象类型特征信息融合,得到所述第二实体对象的实体特征向量
。5.
根据权利要求4所述的方法,其特征在于,所述采用第一权重对所述第二实体对象的实体特征信息加权,得到第一实体特征信息,并采用第二权重对所述第二实体对象对应的对象类型特征信息加权,得到第一对象类型特征信息之前,所述方法还包括:在检测到所述第二实体对象对应的对象类型特征信息和所述第二实体对象的实体特征信息不匹配的情况下,降低所述第二权重
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述目标特征信息,生成第一文本,包括:将所述目标特征信息和标签文本,输入文本生成模型,输出所述第一文本;所述标签文
本为用户输入的描述所述第一图像的图像内容的文本
。7.
一种文本生成装置,其特征在于,所述装置包括:提取模块
、
融合模块和生成模块;所述提取模块,用于提取第一图像的第一特征信息
、
第二特征信息以及第三特征...
【专利技术属性】
技术研发人员:华婉钰,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。