文本生成方法技术

技术编号:39898869 阅读:8 留言:0更新日期:2023-12-30 13:12
本申请公开了一种文本生成方法

【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质


[0001]本申请属于图像处理
,具体涉及一种文本生成方法

装置

电子设备及存储介质


技术介绍

[0002]图像描述,其目的是从图像中自动生成一段描述性文字,即看图说话

现有的预训练模型可以对整张图像提取特征用于生成描述文本,或者,获取图像中包含各个实体的图像块,然后提取图像块特征用于生成描述文本

[0003]然而,上述对整张图像提取特征用于生成描述文本时,图像中实体的描述较为笼统,例如:在图像
A
内容为,一个小女孩手里拿着一个苹果时,对整张图像
A
提取特征,生成的图像
A
的描述文本可能为:有一个小女孩;上述获取图像中包含各个实体的图像块,然后提取图像块特征用于生成描述文本时,图像中的实体间关联性较低,例如:生成的图像
A
的描述文本可能为:有一个小女孩和一个苹果

如此,电子设备生成图像描述的文本的准确性较低


技术实现思路

[0004]本申请实施例的目的是提供一种文本生成方法

装置

电子设备及存储介质,能够提高电子设备生成图像描述的文本的准确性

[0005]第一方面,本申请实施例提供了一种文本生成方法,该方法包括:提取第一图像的第一特征信息

第二特征信息以及第三特征信息,第一图像包括至少一个实体对象,第一特征信息包括第一图像的全局图像特征信息,第二特征信息包括每个实体对象的实体特征信息,第三特征信息包括每个实体对象对应的对象类型特征信息;将第一特征信息述第二特征信息以及第三特征信息融合,得到目标特征信息,目标特征信息包括每个实体对象的融合特征向量;基于目标特征信息,生成第一文本,该第一文本用于描述第一图像

[0006]第二方面,本申请实施例提供了一种文本生成装置,该装置包括:提取模块

融合模块和生成模块

提取模块,用于提取第一图像的第一特征信息

第二特征信息以及第三特征信息,第一图像包括至少一个实体对象,第一特征信息包括第一图像的全局图像特征信息,第二特征信息包括每个实体对象的实体特征信息,第三特征信息包括每个实体对象对应的对象类型特征信息

融合模块,用于将提取模块提取到的第一特征信息

第二特征信息以及第三特征信息融合,得到目标特征信息,该目标特征信息包括每个实体对象的融合特征向量

生成模块,用于基于融合模块融合得到的目标特征信息,生成第一文本,该第一文本用于描述第一图像

[0007]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤

[0008]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程
序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤

[0009]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法

[0010]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法

[0011]在本申请实施例中,提取第一图像的第一特征信息

第二特征信息以及第三特征信息,第一图像包括至少一个实体对象,第一特征信息包括第一图像的全局图像特征信息,第二特征信息包括每个实体对象的实体特征信息,第三特征信息包括每个实体对象对应的对象类型特征信息;将第一特征信息

第二特征信息以及第三特征信息融合,得到目标特征信息,该目标特征信息包括每个实体对象的融合特征向量;基于目标特征信息,生成第一文本,该第一文本用于描述第一图像

本方案中,通过将提取到的第一图像的全局图像特征信息

第一图像中包括的每个实体对象的实体特征信息

以及第一图像中包括的每个实体对象对应的对象类型特征信息进行融合,使得最终融合出的目标特征信息中综合有第一图像中的实体对象的相关特征,例如,每个实体对象的实体特征

第一图像中的实体对象间的关联关系

以及每个实体对象的对象类型等,如此,基于该目标特征信息最终所生成的第一文本,便可对第一图像进行准确地描述,提高了电子设备生成图像描述的文本的准确性

附图说明
[0012]图1是本申请实施例提供的一种文本生成方法的流程示意图之一;
[0013]图2是本申请实施例提供的一种
MFE
模型的结构示意图;
[0014]图3是本申请实施例提供的一种文本生成方法的流程示意图之二;
[0015]图4是本申请实施例提供的一种第一控制门的结构示意图;
[0016]图5是本申请实施例提供的一种文本生成方法的流程示意图之三;
[0017]图6是本申请实施例提供的一种文本生成装置的结构示意图;
[0018]图7是本申请实施例提供的一种电子设备的硬件结构示意图之一;
[0019]图8是本申请实施例提供的一种电子设备的硬件结构示意图之二

具体实施方式
[0020]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围

[0021]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序

应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个

此外,说明书以及权利要求中“和
/
或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系

[0022]以下对本申请实施例提供的技术方案涉及的技术术语进行说明

[0023]1、
通用检测模型:
yolov3
检测模型在
coco
数据集上训练收敛的模型,可以识别常见的
80
类对象,获取到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本生成方法,其特征在于,所述方法包括:提取第一图像的第一特征信息

第二特征信息以及第三特征信息,所述第一图像包括至少一个实体对象,所述第一特征信息包括所述第一图像的全局图像特征信息,所述第二特征信息包括每个所述实体对象的实体特征信息,所述第三特征信息包括每个所述实体对象对应的对象类型特征信息;将所述第一特征信息

所述第二特征信息以及所述第三特征信息融合,得到目标特征信息,所述目标特征信息包括每个所述实体对象的融合特征向量;基于所述目标特征信息,生成第一文本,所述第一文本用于描述所述第一图像
。2.
根据权利要求1所述的方法,其特征在于,所述提取第一图像的第二特征信息,包括:获取
N
个第二图像,所述
N
个第二图像为
N
个不同尺寸规格的所述第一图像;获取每个所述第二图像中第一实体对象所在图像块对应的图像块特征信息;将所述每个所述第二图像中第一实体对象所在图像块的图像块特征信息拼接,得到所述第一实体对象的实体特征信息;其中,所述第一实体对象为所述至少一个实体对象中的其中一个
。3.
根据权利要求1所述的方法,其特征在于,所述将所述第一特征信息

所述第二特征信息以及所述第三特征信息融合,得到目标特征信息,包括:将第二实体对象的实体特征信息与所述第二实体对象对应的对象类型特征信息融合,得到所述第二实体对象的实体特征向量;将所述第二实体对象的实体特征向量和所述第一特征信息进行融合,得到所述第二实体对象的融合特征向量,所述目标特征信息包括所述第二实体对象的融合特征向量;其中,所述第二实体对象为所述至少一个实体对象中的其中一个
。4.
根据权利要求3所述的方法,其特征在于,所述将第二实体对象的实体特征信息与所述第二实体对象对应的对象类型特征信息融合,得到所述第二实体对象的实体特征向量,包括:采用第一权重对所述第二实体对象的实体特征信息加权,得到第一实体特征信息,并采用第二权重对所述第二实体对象对应的对象类型特征信息加权,得到第一对象类型特征信息;其中,所述第一权重表征所述第二实体对象的实体特征信息与所述实体特征向量的关联程度,所述第二权重表征所述第二实体对象对应的对象类型特征信息与所述实体特征向量的关联程度;将所述第一实体特征信息与所述第一对象类型特征信息融合,得到所述第二实体对象的实体特征向量
。5.
根据权利要求4所述的方法,其特征在于,所述采用第一权重对所述第二实体对象的实体特征信息加权,得到第一实体特征信息,并采用第二权重对所述第二实体对象对应的对象类型特征信息加权,得到第一对象类型特征信息之前,所述方法还包括:在检测到所述第二实体对象对应的对象类型特征信息和所述第二实体对象的实体特征信息不匹配的情况下,降低所述第二权重
。6.
根据权利要求1所述的方法,其特征在于,所述基于所述目标特征信息,生成第一文本,包括:将所述目标特征信息和标签文本,输入文本生成模型,输出所述第一文本;所述标签文
本为用户输入的描述所述第一图像的图像内容的文本
。7.
一种文本生成装置,其特征在于,所述装置包括:提取模块

融合模块和生成模块;所述提取模块,用于提取第一图像的第一特征信息

第二特征信息以及第三特征...

【专利技术属性】
技术研发人员:华婉钰
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1