当前位置: 首页 > 专利查询>浙江大学专利>正文

一种文本生成的方法技术

技术编号:39494793 阅读:8 留言:0更新日期:2023-11-24 11:21
本说明书公开了一种文本生成的方法

【技术实现步骤摘要】
一种文本生成的方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种文本生成的方法

装置

存储介质及电子设备


技术介绍

[0002]随着互联网技术的快速发展,图像文本生成广泛应用于多种业务领域

现有技术常通过训练好的文本生成模型来生成文本内容,大致过程为:将图像输入文本生成模型后,基于图像数据,文本生成模型会输出用于描述输入图像的内容的描述文本

[0003]在对文本生成模型进行训练时,一般是将图像和标注好的用于描述图像内容的描述文本输入到模型中,让模型可以学习到图像和描述文本之间的关系,从而使模型输出的文本能准确地描述图像内容,也就是图像中包含的对象

[0004]在对模型进行训练时,是很难将图像中包含的所有对象的图像都作为模型的训练数据集的,因此,通过上述方式训练出的文本生成模型,针对训练过程中所使用的样本图像中包含的对象,可以生成不错的描述文本,但对于样本图像中未包含的新对象,文本生成模型可能不会给出很好的响应,即,模型输出的描述文本可能不能准确地描述图像内容

[0005]因此,如何准确地生成描述图像内容的文本,则是个亟待解决的问题


技术实现思路

[0006]本说明书提供一种文本生成的方法

装置

存储介质及电子设备,以部分的解决现有技术存在的上述问题

[0007]本说明书采用下述技术方案:
[0008]本说明书提供了一种文本生成的方法,包括:
[0009]获取待识别图像;
[0010]从所述待识别图像中确定出各对象所在的图像区域,作为从所述待识别图像中提取出的各目标图像;其中,识别模型在预训练过程中所使用的样本图像包括所述各对象中部分对象的图像;
[0011]将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并根据所述各目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定所述每个目标图像中包含的对象所属的类别;
[0012]将所述各目标图像的图像特征以及所述类别输入到预设的文本生成模型中,以使所述文本生成模型根据所述各目标图像的图像特征和所述类别输出用于描述所述待识别图像的内容的描述文本

[0013]可选地,训练所述识别模型,具体包括:
[0014]获取第一样本图像;
[0015]从所述第一样本图像中确定出各样本对象所在的图像区域,作为从所述第一样本
图像中提取出的各第一目标图像;
[0016]获取用于描述所述各样本对象所属的类别的第二文本;
[0017]将所述各第一目标图像和所述第二文本输入到识别模型中,以通过所述识别模型得到所述各第一目标图像的图像特征以及所述第二文本的文本特征;
[0018]针对每个第一目标图像,根据该第一目标图像的图像特征与用于描述该第一目标图像中样本对象的第二文本的文本特征之间的偏差,对所述识别模型进行训练

[0019]可选地,训练所述文本生成模型,具体包括:
[0020]获取第二样本图像和标签文本;其中,标签文本用于描述所述第二样本图像的内容;
[0021]从所述第二样本图像中确定出各目标对象所在的图像区域,作为从所述第二样本图像中提取出的各第二目标图像;
[0022]将所述各第二目标图像以及所述第一文本输入到所述识别模型中,以使所述识别模型从所述各第二目标图像中提取出图像特征,以及从所述第一文本提取出文本特征,并根据所述各第二目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定每个第二目标图像中包含的目标对象所属的类别;
[0023]将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中,以使所述文本生成模型输出用于描述所述第二样本图像内容的文本,作为生成文本;
[0024]根据所述生成文本和所述标签文本之间的偏差,对所述文本生成模型进行训练

[0025]可选地,在将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中之前,所述方法还包括:
[0026]对所述标签文本中的部分文本进行掩码,得到掩码文本;
[0027]将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中,具体包括:
[0028]将所述各第二目标图像的图像特征

确定出的每个第二目标图像中包含的目标对象所属的类别以及所述掩码文本输入到文本生成模型中,以使所述文本生成模型根据所述各第二目标图像的图像特征

确定出的每个第二目标图像中包含的目标对象所属的类别以及所述掩码文本中未被掩码的文本部分,预测出所述掩码文本中被掩码的文字内容,以得到生成文本

[0029]可选地,将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并根据所述各目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定所述每个目标图像中包含的对象所属的类别,具体包括:
[0030]将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并以对齐所述各目标图像的图像特征和所述第一文本的文本特征的特征维度为目标,对所述各目标图像的图像特征和所述第一文本的文本特征的特征维度进行调整,得到所述各目标图像的调整后图像特征以及所述第一文本的调整后文本特征,以及根据所述各目标图像的调整后图像特征和所述第一文本的调整后文本特征之间的相似度,
确定所述每个目标图像中包含的对象所属的类别

[0031]可选地,将所述各目标图像的图像特征以及所述类别输入到预设的文本生成模型中,以使所述文本生成模型根据所述各目标图像的图像特征和所述类别输出用于描述所述待识别图像的内容的描述文本,具体包括:
[0032]将所述各目标图像的图像特征

所述类别以及全掩码文本所组成的数据序列输入到预设的文本生成模型的编码器中,以确定所述数据序列对应的特征,其中,所述全掩码文本中每个位置上均为掩码;
[0033]将所述数据序列对应的特征输入到所述文本生成模型中预设的解码器中,以输出用于描述所述待识别图像的内容的描述文本

[0034]本说明书提供了一种文本生成的装置,包括:
[0035]获取模块,用于获取待识别图像;
[0036]确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本生成的方法,其特征在于,包括:获取待识别图像;从所述待识别图像中确定出各对象所在的图像区域,作为从所述待识别图像中提取出的各目标图像;其中,识别模型在预训练过程中所使用的样本图像包括所述各对象中部分对象的图像;将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并根据所述各目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定所述每个目标图像中包含的对象所属的类别;将所述各目标图像的图像特征以及所述类别输入到预设的文本生成模型中,以使所述文本生成模型根据所述各目标图像的图像特征和所述类别输出用于描述所述待识别图像的内容的描述文本
。2.
如权利要求1所述的方法,其特征在于,训练所述识别模型,具体包括:获取第一样本图像;从所述第一样本图像中确定出各样本对象所在的图像区域,作为从所述第一样本图像中提取出的各第一目标图像;获取用于描述所述各样本对象所属的类别的第二文本;将所述各第一目标图像和所述第二文本输入到识别模型中,以通过所述识别模型得到所述各第一目标图像的图像特征以及所述第二文本的文本特征;针对每个第一目标图像,根据该第一目标图像的图像特征与用于描述该第一目标图像中样本对象的第二文本的文本特征之间的偏差,对所述识别模型进行训练
。3.
如权利要求1所述的方法,其特征在于,训练所述文本生成模型,具体包括:获取第二样本图像和标签文本;其中,标签文本用于描述所述第二样本图像的内容;从所述第二样本图像中确定出各目标对象所在的图像区域,作为从所述第二样本图像中提取出的各第二目标图像;将所述各第二目标图像以及所述第一文本输入到所述识别模型中,以使所述识别模型从所述各第二目标图像中提取出图像特征,以及从所述第一文本提取出文本特征,并根据所述各第二目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定每个第二目标图像中包含的目标对象所属的类别;将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中,以使所述文本生成模型输出用于描述所述第二样本图像内容的文本,作为生成文本;根据所述生成文本和所述标签文本之间的偏差,对所述文本生成模型进行训练
。4.
如权利要求3所述的方法,其特征在于,在将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中之前,所述方法还包括:对所述标签文本中的部分文本进行掩码,得到掩码文本;将所述各第二目标图像的图像特征以及确定出的每个第二目标图像中包含的目标对象所属的类别输入到文本生成模型中,具体包括:
将所述各第二目标图像的图像特征

确定出的每个第二目标图像中包含的目标对象所属的类别以及所述掩码文本输入到文本生成模型中,以使所述文本生成模型根据所述各第二目标图像的图像特征

确定出的每个第二目标图像中包含的目标对象所属的类别以及所述掩码文本中未被掩码的文本部分,预测出所述掩码文本中被掩码的文字内容,以得到生成文本
。5.
如权利要求1所述的方法,其特征在于,将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并根据所述各目标图像的图像特征和所述第一文本的文本特征之间的相似度,确定所述每个目标图像中包含的对象所属的类别,具体包括:将所述各目标图像以及预设的用于描述所有类别对象的第一文本输入到预设的识别模型中,以使所述识别模型从所述各目标图像提取出图像特征,以及从所述第一文本中提取出文本特征,并以对齐所述各目标图像的图像特征和所述第一文本的文本特征的特征维度为目标,对所述各目标图像的图像特征和所述第一文本的文本特征的特征维度进行调整,得到所述各目标图像的调整后图像特征以及所述第一文本的调整后文本特征,以及根据所述各目标图像的调整后图像特征和所述第一文本的调整后文本特征之间的相似度,确定所述每个目标图像中包含的对象所属的类别
。6.
如权利要求1所述的方法,其特征在于,将所述各目标图像的图像特征以及所述类别输入到预设的文本生成模型中,以使所述文本生成模型根据所述各目标图像的图像特征和所述类别输出用于描述所述待识别图像的内容的描述文本,具体包括:将所述各目标图像的图像特征

所述类别以及全掩码文本所组成的数据序列输入到预设的文本生成模型的编码器中,以确定所述数据序列对应的特征,其中,所述全掩码文本中每个位置上均为掩码;将所述数据序列对应的特征输入到所述文本生成模型中预设的解码器中,以输出用于描述所述待识别图像的内容的描述文本

【专利技术属性】
技术研发人员:杨易刘璟颢朱霖潮张吉王振
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1