文本生成、模型训练方法和装置制造方法及图纸

技术编号:34618480 阅读:14 留言:0更新日期:2022-08-20 09:25
本公开提出了一种文本生成、模型训练方法和装置,涉及计算机视觉技术领域。其中,文本生成方法包括:提取待处理图像的视觉特征;获取待处理图像的相关文本;对待处理图像的相关文本进行编码,以得到待处理图像的相关语义特征;根据待处理图像的视觉特征,和待处理图像的相关语义特征,生成待处理图像的描述文本。通过以上步骤,能够提高生成的图像描述文本的准确性。准确性。准确性。

【技术实现步骤摘要】
文本生成、模型训练方法和装置


[0001]本公开涉及计算机视觉
,尤其涉及一种文本生成、模型训练方法和装置。

技术介绍

[0002]图像描述技术是计算机视觉与语言领域的基础课题之一。图像描述,是指自动为图像生成描述语句,该描述语句能囊括图像的语义内容,并且以恰当的顺序把这些语义内容描述出来。
[0003]图像描述主要采用基于编码

解码的方法。相关技术中,往往采用预训练的物体检测器或分类器作为编码器提取图像特征,采用循环神经网络(Recurrent Neural Network,RNN)或基于注意力机制的神经网络模型比如Transformer作为解码器,对提取的图像特征进行解码并生成图像描述语句。

技术实现思路

[0004]本公开要解决的一个技术问题是,提供一种解决方案,能够提高生成的图像描述文本的准确性。
[0005]根据本公开的第一方面,提出一种文本生成方法,包括:提取待处理图像的视觉特征;获取待处理图像的相关文本;对待处理图像的相关文本进行编码,以得到待处理图像的相关语义特征;根据待处理图像的视觉特征,和待处理图像的相关语义特征,生成待处理图像的描述文本。
[0006]在一些实施例中,所述获取所述待处理图像的相关文本包括:确定待处理图像与训练文本集中已有文本的相似度;根据所述相似度,从已有文本中选取待处理图像的相关文本。
[0007]在一些实施例中,确定所述待处理图像与已有文本的相似度包括:提取待处理图像的全局特征和已有文本的全局特征;计算待处理图像的全局特征和已有文本的全局特征的余弦相似度,并将余弦相似度作为待处理图像与已有文本的相似度。
[0008]在一些实施例中,对待处理图像的相关文本进行编码,以得到待处理图像的相关语义特征包括:根据待处理图像的相关文本,确定待处理图像的相关词序列;基于语义理解器对相关词序列进行编码,以得到待处理图像的相关语义特征,其中,语义理解器为训练后的基于注意力机制的神经网络模型。
[0009]在一些实施例中,基于语义理解器对待处理图像的相关词序列进行编码,以得到待处理图像的相关语义特征包括:将待处理图像的相关词序列与附加的记忆参数进行拼接,以得到输入词序列;基于自注意力机制对输入词序列进行上下文编码,以得到融合了上下文信息的语义特征;在待处理图像的视觉特征的辅助下,基于交叉注意力机制对融合了上下文信息的语义特征进行语义增强,以得到所述待处理图像的相关语义特征。
[0010]在一些实施例中,还包括:获取样本图像的相关词序列;根据样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练,以得到语义理解
器,其中,损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。
[0011]在一些实施例中,根据样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练包括:将样本图像的相关词序列与初始化的记忆参数进行拼接,得到输入词序列;将输入词序列输入基于注意力机制的神经网络模型,以得到输出语义特征,其中,输出语义特征包括多个语义词特征;对输出语义特征进行线性层投影,以确定输出语义特征中每个语义词特征在语义词汇表上的概率分布;根据输出语义特征中每个语义词特征在语义词汇表上的概率分布,计算损失函数的值;根据损失函数的值,对基于注意力机制的神经网络模型进行优化,以得到语义理解器。
[0012]在一些实施例中,对待处理图像的相关文本进行编码,以得到待处理图像的相关语义特征还包括:确定语义理解器输出的语义特征中每个语义词特征参与的位置编码;将语义词特征和其参与的位置编码进行融合,以得到融合后的语义词特征,并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。
[0013]在一些实施例中,确定语义理解器输出的语义特征中每个语义词特征参与的位置编码包括:对于每个语义词特征,确定语义词特征在位置编码序列中所有位置编码的注意力分布;根据注意力分布,对所述位置编码序列中所有位置编码进行聚合,以得到语义词特征参与的位置编码。
[0014]在一些实施例中,根据待处理图像的视觉特征,和待处理图像的相关语义特征,生成待处理图像的描述文本包括:基于文本解码器对待处理图像的视觉特征,和待处理图像的相关语义特征进行处理,以得到待处理图像的描述文本,其中,文本解码器为训练后的采用注意力机制的神经网络模型。
[0015]在一些实施例中,基于文本解码器对待处理图像的视觉特征,和待处理图像的相关语义特征进行处理,以得到待处理图像的描述文本包括:基于自注意力机制对当前解码时刻输入的文本特征与已预测出的待处理图像的描述词进行特征融合,以得到第一语义特征;在待处理图像的视觉特征和待处理图像的相关语义特征的辅助下,基于交叉注意力机制对当前解码时刻输入的文本特征进行语义增强,以得到第二语义特征;对所述第一语义特征和所述第二语义特征进行融合,以得到融合后的语义特征;根据融合后的语义特征,确定当前解码时刻输入的文本特征中的各个语义词特征的概率分布;根据概率分布,确定待处理图像的下一个描述词;在得到待处理图像的所有描述词后,将所有描述词构成的有序序列作为待处理图像的描述文本。
[0016]在一些实施例中,提取待处理图像的视觉特征包括:提取待处理图像的局部特征和全局特征;根据待处理图像的局部特征和全局特征,确定待处理图像的视觉特征。
[0017]在一些实施例中,利用文本图像对比预训练模型提取待处理图像的局部特征和全局特征。
[0018]在一些实施例中,根据待处理图像的局部特征和全局特征,确定待处理图像的视觉特征包括:将待处理图像的局部特征和全局特征映射到一个新的特征空间,并对映射后的局部特征和全局特征进行拼接;基于视觉编码器对拼接后的图像特征进行编码,以得到待处理图像的视觉特征,其中,视觉编码器为训练后的堆叠了多层采用自注意力机制的编码块的神经网络模型。
[0019]在一些实施例中,基于视觉编码器对拼接后的图像特征进行编码,以得到待处理图像的视觉特征包括:基于多层自注意力机制的编码块对拼接后的图像特征进行编码,以得到多层编码后的局部特征和多层编码后的全局特征;将每一层自注意力机制的编码块输出的全局特征进行拼接、融合,以得到整体的全局特征;将整体的全局特征与多层编码后的局部特征进行拼接,以得到待处理图像的视觉特征。
[0020]根据本公开的第二方面,提出一种模型训练方法,包括:提取样本图像的视觉特征;获取样本图像的相关文本;对样本图像的相关文本进行编码,以得到样本图像的相关语义特征;根据样本图像的视觉特征,和样本图像的相关语义特征,对基于注意力机制的神经网络模型进行有监督训练,以得到文本解码器,其中,文本解码器用于生成图像描述文本。
[0021]根据本公开的第三方面,提出一种文本生成装置,包括:特征提取模块,被配置为提取待处理图像的视觉特征;文本获取模块,被配置为获取待处理图像的相关文本;文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本生成方法,包括:提取待处理图像的视觉特征;获取所述待处理图像的相关文本;对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征;根据所述待处理图像的视觉特征,和所述待处理图像的相关语义特征,生成所述待处理图像的描述文本。2.根据权利要求1所述的文本生成方法,其中,所述获取所述待处理图像的相关文本包括:确定所述待处理图像与训练文本集中已有文本的相似度;根据所述相似度,从所述已有文本中选取所述待处理图像的相关文本。3.根据权利要求2所述的文本生成方法,其中,所述确定所述待处理图像与已有文本的相似度包括:提取所述待处理图像的全局特征和所述已有文本的全局特征;计算所述待处理图像的全局特征和所述已有文本的全局特征的余弦相似度,并将所述余弦相似度作为所述待处理图像与已有文本的相似度。4.根据权利要求1所述的文本生成方法,其中,所述对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征包括:根据所述待处理图像的相关文本,确定所述待处理图像的相关词序列;基于语义理解器对所述相关词序列进行编码,以得到所述待处理图像的相关语义特征,其中,所述语义理解器为训练后的基于注意力机制的神经网络模型。5.根据权利要求4所述的文本生成方法,其中,所述基于语义理解器对所述待处理图像的相关词序列进行编码,以得到所述待处理图像的相关语义特征包括:将所述待处理图像的相关词序列与附加的记忆参数进行拼接,以得到输入词序列;基于自注意力机制对所述输入词序列进行上下文编码,以得到融合了上下文信息的语义特征;在所述待处理图像的视觉特征的辅助下,基于交叉注意力机制对所述融合了上下文信息的语义特征进行语义增强,以得到所述待处理图像的相关语义特征。6.根据权利要求4所述的文本生成方法,还包括:获取样本图像的相关词序列;根据所述样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练,以得到所述语义理解器,其中,所述损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。7.根据权利要求6所述的文本生成方法,其中,根据所述样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练包括:将所述样本图像的相关词序列与初始化的记忆参数进行拼接,得到输入词序列;将所述输入词序列输入基于注意力机制的神经网络模型,以得到输出语义特征,其中,所述输出语义特征包括多个语义词特征;对所述输出语义特征进行线性层投影,以确定所述输出语义特征中每个语义词特征在语义词汇表上的概率分布;
根据所述输出语义特征中每个语义词特征在语义词汇表上的概率分布,计算损失函数的值;根据所述损失函数的值,对基于注意力机制的神经网络模型进行优化,以得到所述语义理解器。8.根据权利要求4所述的文本生成方法,其中,所述对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征还包括:确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码;将所述语义词特征和其参与的位置编码进行融合,以得到融合后的语义词特征,并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。9.根据权利要求8所述的文本生成方法,其中,确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码包括:对于每个语义词特征,确定所述语义词特征在位置编码序列中所有位置编码的注意力分布;根据所述注意力分布,对所述位置编码序列中所有位置编码进行聚合,以得到所述语义词特征参与的位置编码。10.根据权利要求1所述的文本生成方法,其中,根据所述待处理图像的视觉特征,和所述待处理图像的相关语义特征,生成所述待处理图像的描述文本包括:基于文本解码器对所述待处理图像的视觉特征,和所述待处理图像的相关语义特征进行处理,以得到所述待处理图像的描述文本,其中,所述文本解码器为训练后的采用注意力机制的神经网络模型。11.根据权利要求10所述的文本...

【专利技术属性】
技术研发人员:李业豪潘滢炜姚霆梅涛
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1