【技术实现步骤摘要】
文本生成、模型训练方法和装置
[0001]本公开涉及计算机视觉
,尤其涉及一种文本生成、模型训练方法和装置。
技术介绍
[0002]图像描述技术是计算机视觉与语言领域的基础课题之一。图像描述,是指自动为图像生成描述语句,该描述语句能囊括图像的语义内容,并且以恰当的顺序把这些语义内容描述出来。
[0003]图像描述主要采用基于编码
‑
解码的方法。相关技术中,往往采用预训练的物体检测器或分类器作为编码器提取图像特征,采用循环神经网络(Recurrent Neural Network,RNN)或基于注意力机制的神经网络模型比如Transformer作为解码器,对提取的图像特征进行解码并生成图像描述语句。
技术实现思路
[0004]本公开要解决的一个技术问题是,提供一种解决方案,能够提高生成的图像描述文本的准确性。
[0005]根据本公开的第一方面,提出一种文本生成方法,包括:提取待处理图像的视觉特征;获取待处理图像的相关文本;对待处理图像的相关文本进行编码,以得到待处理图像的相关语义特征;根据待处理图像的视觉特征,和待处理图像的相关语义特征,生成待处理图像的描述文本。
[0006]在一些实施例中,所述获取所述待处理图像的相关文本包括:确定待处理图像与训练文本集中已有文本的相似度;根据所述相似度,从已有文本中选取待处理图像的相关文本。
[0007]在一些实施例中,确定所述待处理图像与已有文本的相似度包括:提取待处理图像的全局特征和已有文本的全局特征;计算 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,包括:提取待处理图像的视觉特征;获取所述待处理图像的相关文本;对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征;根据所述待处理图像的视觉特征,和所述待处理图像的相关语义特征,生成所述待处理图像的描述文本。2.根据权利要求1所述的文本生成方法,其中,所述获取所述待处理图像的相关文本包括:确定所述待处理图像与训练文本集中已有文本的相似度;根据所述相似度,从所述已有文本中选取所述待处理图像的相关文本。3.根据权利要求2所述的文本生成方法,其中,所述确定所述待处理图像与已有文本的相似度包括:提取所述待处理图像的全局特征和所述已有文本的全局特征;计算所述待处理图像的全局特征和所述已有文本的全局特征的余弦相似度,并将所述余弦相似度作为所述待处理图像与已有文本的相似度。4.根据权利要求1所述的文本生成方法,其中,所述对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征包括:根据所述待处理图像的相关文本,确定所述待处理图像的相关词序列;基于语义理解器对所述相关词序列进行编码,以得到所述待处理图像的相关语义特征,其中,所述语义理解器为训练后的基于注意力机制的神经网络模型。5.根据权利要求4所述的文本生成方法,其中,所述基于语义理解器对所述待处理图像的相关词序列进行编码,以得到所述待处理图像的相关语义特征包括:将所述待处理图像的相关词序列与附加的记忆参数进行拼接,以得到输入词序列;基于自注意力机制对所述输入词序列进行上下文编码,以得到融合了上下文信息的语义特征;在所述待处理图像的视觉特征的辅助下,基于交叉注意力机制对所述融合了上下文信息的语义特征进行语义增强,以得到所述待处理图像的相关语义特征。6.根据权利要求4所述的文本生成方法,还包括:获取样本图像的相关词序列;根据所述样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练,以得到所述语义理解器,其中,所述损失函数是以过滤掉样本图像的相关词序列中与样本图像不相关的语义词以及重建缺失的相关语义词为目标构建的。7.根据权利要求6所述的文本生成方法,其中,根据所述样本图像的相关词序列,以及预设的损失函数,对基于注意力机制的神经网络模型进行训练包括:将所述样本图像的相关词序列与初始化的记忆参数进行拼接,得到输入词序列;将所述输入词序列输入基于注意力机制的神经网络模型,以得到输出语义特征,其中,所述输出语义特征包括多个语义词特征;对所述输出语义特征进行线性层投影,以确定所述输出语义特征中每个语义词特征在语义词汇表上的概率分布;
根据所述输出语义特征中每个语义词特征在语义词汇表上的概率分布,计算损失函数的值;根据所述损失函数的值,对基于注意力机制的神经网络模型进行优化,以得到所述语义理解器。8.根据权利要求4所述的文本生成方法,其中,所述对所述待处理图像的相关文本进行编码,以得到所述待处理图像的相关语义特征还包括:确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码;将所述语义词特征和其参与的位置编码进行融合,以得到融合后的语义词特征,并将所有融合后的语义词特征构成的整体作为待处理图像的相关语义特征。9.根据权利要求8所述的文本生成方法,其中,确定所述语义理解器输出的语义特征中每个语义词特征参与的位置编码包括:对于每个语义词特征,确定所述语义词特征在位置编码序列中所有位置编码的注意力分布;根据所述注意力分布,对所述位置编码序列中所有位置编码进行聚合,以得到所述语义词特征参与的位置编码。10.根据权利要求1所述的文本生成方法,其中,根据所述待处理图像的视觉特征,和所述待处理图像的相关语义特征,生成所述待处理图像的描述文本包括:基于文本解码器对所述待处理图像的视觉特征,和所述待处理图像的相关语义特征进行处理,以得到所述待处理图像的描述文本,其中,所述文本解码器为训练后的采用注意力机制的神经网络模型。11.根据权利要求10所述的文本...
【专利技术属性】
技术研发人员:李业豪,潘滢炜,姚霆,梅涛,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。