图像描述文本生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:26172162 阅读:30 留言:0更新日期:2020-10-31 13:48
本申请涉及人工智能技术领域,提供一种图像描述文本生成方法、装置、计算机设备及存储介质,通过预设识别模型对待描述图像进行图像文本识别,得到参考句子;将参考句子输入至文本特征模型,对参考句子进行文本特征提取,得到时序文本;通过文本主题模型对时序文本进行主题提取,得到文本主题;通过视觉特征提取模型,对待描述图像进行视觉特征提取,得到各视觉字符串;通过注意力模型根据文本主题对所述视觉字符串进行特征重组,得到视觉重组特征;将视觉重组特征和时序文本输入至文本描述生成模型中,生成描述文本。本申请引入主题引导的注意力模型,使得图像与正确的描述文本能够逼近,与错误的描述文本疏远,提高了描述文本的准确性。

【技术实现步骤摘要】
图像描述文本生成方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及一种图像描述文本生成方法、装置、计算机设备及存储介质。
技术介绍
随着计算机技术的发展,图像文本描述技术也相应发展。对于一个图像而言,往往包含多个特征,在通过语言对其进行识别描述时,往往需要通过多个句子对其进行描述,以避免单个句子描述出现的局限性和不完整性。现有技术中,常使用LDA(LatentDirichletAllocation,文档主题模型)主题模型实现对图像进行语言文本描述,LDA模型主要通过基于主题词构建的主题向量引导图像描述文本的生成,但其生成的图像描述文本经常会出现偏离图像内容或图像描述文本的语义出现错误等问题,从而导致生成的图像描述文本准确率低且与图像内容存在偏差。
技术实现思路
本申请实施例提供一种图像描述文本生成方法、装置、计算机设备及存储介质,以解决图像描述文本准确率低的问题。一种图像描述文本生成方法,包括:获取待描述图像以及预设识别模型,并通过所述预设识别模型对所述待描述图像进行图像文本文档来自技高网...

【技术保护点】
1.一种图像描述文本生成方法,其特征在于,包括:/n获取待描述图像以及预设识别模型,并通过所述预设识别模型对所述待描述图像进行图像文本识别,得到与所述待描述图像对应的至少一个参考句子;/n将所述参考句子输入至文本特征模型,对所述参考句子进行文本特征提取,得到与所述参考句子对应的时序文本;/n通过文本主题模型对所述时序文本进行主题提取,得到至少一个文本主题;/n通过视觉特征提取模型,对所述待描述图像进行视觉特征提取,得到与所述待描述图像对应的各视觉字符串;/n将所述文本主题和各所述视觉字符串输入至注意力模型,根据所述文本主题对所述视觉字符串进行特征重组,得到视觉重组特征;/n将所述视觉重组特征和...

【技术特征摘要】
1.一种图像描述文本生成方法,其特征在于,包括:
获取待描述图像以及预设识别模型,并通过所述预设识别模型对所述待描述图像进行图像文本识别,得到与所述待描述图像对应的至少一个参考句子;
将所述参考句子输入至文本特征模型,对所述参考句子进行文本特征提取,得到与所述参考句子对应的时序文本;
通过文本主题模型对所述时序文本进行主题提取,得到至少一个文本主题;
通过视觉特征提取模型,对所述待描述图像进行视觉特征提取,得到与所述待描述图像对应的各视觉字符串;
将所述文本主题和各所述视觉字符串输入至注意力模型,根据所述文本主题对所述视觉字符串进行特征重组,得到视觉重组特征;
将所述视觉重组特征和所述时序文本输入至文本描述生成模型中,生成与所述待描述图像对应的描述文本。


2.如权利要求1所述的图像描述文本生成方法,其特征在于,所述将所述参考句子输入至文本特征模型中,对所述参考句子进行文本特征提取,得到与所述参考句子对应的时序文本,包括:
将所述参考句子输入至所述文本特征模型中的编码循环神经网络中,对所述参考句子进行编码处理,得到与所述参考句子对应的正向词向量和反向词向量;
对每一所述正向词向量进行拼接,得到正向拼接词向量,对每一所述反向词向量进行拼接,得到反向拼接词向量;
将所述正向拼接词向量和所述反向拼接词向量输入至文本特征模型中的全连接网络,得到句子向量;
通过所述文本特征模型中的解码循环神经网络对所述句子向量进行解码重构,得到时序文本。


3.如权利要求1所述的图像描述文本生成方法,其特征在于,所述将所述文本主题和所述视觉字符串输入至注意力模型中,根据所述文本主题对所述视觉字符串进行特征重组,得到视觉重组特征,包括:
根据所述文本主题,在所述注意力模型中设置每一文本主题对应的注意力权值向量;
对每一所述视觉字符串进行累加处理,得到视觉词袋;
对所述注意力权值向量和所述视觉词袋进行按位相乘处理,得到与每一所述视觉字符串对应的权重,并对每一所述视觉字符串对应的权重进行归一化处理,得到每一所述视觉字符串的权值向量;
对每一所述视觉字符串的权值向量进行转置处理,得到每一所述视觉字符串对应的转置权值向量;
对所述每一所述视觉字符串以及与每一所述视觉字符串对应的所述转置权值向量进行加权和处理,得到视觉重组特征。


4.如权利要求1所述的图像描述文本生成方法,其特征在于,所述将所述参考句子输入至文本特征模型之前,还包括:
获取文本数据集、图像描述训练集以及初始文本模型,所述初始文本模型包括初始编码循环神经网络、初始解码循环神经网络和全连接网络;
通过所述文本数据集对所述初始编码循环神经网络进行训练,得到编码循环神经网络;
将所述图像描述训练集输入至所述编码循环神经网络中,对所述图像描述训练集中的描述文本进行编码处理,得到初始正向词向量和初始反向词向量;
对所有所述初始正向词向量进行拼接,得到初始正向拼接词向量,对所有所述初始反向词向量进行拼接,得到初始反向拼接词向量;
将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述全连接网络,得到初始句子向量;
将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述初始解码循环神经网络中,并通过所述初始解码循环神经网路对所述初始句子向量进行解码重构,得到输出文本;
对所述输出文本与所述图像描述训练集中的描述文本进行相似性比对,若所述输出文本与所述描述文本之间的相似度高于预设阈值,则将所述初始解码循环神经网络记录为解码循环神经网络;
根据所述编码循环神经网络、解码循环神经网络和全连接网络,构建文本特征模型。


5.如权利要求...

【专利技术属性】
技术研发人员:毛宇兆高维国
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1