一种水下图像中文描述生成方法、装置、设备及存储介质制造方法及图纸

技术编号:37509563 阅读:32 留言:0更新日期:2023-05-07 09:49
本申请公开了一种水下图像中文描述生成方法、装置、设备及存储介质,涉及计算机视觉和自然语言处理领域,包括:获取水下图像增强基准数据集中的待标注水下图像和对应中文语句;通过长短时记忆网络对基于全连接神经网络生成词嵌入后的中文语句进行编码得到文本特征;根据残差网络提取待标注水下图像的图像特征并与文本特征融合得到多模态特征;对长短时记忆网络模型进行训练,通过训练后模型对待标注水下图像进行预测并利用集束搜索优化,基于预设解码器分析多模态特征生成待标注水下图像的中文描述。通过长短时记忆网络与残差网络得到图像的多模态特征,并在分析特征后进行词语预测输出,利用集束搜索进行优化,改善水下图像中文描述生成的效果。像中文描述生成的效果。像中文描述生成的效果。

【技术实现步骤摘要】
一种水下图像中文描述生成方法、装置、设备及存储介质


[0001]本专利技术涉及计算机视觉和自然语言处理领域,特别涉及一种水下图像中文描述生成方法、装置、设备及存储介质。

技术介绍

[0002]图像字幕生成是利用人工智能将采集图像内容转换成具有自然语义表达的文字描述,它在专业图像的辅助理解、图像检索、智能机器问答、视力受限人群的辅助信息获取等领域都有重要的应用,针对水下监测图像开展图像描述研究,有助于计算机对水下图像中复杂目标、场景的理解和特定目标的专业描述。如果将水下图像转换成文字描述,对水下的特殊场景进行具体的文字描述,可以给工作人员提供更加专业、直接的交互体验。现有的图像字幕技术中,当前大多数数据集以图像英文字幕生成为主,在我国自主研制的水下探测设备中,系统希望能够提供中文的信息,方便工作人员直观地阅读和分析。考虑到汉语和英语在句法和语义上的区别,需要有针对性地开展中文图像字幕生成方法研究。因此,如何有效地生成水下图像的中文描述是本领域有待解决的问题。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种水下图像本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种水下图像中文描述生成方法,其特征在于,包括:获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句;通过长短时记忆网络对基于全连接神经网络生成词嵌入后的所述若干个中文语句进行编码,以得到所述待标注水下图像的文本特征;根据预设残差网络提取所述待标注水下图像的图像特征,并融合所述图像特征与所述文本特征,以得到所述待标注水下图像对应的多模态特征;对预设长短时记忆网络模型进行训练,通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列,并利用集束搜索对所述中文词语序列进行优化,以基于预设解码器分析所述多模态特征生成所述待标注水下图像的中文描述。2.根据权利要求1所述的水下图像中文描述生成方法,其特征在于,所述获取水下图像增强基准数据集中的待标注水下图像,包括:获取水下图像增强基准数据集中的初始图像,判断所述初始图像是否满足预设清晰度条件;若不满足,根据预设图像预处理方法对所述初始图像进行预处理,以得到所述待标注水下图像。3.根据权利要求1所述的水下图像中文描述生成方法,其特征在于,所述获取水下图像增强基准数据集中的待标注水下图像和预设的与所述待标注水下图像对应的若干个中文语句,包括:获取水下图像增强基准数据集中的待标注水下图像,并利用图像字幕标注标准基于所述待标注水下图像生成与所述待标注水下图像对应的若干个中文语句。4.根据权利要求1所述的水下图像中文描述生成方法,其特征在于,所述根据预设残差网络提取所述待标注水下图像的图像特征,包括:将所述待标注水下图像输入预设残差网络;所述预设残差网络包括若干个卷积模块与若干个残差模块;利用所述若干个卷积模块对所述待标注水下图像进行转化,以得到通道数为预设通道数的初始图像特征图;通过所述若干个残差模块基于特征矩阵隔层相加运算方式对所述初始图像特征图进行运算,得到所述待标注水下图像的图像特征。5.根据权利要求1所述的水下图像中文描述生成方法,其特征在于,所述通过训练后模型对所述待标注水下图像进行预测生成对应的中文词语序列,包括:将基于所述待标注水下图像的图像特征和文本特征生成的所述多...

【专利技术属性】
技术研发人员:李莉张玉强任鹏吴天乐郝亮张珅单亦先陈刚潘龙孙筱珺代娟
申请(专利权)人:青岛中石大科技教育集团有限公司青岛中石大科技创业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1