【技术实现步骤摘要】
本专利技术涉及计算机视觉和自然语言处理两个领域,针对图像描述任务,设计了一种基于多尺度多头信息聚合的图像描述方法。
技术介绍
1、图像描述作为把计算机视觉和自然语言处理相结合的跨模态跨领域的任务。一般地,它将输入的图片通过卷积神经网络提取图像特征并利用循环神经网络等方法生成一段文字的描述,这段描述要求和图片的内容高度相似。这要求计算机利用模型来提取图片内的特征以及一些高层语义信息,然后利用自然语言处理的方法表达图片中的内容。相关研究能推动聊天机器人、医学报告自动生成和幼儿早期教育等信息服务领域的发展,因此该任务具有广泛的科学价值和应用前景。
2、最初,传统的图像描述算法是通过模板填充的方法来生成图像描述,它主要是通过局部二值模式、尺度不变特征转换或者方向梯度直方图等算法提取图像的视觉特征,并根据这些特征检测对应目标、动作及属性对应的单词词汇,最后将这些单词填入到模板中。这样的方法虽然能够保证句型语法的正确性,也有着很大的局限性,由于使用的模板是固定的,它也依赖于硬解码的视觉概念影响,这样生成的语句格式相对固定且形式单一,应用
...【技术保护点】
1.一种基于多尺度多头信息聚合的图像描述方法,其特征在于,包括如下步骤,(1)对自然图像和文本描述数据集进行预处理;(2)构建特征提取器提取视觉特征G=[g1,g2,…gi,…gN],其中N表示图像I由N个栅格视觉特征组成;(3)构建高尺度视觉特征提取模块:多头注意力模块的输入是一维序列,重构输入图像特征序列的二维几何关系,然后基于原始的低尺度视觉信息提取高尺度的视觉特征;(4)构建多尺度特征融合模块:将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力;(5)构建尺度扩展注意力模块:为每个注意力头都引入不同层级的高尺度视觉特征信息。
2.根据权利要求
...【技术特征摘要】
1.一种基于多尺度多头信息聚合的图像描述方法,其特征在于,包括如下步骤,(1)对自然图像和文本描述数据集进行预处理;(2)构建特征提取器提取视觉特征g=[g1,g2,…gi,…gn],其中n表示图像i由n个栅格视觉特征组成;(3)构建高尺度视觉特征提取模块:多头注意力模块的输入是一维序列,重构输入图像特征序列的二维几何关系,然后基于原始的低尺度视觉信息提取高尺度的视觉特征;(4)构建多尺度特征融合模块:将提取到的高尺度视觉特征与原始特征融合以增强特征表征能力;(5)构建尺度扩展注意力模块:为每个注意力头都引入不同层级的高尺度视觉特征信息。
2.根据权利要求1所述的一种基于多尺度多头信息聚合的图像描述方法,其特征在于:对自然图像和文本描述数据集进行预处理过程如下,
3.根据权利要求1所述的一种基于多尺度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。