【技术实现步骤摘要】
一种基于深度学习的即插即用的风格化图片字幕生成方法
[0001]本专利技术涉及一种全自动的网络图片描述生成方法,尤其涉及基于机器学习的图像字幕生成以及情感分析领域。
技术介绍
[0002]图像字幕是借助计算机视觉识别图中物体,并利用自然语言处理的方法生成与之对应的描述。在计算机视觉方面,改进的卷积神经网络和目标检测体系结构有助于改进图像字幕系统。在自然语言处理方面,更复杂的顺序模型,如基于注意力的循环神经网络,也同样能产生更准确的字幕描述。
[0003]Transformer架构的引入极大地提高了自然语言处理任务的技术水平。然而,一旦这些模型被训练,控制属性,必须通过修改模型体系结构以允许额外的输入,来生成具有特定控制属性的文本。可控生成需要对p(x|a)进行建模,其中a是某些需要的可控属性,x是生成的样本。
[0004]到目前为止,还没有一种技术能够在生成描述的同时,在不修改模型的基础上,使描述具有风格化。显然的,这不利于该项技术在实际应用中的推广。
技术实现思路
[0005]解决的技术问题 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习的即插即用的风格化图片字幕生成方法,其特征在于,包括如下步骤:步骤1:准备数据集;步骤2:构建可控图像文本生成网络;所述的可控图像文本生成网络包含两个子网络:image
‑
caption网络和风格控制器;步骤3:通过image
‑
caption网络对输入的图像数据进行处理,得到对应的输出文本;步骤4:通过风格控制器对输出文本进行风格控制;步骤5:训练可控图像文本生成网络。2.根据权利要求1所述的一种基于机器学习的即插即用的风格化图片字幕生成方法,其特征在于,步骤1具体方法如下:1.1图像
‑
文本数据集直接采用现有的数据集其包括如下几个部分:第一部分是图片,作为网络模型训练过程中的输入图像数据;第二部分是与这些图片所对应的文本描述;1.2图像
‑
文本
‑
情感数据集直接采用现有的数据集,其包括如下几个部分:第一部分是图片,第二部分是与这些图片所对应的带情感的文本描述,第三部分是文本描述的情感倾向,第四部分是标定的具有感情的具体词汇。3.根据权利要求2所述的一种基于机器学习的即插即用的风格化图片字幕生成方法,其特征在于,步骤2具体方法如下:可控图像文本生成网络包含两个子网络:image
‑
caption网络和风格控制器;(1)image
‑
caption网络,它包含:Backbone:用以提取图像特征,采用ResNet101进行提取;RPN层:该层用以在特征图上生成目标建议框以提高对物体识别的准确率;编解码器:用于处理提取的图像特征并生成对应的文字描述;采用基于Transformer架构的编解码器;一个Transformer具有一个编码器与一个解码器,编解码器均具有多个多头注意力层,用于提取输入特征;(2)风格控制器:它同样基于Transformer结构,包括一个编码端与一个解码端。4.根据权利要求3所述的一种基于机器学习的即插即用的风...
【专利技术属性】
技术研发人员:颜成钢,王寅峰,胡冀,王鸿奎,陈楚翘,孙垚棋,高宇涵,朱尊杰,薛轶天,殷海兵,张继勇,李宗鹏,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。