一种基于分布词向量CNN网络的图像描述方法及系统技术方案

技术编号:32584790 阅读:12 留言:0更新日期:2022-03-09 17:17
本发明专利技术提出了一种基于分布词向量CNN网络的图像描述方法及系统,涉及智能图像处理技术领域。包括预设语言库;对语言库进行词向量生成处理获得对应的词向量集;对每个词进行识别,利用互联网采集相关图片进行分类,分类后存储至原始图片库;利用CNN网络模型进行特征提取和分类,获得第一参照库;持续采集图片,继续利用CNN网络模型对处理得到第二参照库;将图片带入CNN网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;反之则输出图片的图像描述。其能够对参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。性。性。

【技术实现步骤摘要】
一种基于分布词向量CNN网络的图像描述方法及系统


[0001]本专利技术涉及智能图像处理
,具体而言,涉及一种基于分布词向量CNN网络的图像描述方法及系统。

技术介绍

[0002]在计算机视觉领域中,随着图像分类、目标检测、语义分割等基本视觉任务不断突破。人们的兴趣逐渐转向图像描述这个更复杂、更高级的视觉任务。图像描述的具体任务是生成图像中语义信息的描述性语句,因此,不仅仅需要识别和理解(指动作)图像中的相关内容,而且要以自然语言的形式对其描述。在盲人辅助系统、图像检索、智能交互系统等实际应用中,这种用图像生成对应自然语言描述的能力至关重要。但现有技术中,基本采用一些开源的图片库作为图像描述训练的对象,虽然采用的数量较多,但由于现实生活中变化状态的图像远远大于开源库内的数量,由此必然会出现图像描述不准确的情况出现,由此需要一种基于分布词向量CNN网络的图像描述方法。

技术实现思路

[0003]本专利技术的目的在于提供一种基于分布词向量CNN网络的图像描述方法,其能够对参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。
[0004]本专利技术的实施例是这样实现的:
[0005]第一方面,本申请实施例提供一种基于分布词向量CNN网络的图像描述方法,其包括:预设语言库;对所述语言库进行词向量生成处理,获取所述语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;对所述语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;利用互联网采集所述语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用CNN网络模型对所述原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用CNN网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将所述待处理图片带入CNN网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合所述第二参照库的图片,则输出所述图片对应语义内容的图像描述。
[0006]在本专利技术的一些实施例中,利用互联网采集语言库内词语语义的多个相关图片的步骤包括:在检索程序内依次输入语言库的文字,利用搜索引擎得到输入文字相关的图片后,进行下载采集。
[0007]在本专利技术的一些实施例中,CNN网络模型采用以Sobel为内核的可分离的卷积神经网络模型。
[0008]在本专利技术的一些实施例中,若分类结果不符合第二参照库内的所有图片,即非需
要的图片后的步骤包括:将非需要的图片进行删除,并标记原下载地址,当再次检索至地址后,不再进行采集。
[0009]在本专利技术的一些实施例中,获取待处理图片的步骤包括:利用摄像头或从互联网下载获取待处理图片。
[0010]在本专利技术的一些实施例中,对语言库的每个词进行识别的步骤包括,利用BERT模型对语言库的每个词进行识别。
[0011]在本专利技术的一些实施例中,则输出图片对应语义内容的图像描述后的步骤包括:将待处理图片保存至对应语义内容的第二参照库中。
[0012]第二方面,本申请实施例提供一种基于分布词向量CNN网络的图像描述系统,其包括:预处理模块,用于预设语言库;对语言库进行词向量生成处理,获取语言库对应的词向量集;从第二参照库中获取训练用的每张图片语义所对应的词向量,得到语义向量集;对语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表,并获得固定长度的词向量;初级采集模块,用于利用互联网采集语言库内词语语义的多个相关图片;处理模块,用于对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用CNN网络模型对原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;循环采集模块,持续在互联网采集图片,根据第一参照库,利用CNN网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;输入模块,用于获取待处理图片;判断模块,用于将待处理图片带入CNN网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合第二参照库的图片,则输出图片对应语义内容的图像描述。
[0013]第三方面,本申请实施例提供一种电子设备,包括至少一个处理器、至少一个存储器和数据总线;其中:处理器与存储器通过数据总线完成相互间的通信;存储器存储有可被处理器执行的程序指令,处理器调用程序指令以执行一种基于分布词向量CNN网络的图像描述方法。
[0014]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种基于分布词向量CNN网络的图像描述方法。
[0015]相对于现有技术,本专利技术的实施例至少具有如下优点或有益效果:
[0016]针对于现有技术中开源的图片库数量不够的问题,本设计利用互联网中各个网站的图片作为图片库,即先进行初次深度学习,其利用CNN网络模型进行特征选取以及分类,利用图片开源库进行训练,从而先生成一个较为准确的模型,而后持续从互联网上下载图片或利用摄像头进行拍摄图片,并进行持续性训练,对第二参照库进行实时更新,由此即使随着时间的变迁,图片出现新的状态也能够进行有效的识别,并给出准确的图片描述,提高了准确性。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1为本专利技术中一种基于分布词向量CNN网络的图像描述方法的流程图;
[0019]图2为本专利技术中一种基于分布词向量CNN网络的图像描述系统的流程图;
[0020]图3为本专利技术中一种电子设备的结构示意图。
[0021]图标:1、预处理模块;2、初级采集模块;3、处理模块;4、循环采集模块;5、输入模块;6、判断模块;7、处理器;8、存储器;9、数据总线。
具体实施方式
[0022]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0023]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]应注意到:相似的标号和字母在下面的附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布词向量CNN网络的图像描述方法,其特征在于,包括:预设语言库;对所述语言库进行词向量生成处理,获取所述语言库对应的词向量集;获取训练用的每张图片语义所对应的词向量,得到语义向量集;对所述语言库的每个词进行识别,获取固定长度的词向量并组成对应的词汇表;利用互联网采集所述语言库内词语语义的多个相关图片;对采集的图片进行分类,将同一语义相关的图片和词向量存储至同一个原始图片库内;利用CNN网络模型对所述原始图片库内的图片进行特征提取,并进行深度学习分类,获得第一参照库;持续在互联网采集图片,根据第一参照库,利用CNN网络模型对持续采集的图片,并进行循环深度学习分类,得到第二参照库;获取待处理图片;将所述待处理图片带入CNN网络模型进行特征提取,并进行分类,若分类结果不符合第二参照库内的所有图片,即非需要的图片;若分类结果符合所述第二参照库的图片,则输出所述图片对应语义内容的图像描述。2.如权利要求1所述的一种基于分布词向量CNN网络的图像描述方法,利用互联网采集所述语言库内词语语义的多个相关图片的步骤包括:在检索程序内依次输入所述语言库的文字,利用搜索引擎得到输入文字相关的图片后,进行下载采集。3.如权利要求1所述的一种基于分布词向量CNN网络的图像描述方法,所述CNN网络模型采用以Sobel为内核的可分离的卷积神经网络模型。4.如权利要求1所述的一种基于分布词向量CNN网络的图像描述方法,若分类结果不符合第二参照库内的所有图片,即非需要的图片后的步骤包括:将所述非需要的图片进行删除,并标记原下载地址,当再次检索至所述地址后,不再进行采集。5.如权利要求1所述的一种基于分布词向量CNN网络的图像描述方法,获取待处理图片的步骤包括:利用摄像头或从互联网下载获取待处理图片。6.如权利要求1所述的一种基于分布词向量CNN网络的图像描述方法,对所述语言库的每个词...

【专利技术属性】
技术研发人员:黄茂芹
申请(专利权)人:广东赛昉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1