图像分类方法、装置及终端制造方法及图纸

技术编号:18668652 阅读:28 留言:0更新日期:2018-08-14 20:44
本发明专利技术实施例提供了一种图像分类方法、装置及终端,其中所述方法包括:通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;将所述图像特征向量和文字特征向量拼接,得到图文特征向量;调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类。通过本发明专利技术实施例提供的图像分类方法,能够提升图像分类的准确性。

Image classification method, device and terminal

The embodiment of the invention provides an image classification method, a device and a terminal, wherein the method comprises: determining an image feature vector corresponding to an image through a convolutional neural network; wherein the image corresponds to a text description information; and processing the text description information through an embedded network to obtain a text feature direction. The image feature vectors and the text feature vectors are stitched together to obtain the image feature vectors. The depth neural network is used to determine the corresponding classification of the image according to the image feature vectors, the text feature vectors and the text feature vectors. The image classification method provided by the embodiment of the invention can improve the accuracy of image classification.

【技术实现步骤摘要】
图像分类方法、装置及终端
本专利技术涉及图像处理
,特别是涉及一种图像分类方法、装置及终端。
技术介绍
深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。卷积神经网络作为深度学习的一个重要分支,由于其超强的拟合能力以及端到端的全局优化能力,使得其在目标检测、分类等计算机视觉任务中所得预测结果的精度大幅提升。目前对图像进行分类时,依据图像自身的特征在预定的标签体系下匹配得到图像对应的标签,依据标签确定图像所属的分类,所得分类结果准确性差。而在实际应用场景中,用户在上传一个图像之后,还会为该图像追加一段简单的文字描述,而这段文字描述对图像的分类而言,也具有一定的参考价值。可见,如何获取图像的全面信息,依据所获取的全面信息对图像进行分类以提升图像分类的准确性,是目前本领域技术人员成为待解决的问题。
技术实现思路
本专利技术实施例提供一种图像分类方法、装置及终端,以解决现有技术中存在图像分类结果准确性差的问题。依据本专利技术的一个方面,提供了一种图像分类方法,其中所述方法包括:通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;将所述图像特征向量和文字特征向量拼接,得到图文特征向量;调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类。可选地,所述通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量的步骤,包括:去除所述文字描述信息中的停用词,得到多个分词;针对每个所述分词,确定所述分词在文字特征集合中的位置信息;依据所述位置信息生成分词对应的索引数值;其中,所述文字特征集合通过对样本图像对应的文字描述信息训练得到;调用嵌入网络,由所述嵌入网络依据各所述分词对应的索引数值确定各分词对应的描述向量;将各分词对应的描述向量同维度加权平均,得到文字特征向量。可选地,所述将所述图像特征向量和文字特征向量拼接,得到图文特征向量的步骤,包括:将所述文字特征向量和所述图像特征向量,映射为维度相同的向量;将映射后的文字特征向量和图像特征向量进行维度拼接,生成图文特征向量。可选地,在所述通过卷积神经网络确定图像对应的图像特征向量的步骤之前,所述方法还包括:获取各样本图像;针对每个样本图像,确定所述样本图像是否对应文字描述信息;若否,确定所述样本图像对应的文字特征子集合为空;若是,去除所述文字描述信息中的停用词得到包含多个分词的描述集合;基于预设的标签体系从所述描述集合中提取出文字特征子集合;将各样本图像对应的文字特征子集合求并集,得到文字特征集合。可选地,所述调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类的步骤,包括:分别将所述图像特征向量、文字特征向量以及所述图文特征向量输入所述深度神经网络,得到与所述图像特征向量对应的第一分类结果向量,与所述文字特征向量对应的第二分类结果向量,与所述图文特征向量对应的第三分类结果向量;将所述第一分类结果向量、第二分类结果向量以及所述第三分类结果向量进行加权求和,得到目标结果向量;依据所述目标结果向量,确定所述图像对应的分类。依据本专利技术的另一个方面,提供了一种图像分类装置,其中所述装置包括:确定模块,被配置为通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;向量生成模块,被配置为通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;拼接模块,被配置为将所述图像特征向量和文字特征向量拼接,得到图文特征向量;分类模块,被配置为调用深度神经网络,由所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类。可选地,所述向量生成模块包括:分词子模块,被配置为去除所述文字描述信息中的停用词,得到多个分词;位置确定子模块,被配置为针对每个所述分词,确定所述分词在文字特征集合中的位置信息;索引值生成子模块,被配置为依据所述位置信息生成分词对应的索引数值;其中,所述文字特征集合通过对样本图像对应的文字描述信息训练得到;第一调用子模块,被配置为调用嵌入网络,由所述嵌入网络依据各所述分词对应的索引数值确定各分词对应的描述向量;第二调用子模块,被配置为将各分词对应的描述向量同维度加权平均,得到文字特征向量。可选地,所述拼接模块包括:映射子模块,被配置为将所述文字特征向量和所述图像特征向量,映射为维度相同的向量;拼接子模块,被配置为将映射后的文字特征向量和图像特征向量进行维度拼接,生成图文特征向量。可选地,所述装置还包括:获取模块,被配置为在所述确定模块通过卷积神经网络确定图像对应的图像特征向量之前,获取各样本图像;子集合确定模块,被配置为针对每个样本图像,确定所述样本图像是否对应文字描述信息;若否,确定所述样本图像对应的文字特征子集合为空;若是,去除所述文字描述信息中的停用词得到包含多个分词的描述集合;提取子模块,被配置为基于预设的标签体系从所述描述集合中提取出文字特征子集合;特征集合确定模块,被配置为将各样本图像对应的文字特征子集合求并集,得到文字特征集合。可选地,所述分类模块包括:输入子模块,被配置为分别将所述图像特征向量、文字特征向量以及所述图文特征向量输入所述深度神经网络,得到与所述图像特征向量对应的第一分类结果向量,与所述文字特征向量对应的第二分类结果向量,与所述图文特征向量对应的第三分类结果向量;处理子模块,被配置为将所述第一分类结果向量、第二分类结果向量以及所述第三分类结果向量进行加权求和,得到目标结果向量;结果确定子模块,被配置为依据所述目标结果向量,确定所述图像对应的分类。根据本专利技术的再一方面,提供了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像分类程序,所述图像分类程序被所述处理器执行时实现本专利技术中所述的任意一种图像分类方法的步骤。根据本专利技术的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像分类程序,所述图像分类程序被处理器执行时实现本专利技术中所述的任意一种图像分类方法的步骤。与现有技术相比,本专利技术具有以下优点:本专利技术实施例提供的图像分类方案,以卷积神经网络为基础作为图像特征提取的主干网络得到图像对应的图像特征向量,以嵌入网络为基础作为文字特征提取的主干网络得到图像所对应的文字描述信息的文字特征向量,将图像特征向量和文字特征向量拼接得到图文特征向量,以深度神经网络作为主干网络,依据图像特征向量、文字特征向量以及图文特征向量确定图像在不同标签下的权重从而确定图像对应的分类,能够提升图像分类的准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是根据本专利技术实施例一的一种图像分类方法本文档来自技高网...

【技术保护点】
1.一种图像分类方法,其特征在于,所述方法包括:通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;将所述图像特征向量和文字特征向量拼接,得到图文特征向量;调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类。

【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法包括:通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;将所述图像特征向量和文字特征向量拼接,得到图文特征向量;调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类。2.根据权利要求1所述的方法,其特征在于,所述通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量的步骤,包括:去除所述文字描述信息中的停用词,得到多个分词;针对每个所述分词,确定所述分词在文字特征集合中的位置信息;依据所述位置信息生成分词对应的索引数值;其中,所述文字特征集合通过对样本图像对应的文字描述信息训练得到;调用嵌入网络,由所述嵌入网络依据各所述分词对应的索引数值确定各分词对应的描述向量;将各分词对应的描述向量同维度加权平均,得到文字特征向量。3.根据权利要求1所述的方法,其特征在于,所述将所述图像特征向量和文字特征向量拼接,得到图文特征向量的步骤,包括:将所述文字特征向量和所述图像特征向量,映射为维度相同的向量;将映射后的文字特征向量和图像特征向量进行维度拼接,生成图文特征向量。4.根据权利要求1所述的方法,其特征在于,在所述通过卷积神经网络确定图像对应的图像特征向量的步骤之前,所述方法还包括:获取各样本图像;针对每个样本图像,确定所述样本图像是否对应文字描述信息;若否,确定所述样本图像对应的文字特征子集合为空;若是,去除所述文字描述信息中的停用词得到包含多个分词的描述集合;基于预设的标签体系从所述描述集合中提取出文字特征子集合;将各样本图像对应的文字特征子集合求并集,得到文字特征集合。5.根据权利要求1所述的方法,其特征在于,所述调用深度神经网络,根据所述深度神经网络依据所述图像特征向量、文字特征向量以及所述图文特征向量,确定所述图像对应的分类的步骤,包括:分别将所述图像特征向量、文字特征向量以及所述图文特征向量输入所述深度神经网络,得到与所述图像特征向量对应的第一分类结果向量,与所述文字特征向量对应的第二分类结果向量,与所述图文特征向量对应的第三分类结果向量;将所述第一分类结果向量、第二分类结果向量以及所述第三分类结果向量进行加权求和,得到目标结果向量;依据所述目标结果向量,确定所述图像对应的分类。6.一种图像分类装置,其特征在于,所述装置包括:确定模块,被配置为通过卷积神经网络确定图像对应的图像特征向量;其中,所述图像对应有文字描述信息;向量生成模块,被配置为通过嵌入网络对所述文字描述信息进行处理,得到文字特征向量;拼接模块,被配置为将所述图像特征向量和文...

【专利技术属性】
技术研发人员:张志伟杨帆
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1