图像分类方法及装置制造方法及图纸

技术编号：17780366 阅读：37 留言：0更新日期：2018-04-22 09:13

本公开是关于一种图像分类方法及装置。该方法可以包括：通过对图像进行文字识别，得到图像中的文字的词向量；以及，对图像进行图像特征提取，得到图像的图像特征向量；将图像的词向量与图像的图像特征向量进行拼接，得到图像的联合特征向量；根据图像的联合特征向量对图像进行分类。由于图像的联合特征向量包含文字信息以及图像特征信息，对图像的描述更加准确，信息量更大，因此，根据图像的联合特征向量对图像进行分类，能够有效提高图像分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
图像分类方法及装置
本公开涉及计算机领域，尤其涉及一种图像分类方法及装置。
技术介绍
相关技术中，图像分类通常根据提取出的图像特征(如图像颜色、形状、纹理等视觉特征)来判断出图像属于预设类别中的哪一类，比如风景、人物、餐厅，礼堂等。但是，随着对图像分类精度要求越来越高，目前的图像分类方式已不能满足精度需要。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种图像分类方法及装置。根据本公开实施例的第一方面，提供一种图像分类方法，该方法可以包括：通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；根据所述图像的联合特征向量对所述图像进行分类。根据本公开实施例的第一方面的一种可能的实施方式，所述通过对图像进行文字识别，得到所述图像中的文字的词向量包括：基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络；从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域；基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络；利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2...
图像分类方法及装置

【技术保护点】
一种图像分类方法，其特征在于，包括：通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；根据所述图像的联合特征向量对所述图像进行分类。

【技术特征摘要】
1.一种图像分类方法，其特征在于，包括：通过对图像进行文字识别，得到所述图像中的文字的词向量；以及，对所述图像进行图像特征提取，得到所述图像的图像特征向量；将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量；根据所述图像的联合特征向量对所述图像进行分类。2.根据权利要求1所述的图像分类方法，其特征在于，所述通过对图像进行文字识别，得到所述图像中的文字的词向量包括：基于Adaboost算法对所述图像进行各种尺度的窗口扫描得到所述图像的各个文字区域的概率或基于第一卷积神经网络计算出所述图像的各个文字区域的概率，其中，所述第一卷积神经网络为已完成文字概率训练的卷积神经网络；从所述各个文字区域中，筛选出概率满足概率阈值要求的文字区域；基于第二卷积神经网络及循环神经网络对筛选出的文字区域进行文字识别，得到所述图像中的文字，其中，所述第二卷积神经网络为已完成文字提取训练的卷积神经网络；利用word2vec工具将所述图像中的文字转换为词向量，其中，所述word2vec工具为已利用CBOW模型和/或skip-gram模型完成词向量训练的word2vec工具。3.根据权利要求1所述的图像分类方法，其特征在于，所述对所述图像进行图像特征提取，得到所述图像的图像特征向量包括：基于第三卷积神经网络对所述图像进行图像特征提取，得到所述图像的图像特征向量，其中，所述第三卷积神经网络为已完成图像特征提取训练的卷积神经网络。4.根据权利要求1所述的图像分类方法，其特征在于，所述图像的词向量与所述图像的图像特征向量均为用数字串来表达的向量；所述将所述图像的词向量与所述图像的图像特征向量进行拼接，得到所述图像的联合特征向量包括：将所述词向量与所述图像特征向量的数字串连接，得到用数字串表达的联合特征向量，所述联合特征向量的长度为所述词向量与所述图像特征向量的数字串长度之和；所述根据所述图像的联合特征向量对所述图像进行分类包括：将所述用数字串表达的联合特征向量输入softmax分类器，得到所述图像的分类结果，其中，所述softmax分类器为已完成分类训练的分类器。5.一种图像分类装置，其特征在于，包括：文字特征提取模块，被配置为通过对图像进行文字识别，得到所述图像中的文字的词向量；图像特征提取模块，被配置为对所述图像进行图像特征提取，得到所述图像的图像特征向量；特征拼接模块，被配置为将所述图像的词向量与所述图像的...

【专利技术属性】
技术研发人员：杨松，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人