多源图文信息分类方法及其相应的装置、设备、介质制造方法及图纸

技术编号:30231839 阅读:22 留言:0更新日期:2021-09-29 10:06
本申请公开一种多源图文信息分类方法及其相应的装置、设备、介质,该方法包括:获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;先后融合从待分类图片的第一图样、第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,相应获得预设分类结构所派生的各分类的第一、第二评分值,其中所述第一图样为该待分类图片的原图,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;最后融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。本申请可以获得高准确度的分类结果,特别适用于电商应用场景中。景中。景中。

【技术实现步骤摘要】
多源图文信息分类方法及其相应的装置、设备、介质


[0001]本申请实施例涉及电商信息
,尤其涉及一种多源图文信息分类方法及其相应的装置、设备、介质。

技术介绍

[0002]网络图片及商家上传图像是电商场景细粒度分类的重要来源,但爬虫抓取的数据或商家上传图像往往存在较多的背景噪声(background noise),往往需要对显著特征区域进行针对性清理,降低了根据这些图片进行分类的效率。
[0003]另一方面,对于电商场景所用的图片,往往也伴随着其他的先验信息,包括一些商品描述、电商标题等文本信息,充分利用这些文本信息,也有利于对电商图片的分类做出贡献。
[0004]传统技术中,采用多模态融合手段,以图片、文本等多源信息对分类对象进行联合表征后投入网络训练,获得相应的分类模型,后续利用此类分类模型用于对电商产品的图文进行分类。这种情况下,为了尽可能广泛地获得电商图片所表达的多样化细节特征,对训练样本的数据规模的依赖便较为严格,也就降低了训练效率,并且,在训练样本有限的情况下,分类模型难以有效收敛自然不在话下,此外在实际生产中也会造成多模态精度难以提高的现象。因此,现有技术中的对图文进行多模态融合以实现电商图片分类的网络模型,其训练难度大,分类效果不佳。
[0005]作为对传统技术的改进,部分现有技术使用可训练的链接强度来增加显著性分块特征的权重,部分现有技术则显式利用attention区域精细处理以提升细粒度性能,但这些细粒度分类方案大多着眼于端到端的特征提取过程中如何聚焦于最具分辨力的区域,无法应对背景噪声较多的情况,比如区分商品上广泛存在的文本(包含规格、批次信息)及轻微外观设计差别(不同应用场合的同类产品),同时现有的多模态融合手段在实际生产中仍然面临样本数据不足、模型难以收敛等实际问题。

技术实现思路

[0006]本申请的目的针对现有技术中存在的至少部分不足而提供一种多源图文信息分类方法及其相应的装置、计算机设备及存储介质。
[0007]为解决上述技术问题,本申请采用的一个技术方案是:
[0008]本申请的多源图文信息分类方法,其包括如下步骤:
[0009]获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;
[0010]融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;
[0011]融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的
各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;
[0012]融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。
[0013]具体化的实施例中,获得所述图文特征信息的过程,包括如下步骤:
[0014]调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;
[0015]调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;
[0016]将所述图像特征信息与所述文本特征信息融合为图文特征信息。
[0017]具体化的实施例中,将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程,包括如下步骤:
[0018]将所述图像特征信息与文本特征信息分别进行特征泛化处理;
[0019]将泛化后的图像特征信息与文本特征信息分别进行全连接;
[0020]将全连接后的图像特征信息与文本特征信息分别进行池化;
[0021]将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。
[0022]具体化的实施例中,对所述图文特征信息进行分类的过程,包括如下步骤:
[0023]对所述图文特征信息进行全连接;
[0024]调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。
[0025]进一步扩展的实施例中,本方法还包括如下前置步骤:
[0026]在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;
[0027]在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;
[0028]在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的待分类图片与待分类文本分别作为图像特征提取模型和文本特征提取模型的输入,使该分类器训练至收敛状态。
[0029]具体化的实施例中,在所述图像特征提取模型已接入所述分类器的状态下实施迭代训练的过程包括如下步骤:
[0030]所述图像特征提取模型对馈入的待分类图片的第一图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第一分类空间,获得各个分类的第一评分值,所述第一图样为该待分类图片的原图;
[0031]所述图像特征提取模型对馈入的待分类图片的第二图样进行特征提取,将其所提取的图像特征信息相对应的分类结果投射至采用所述预设分类结构的第二分类空间,获得各个分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图。
[0032]较佳的实施例中,从待分类图片的第二图样提取图像特征信息的过程,包括如下步骤:
[0033]将待分类图片的副本按照预设细粒度均匀切分成多个图元;
[0034]将所述图元随机乱序排列后,重新拼接为待分类图片原画幅大小的副图。
[0035]为解决上述技术问题,本申请采用的另一技术方案是:
[0036]本申请的多源图文信息分类装置,其包括图文获取模块、原图融合模块、副图融合模块、融合分类模块,其中,所述图文获取模块,用于获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;所述原图融合模块,用于融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;所述副图融合模块,用于融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;所述融合分类模块,用于融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源图文信息分类方法,其特征在于,包括如下步骤:获取待分类图片及待分类文本,待分类文本包含待分类图片的描述信息;融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第一评分值,所述第一图样为该待分类图片的原图;融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息,对该图文特征信息进行分类,获得预设分类结构所派生的各分类的第二评分值,所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图;融合所述第一评分值和第二评分值获得综合评分值,输出所述综合评分值最大的分类所对应的分类标签。2.根据权利要求1所述的多源图文信息分类方法,其特征在于,获得所述图文特征信息的过程,包括如下步骤:调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息;调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息;将所述图像特征信息与所述文本特征信息融合为图文特征信息。3.根据权利要求2所述的多源图文信息分类方法,其特征在于,将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程,包括如下步骤:将所述图像特征信息与文本特征信息分别进行特征泛化处理;将泛化后的图像特征信息与文本特征信息分别进行全连接;将全连接后的图像特征信息与文本特征信息分别进行池化;将池化后的所述图像特征信息与文本特征信息进行多模态特征融合,获得所述的图文特征信息。4.根据权利要求1所述的多源图文信息分类方法,其特征在于,对所述图文特征信息进行分类的过程,包括如下步骤:对所述图文特征信息进行全连接;调用分类器对全连接后的输出进行分类,获得预设分类结构所派生的各分类的评分值。5.根据权利要求2所述的多源图文信息分类方法,其特征在于,本方法还包括如下前置步骤:在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练,以预备的训练样本中的待分类图片作为图像特征提取模型的输入,使图像特征提取模型训练至收敛状态;在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练,以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入,使文本特征提取模型训练至收敛状态;在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练,以同一所述训练样本的...

【专利技术属性】
技术研发人员:曾鹏刘涛黄家冕兴百桥李保俊
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1