多源图文信息分类方法及其相应的装置、设备、介质制造方法及图纸

技术编号：30231839 阅读：22 留言：0更新日期：2021-09-29 10:06

本申请公开一种多源图文信息分类方法及其相应的装置、设备、介质，该方法包括：获取待分类图片及待分类文本，待分类文本包含待分类图片的描述信息；先后融合从待分类图片的第一图样、第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息，对该图文特征信息进行分类，相应获得预设分类结构所派生的各分类的第一、第二评分值，其中所述第一图样为该待分类图片的原图，所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图；最后融合所述第一评分值和第二评分值获得综合评分值，输出所述综合评分值最大的分类所对应的分类标签。本申请可以获得高准确度的分类结果，特别适用于电商应用场景中。景中。景中。

全部详细技术资料下载

【技术实现步骤摘要】
多源图文信息分类方法及其相应的装置、设备、介质

[0001]本申请实施例涉及电商信息
，尤其涉及一种多源图文信息分类方法及其相应的装置、设备、介质。

技术介绍

[0002]网络图片及商家上传图像是电商场景细粒度分类的重要来源，但爬虫抓取的数据或商家上传图像往往存在较多的背景噪声(background noise)，往往需要对显著特征区域进行针对性清理，降低了根据这些图片进行分类的效率。
[0003]另一方面，对于电商场景所用的图片，往往也伴随着其他的先验信息，包括一些商品描述、电商标题等文本信息，充分利用这些文本信息，也有利于对电商图片的分类做出贡献。
[0004]传统技术中，采用多模态融合手段，以图片、文本等多源信息对分类对象进行联合表征后投入网络训练，获得相应的分类模型，后续利用此类分类模型用于对电商产品的图文进行分类。这种情况下，为了尽可能广泛地获得电商图片所表达的多样化细节特征，对训练样本的数据规模的依赖便较为严格，也就降低了训练效率，并且，在训练样本有限的情况下，分类模型难以有效收敛自然不在话下，此外在实际生产中也会造成多模态精度难以提高的现象。因此，现有技术中的对图文进行多模态融合以实现电商图片分类的网络模型，其训练难度大，分类效果不佳。
[0005]作为对传统技术的改进，部分现有技术使用可训练的链接强度来增加显著性分块特征的权重，部分现有技术则显式利用attention区域精细处理以提升细粒度性能，但这些细粒度分类方案大多着眼于端到端的特征提取过程中如何聚焦于最具分辨力的区...

【技术保护点】

【技术特征摘要】
1.一种多源图文信息分类方法，其特征在于，包括如下步骤：获取待分类图片及待分类文本，待分类文本包含待分类图片的描述信息；融合从待分类图片的第一图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息，对该图文特征信息进行分类，获得预设分类结构所派生的各分类的第一评分值，所述第一图样为该待分类图片的原图；融合从待分类图片的第二图样中提取的图像特征信息与从待分类文本提取的文本特征信息获得图文特征信息，对该图文特征信息进行分类，获得预设分类结构所派生的各分类的第二评分值，所述第二图样为该待分类图片被以预设细粒度切分后乱序拼接而成的副图；融合所述第一评分值和第二评分值获得综合评分值，输出所述综合评分值最大的分类所对应的分类标签。2.根据权利要求1所述的多源图文信息分类方法，其特征在于，获得所述图文特征信息的过程，包括如下步骤：调用预训练至收敛状态的图像特征提取模型提取出所述图样中的图像特征信息；调用预训练至收敛状态的文本特征提取模型提取出待分类文本中的文本特征信息；将所述图像特征信息与所述文本特征信息融合为图文特征信息。3.根据权利要求2所述的多源图文信息分类方法，其特征在于，将所述图像特征信息与所述文本特征信息融合为图文特征信息的过程，包括如下步骤：将所述图像特征信息与文本特征信息分别进行特征泛化处理；将泛化后的图像特征信息与文本特征信息分别进行全连接；将全连接后的图像特征信息与文本特征信息分别进行池化；将池化后的所述图像特征信息与文本特征信息进行多模态特征融合，获得所述的图文特征信息。4.根据权利要求1所述的多源图文信息分类方法，其特征在于，对所述图文特征信息进行分类的过程，包括如下步骤：对所述图文特征信息进行全连接；调用分类器对全连接后的输出进行分类，获得预设分类结构所派生的各分类的评分值。5.根据权利要求2所述的多源图文信息分类方法，其特征在于，本方法还包括如下前置步骤：在所述图像特征提取模型单独接入用于实施分类的分类器的状态下实施迭代训练，以预备的训练样本中的待分类图片作为图像特征提取模型的输入，使图像特征提取模型训练至收敛状态；在所述文本特征提取模型单独接入所述分类器的状态下实施迭代训练，以所述预备的训练样本中的与待分类图片相对应的待分类文本作为文本特征提取模型的输入，使文本特征提取模型训练至收敛状态；在所述图像特征提取模型与所述文本特征提取模型均接入所述分类器的状态下实施迭代训练，以同一所述训练样本的...

【专利技术属性】
技术研发人员：曾鹏，刘涛，黄家冕，兴百桥，李保俊，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人