多模态文本图像分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：41090145 阅读：38 留言：0更新日期：2024-04-25 13:50

本申请实施例涉及一种文本图像分类方法、装置、电子设备及存储介质，该方法包括：获取待识别图像；利用预先训练的文本识别模型，从待识别图像中提取文本信息；利用预先训练的文本编码模型，对文本信息进行特征提取，得到文本特征；利用预先训练的图像编码模型，对待识别图像进行特征提取，得到图像特征；利用预先训练的多模态特征融合分类模型，对文本特征和图像特征进行融合分类，得到表示待识别图像的类别信息。本申请实施例大大提高了对包含文本的图像的识别精度，并且对各种图像进行分类的适应性更高，泛化性更好。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种多模态文本图像分类方法、装置、电子设备及计算机可读存储介质。

技术介绍

1、随着人工智能技术的发展，对文本、图像等信息进行分类识别的应用场景越来越多，采用人工智能技术可以大大提高文本、图像分类的效率。例如，可以采用人工智能技术对各种医疗材料影像图片进行自动化识别，从而将识别结果应用到保险理赔、医疗诊断等各种领域。目前常用的对包含文本的图像进行分类识别的方法，主要采用基于单一文本内容规则、文本特征和图像特征进行分类。

2、基于文本内容规则进行分类方法，由于不同影像材料的内容差异较大，采用规则分类方法将大大增加分类难度，需要消耗大量人工挑选文本特征，对新增类别材料大大增加了规则制定时间。而对于不包含文本的图片材料无法从中提取文本信息，因此无法对该材料进行区分，该分类方法所能达到的精度有限。

3、基于文本特征进行分类方法，虽然减少了大量人工挑选文本特征，但对于无文本的图片材料将无法进行分类，而无文本的图片材料也有比较多类型，因此无法进一步区分。

4、基于图像特征进行分类方法，可...

【技术保护点】

1.一种多模态文本图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本识别模型，从所述待识别图像中提取文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预先训练的图像编码模型，对所述待识别图像进行特征提取，得到图像特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本编码模型，对所述文本信息进行特征提取，得到文本特征，包括：

6.根据权利要求1所述的方法，其特征在于...

【技术特征摘要】

1.一种多模态文本图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本识别模型，从所述待识别图像中提取文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用预先训练的图像编码模型，对所述待识别图像进行特征提取，得到图像特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用预先训练的文本编码模型，对所述文本信息进行特征提取，得到文本特征，包括：

6.根据...

【专利技术属性】
技术研发人员：邱佳梁，陈琳，吴伟佳，姚吉呈，
申请(专利权)人：微民保险代理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人