多模态文本图像分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41090145 阅读:38 留言:0更新日期:2024-04-25 13:50
本申请实施例涉及一种文本图像分类方法、装置、电子设备及存储介质,该方法包括:获取待识别图像;利用预先训练的文本识别模型,从待识别图像中提取文本信息;利用预先训练的文本编码模型,对文本信息进行特征提取,得到文本特征;利用预先训练的图像编码模型,对待识别图像进行特征提取,得到图像特征;利用预先训练的多模态特征融合分类模型,对文本特征和图像特征进行融合分类,得到表示待识别图像的类别信息。本申请实施例大大提高了对包含文本的图像的识别精度,并且对各种图像进行分类的适应性更高,泛化性更好。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种多模态文本图像分类方法、装置、电子设备及计算机可读存储介质。


技术介绍

1、随着人工智能技术的发展,对文本、图像等信息进行分类识别的应用场景越来越多,采用人工智能技术可以大大提高文本、图像分类的效率。例如,可以采用人工智能技术对各种医疗材料影像图片进行自动化识别,从而将识别结果应用到保险理赔、医疗诊断等各种领域。目前常用的对包含文本的图像进行分类识别的方法,主要采用基于单一文本内容规则、文本特征和图像特征进行分类。

2、基于文本内容规则进行分类方法,由于不同影像材料的内容差异较大,采用规则分类方法将大大增加分类难度,需要消耗大量人工挑选文本特征,对新增类别材料大大增加了规则制定时间。而对于不包含文本的图片材料无法从中提取文本信息,因此无法对该材料进行区分,该分类方法所能达到的精度有限。

3、基于文本特征进行分类方法,虽然减少了大量人工挑选文本特征,但对于无文本的图片材料将无法进行分类,而无文本的图片材料也有比较多类型,因此无法进一步区分。

4、基于图像特征进行分类方法,可以快速处理大类医疗材本文档来自技高网...

【技术保护点】

1.一种多模态文本图像分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像,包括:

3.根据权利要求1所述的方法,其特征在于,所述利用预先训练的文本识别模型,从所述待识别图像中提取文本信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用预先训练的图像编码模型,对所述待识别图像进行特征提取,得到图像特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用预先训练的文本编码模型,对所述文本信息进行特征提取,得到文本特征,包括:

6.根据权利要求1所述的方法,其特征在于...

【技术特征摘要】

1.一种多模态文本图像分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像,包括:

3.根据权利要求1所述的方法,其特征在于,所述利用预先训练的文本识别模型,从所述待识别图像中提取文本信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述利用预先训练的图像编码模型,对所述待识别图像进行特征提取,得到图像特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述利用预先训练的文本编码模型,对所述文本信息进行特征提取,得到文本特征,包括:

6.根据...

【专利技术属性】
技术研发人员:邱佳梁陈琳吴伟佳姚吉呈
申请(专利权)人:微民保险代理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1