System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种图像分类的方法、装置、存储介质以及电子设备制造方法及图纸_技高网

一种图像分类的方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:40141678 阅读:5 留言:0更新日期:2024-01-23 23:43
本说明书公开了一种图像分类的方法、装置、存储介质及电子设备,用于隐私保护,可以获取待识别图像,对该待识别图像中包含的文本信息进行识别,得到识别结果,而后,根据该识别结果,确定待识别图像中包含的文本信息以及确定文本信息在待识别图像中的布局信息,待识别图像和文本信息输入到预先训练的分类模型中的第一特征提取层中,得到待识别图像的图像特征和文本信息的文本特征,以及将布局信息输入分类模型中的第二特征提取层中得到布局特征,通过分类模型中的特征融合层,将图像特征、文本特征以及布局特征进行融合,得到融合特征,并根据融合特征得到分类结果,根据分类结果,以对待识别图像进行图像分类,提高了图像分类的准确率。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种图像分类的方法、装置、存储介质以及电子设备


技术介绍

1、目前,在多种领域中均涉及对图像分类的任务,在图像分类中,可以通过人工智能技术,结合图像本身以及与该图像相关的文本,对图像进行分类。

2、例如,交易平台、社交平台等线上平台可以对用户上传的图像进行风险识别(如确定是否涉及个人的隐私数据泄露的风险)过程中,往往这种图像中包含一定的文字,而线上平台则可以结合图像以及图像中的文本,对图像进行风险识别;再例如,对图像中包含的目标物的图像进行分类时,可以结合图像以及图像中的文本进行目标物的分类。

3、在现有技术中,通常是将图像和从该图像中提取出的文本输入到分类模型中,以通过分类模型中针对图像的特征提取层,得到图像特征,以及通过分类模型中针对文本的特征提取层,得到文本特征,再通过图像特征和文本特征,对图像进行分类。

4、但是,现有的这种方式,往往分类模型在结合图像和文本进行图像分类时,无法很好的将图像和文本进行结合,进而使得无法更为准确地进行图像分类。

5、所以,如何提高图像分类的准确性,则是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种图像分类的方法、装置、存储介质及电子设备,以提高图像分类的准确性。

2、本说明书采用下述技术方案:

3、本说明书提供一种图像分类的方法,包括:

4、获取待识别图像;

5、对所述待识别图像中包含的文本信息进行识别,得到识别结果;

6、根据所述识别结果,确定所述待识别图像中包含的文本信息以及确定所述文本信息在所述待识别图像中的布局信息,所述布局信息用于表示所述文本信息在所述待识别图像中位于的图像区域在所述待识别图像中的布局情况;

7、将所述待识别图像和所述文本信息输入到预先训练的分类模型中的第一特征提取层中,得到所述待识别图像的图像特征和所述文本信息对应的文本特征,以及将所述布局信息输入到所述分类模型中的第二特征提取层中,得到布局特征;

8、通过所述分类模型中的特征融合层,将所述图像特征、文本特征以及所述布局特征进行融合,得到融合特征,并根据所述融合特征,得到针对所述待识别图像的分类结果;

9、根据所述分类结果,以对待识别图像进行图像分类。

10、可选地,根据所述识别结果,确定所述文本信息在所述待识别图像中的布局信息,包括:

11、根据所述识别结果,确定所述文本信息在所述待识别图像中所在区域各顶点的坐标信息;

12、根据所述各顶点的坐标信息以及所述待识别图像的尺寸,确定所述文本信息在所述待识别图像中的相关信息,所述相关信息包括所述文本信息在所述待识别图像中的位置信息、所述文本信息在所述待识别图像中的大小信息、所述文本信息在所述待识别图像中的形状信息以及所述文本信息在所述待识别图像中的文本长度信息中的至少一种;

13、根据所述相关信息,确定所述布局信息。

14、可选地,通过所述分类模型中的特征融合层,将所述图像特征、文本特征以及所述布局特征进行融合,得到融合特征,具体包括:

15、将所述图像特征、所述文本特征以及所述布局特征按照预设的先后排列顺序进行排序,得到特征序列,并将所述特征序列输入到所述特征融合层中,得到融合特征。

16、可选地,训练所述分类模型,包括:

17、获取样本图像以及所述样本图像对应的实际分类结果;

18、对所述样本图像中包含的文本信息进行识别,得到所述样本图像对应识别结果,并根据所述样本图像对应的识别结果,确定所述样本图像中包含的文本信息以及确定文本信息在所述样本图像中的布局信息;

19、将所述样本图像和所述样本图像中包含的文本信息输入到待训练的分类模型中的第一特征提取层中,得到所述样本图像的图像特征和所述样本图像中包含的文本信息的文本特征,以及将文本信息在所述样本图像中的布局信息输入到所述待训练的分类模型中的第二特征提取层中,得到布局特征;

20、通过所述分类模型中的特征融合层,将所述样本图像的图像特征、所述样本图像中包含的文本信息的文本特征以及文本信息在所述样本图像中的布局信息的布局特征进行融合,得到所述样本图像对应的融合特征,并根据所述样本图像对应的融合特征,得到针对所述样本图像的分类结果;

21、以最小化针对所述样本图像的分类结果与所述实际分类结果之间的差异为优化目标,对所述待训练的分类模型进行训练。

22、本说明书提供一种图像分类的装置,包括:

23、获取模块,用于获取待识别图像;

24、识别模块,用于对所述待识别图像中包含的文本信息进行识别,得到识别结果;

25、布局信息确定模块,用于根据所述识别结果,确定所述待识别图像中包含的文本信息以及确定所述文本信息在所述待识别图像中的布局信息,所述布局信息用于表示所述文本信息在所述待识别图像中位于的图像区域在所述待识别图像中的布局情况;

26、输入模块,用于将所述待识别图像和所述文本信息输入到预先训练的分类模型中的第一特征提取层中,得到所述待识别图像的图像特征和所述文本信息对应的文本特征,以及将所述布局信息输入到所述分类模型中的第二特征提取层中,得到布局特征;

27、融合模块,用于通过所述分类模型中的特征融合层,将所述图像特征、文本特征以及所述布局特征进行融合,得到融合特征,并根据所述融合特征,得到针对所述待识别图像的分类结果;

28、分类模块,用于根据所述分类结果,以对待识别图像进行图像分类。

29、可选地,所述布局信息确定模块具体用于,根据所述识别结果,确定所述文本信息在所述待识别图像中所在区域各顶点的坐标信息;根据所述各顶点的坐标信息以及所述待识别图像的尺寸,确定所述文本信息在所述待识别图像中的相关信息,所述相关信息包括所述文本信息在所述待识别图像中的位置信息、所述文本信息在所述待识别图像中的大小信息、所述文本信息在所述待识别图像中的形状信息以及所述文本信息在所述待识别图像中的文本长度信息中的至少一种;根据所述相关信息,确定所述布局信息。

30、可选地,所述融合模块具体用于,将所述图像特征、所述文本特征以及所述布局特征按照预设的先后排列顺序进行排序,得到特征序列,并将所述特征序列输入到所述特征融合层中,得到融合特征。

31、可选地,所述装置还包括:

32、训练模块,用于获取样本图像以及所述样本图像对应的实际分类结果;对所述样本图像中包含的文本信息进行识别,得到所述样本图像对应识别结果,并根据所述样本图像对应的识别结果,确定所述样本图像中包含的文本信息以及确定文本信息在所述样本图像中的布局信息;将所述样本图像和所述样本图像中包含的文本信息输入到待训练的分类模型中的第一特征提取层中,得到所述样本图像的图像特征和所述样本图像中包含的文本信息的文本特征,以及将文本本文档来自技高网...

【技术保护点】

1.一种图像分类的方法,包括:

2.如权利要求1所述的方法,根据所述识别结果,确定所述文本信息在所述待识别图像中的布局信息,包括:

3.如权利要求1所述的方法,通过所述分类模型中的特征融合层,将所述图像特征、文本特征以及所述布局特征进行融合,得到融合特征,具体包括:

4.如权利要求1所述的方法,训练所述分类模型,包括:

5.一种图像分类的装置,包括:

6.如权利要求5所述的装置,所述布局信息确定模块具体用于,根据所述识别结果,确定所述文本信息在所述待识别图像中所在区域各顶点的坐标信息;根据所述各顶点的坐标信息以及所述待识别图像的尺寸,确定所述文本信息在所述待识别图像中的相关信息,所述相关信息包括所述文本信息在所述待识别图像中的位置信息、所述文本信息在所述待识别图像中的大小信息、所述文本信息在所述待识别图像中的形状信息以及所述文本信息在所述待识别图像中的文本长度信息中的至少一种;根据所述相关信息,确定所述布局信息。

7.如权利要求5所述的装置,所述融合模块具体用于,将所述图像特征、所述文本特征以及所述布局特征按照预设的先后排列顺序进行排序,得到特征序列,并将所述特征序列输入到所述特征融合层中,得到融合特征。

8.如权利要求5所述的装置,所述装置还包括:

9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~4任一项所述的方法。

10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~4任一项所述的方法。

...

【技术特征摘要】

1.一种图像分类的方法,包括:

2.如权利要求1所述的方法,根据所述识别结果,确定所述文本信息在所述待识别图像中的布局信息,包括:

3.如权利要求1所述的方法,通过所述分类模型中的特征融合层,将所述图像特征、文本特征以及所述布局特征进行融合,得到融合特征,具体包括:

4.如权利要求1所述的方法,训练所述分类模型,包括:

5.一种图像分类的装置,包括:

6.如权利要求5所述的装置,所述布局信息确定模块具体用于,根据所述识别结果,确定所述文本信息在所述待识别图像中所在区域各顶点的坐标信息;根据所述各顶点的坐标信息以及所述待识别图像的尺寸,确定所述文本信息在所述待识别图像中的相关信息,所述相关信息包括所述文本信息在所述待识别图像中的位置信息、所述文本信息在所述待识别...

【专利技术属性】
技术研发人员:蔡瑜恒赵智源
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1