System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种融合生成视觉的文本分类方法和系统技术方案_技高网

一种融合生成视觉的文本分类方法和系统技术方案

技术编号:40804748 阅读:2 留言:0更新日期:2024-03-28 19:29
本申请涉及多模态处理技术,并且更具体地涉及一种融合生成视觉的文本分类方法和系统、训练视觉生成器的方法和系统以及实现上述方法的计算机可读存储介质。按照本申请的一个方面,提供一种文本分类方法,包括:获取待处理文本的文本特征向量;利用视觉生成器,基于待处理文本的文本特征向量和随机噪声生成视觉图像;对文本特征向量进行编码以得到语义编码,以及对视觉图像进行编码以得到视觉编码;以及组合语义编码和视觉编码并基于所述语义编码和所述视觉编码的组合生成针对待处理文本的分类结果。通过生成的方式获取文本对应的视觉图像信息,解决或至少缓解在众多场景中,难以获取到与文本相匹配的图片来作为分类模型的额外信息输入的问题。

【技术实现步骤摘要】

本申请涉及多模态处理技术,并且更具体地涉及一种融合生成视觉的文本分类方法和系统、训练视觉生成器的方法和系统以及实现上述方法的计算机可读存储介质。


技术介绍

1、随着人工智能领域的发展,利用机器学习根据单一模态的信息进行分类的技术已十分成熟。随着信息内容越来越丰富,往往需要同时根据多种模态的信息来综合判断以进行内容分类,例如根据用户评论中的文本、图像、结构化表格数据等多种模态的信息进行商户划分。随着多模态处理方法在人工智能领域的发展,期望将多模态处理方法引入到各种各样的分类场景中。

2、目前,基于多模态处理的文本分类方法是在文本输入的基础上增加同文本匹配的图片作为额外信息输入,来提高模型分类结果的准确性。然而,在众多场景中,难以获取到同文本相匹配的图片来作为模型的额外信息输入,极大地限制了多模态处理的文本分类方法在各种文本分类领域的应用。


技术实现思路

1、为了解决或至少缓解以上面临的问题,本申请提供了以下技术方案。

2、按照本申请的第一方面,提供一种用于训练视觉生成器的方法,所述视觉生成器包括生成模型和判别模型,所述方法包括下列步骤:获取多个文本的每个文本的文本特征向量和对应于所述每个文本的视觉图像作为生成模型训练集;利用所述生成模型训练集来训练所述生成模型,以得到训练的生成模型;利用所述训练的生成模型处理输入文本的文本特征向量以生成对应于所述输入文本的文本特征向量的视觉图像集;以及至少将所述视觉图像集和标注图像集作为判别模型训练集来训练所述判别模型,以得到训练的判别模型。

3、根据本申请一实施例所述的用于训练视觉生成器的方法,其中获取多个文本的每个文本的文本特征向量包括:从文本数据库中获取多个文本;对所述多个文本的每个文本进行预处理,其中所述预处理用于滤除所述文本中的符号和停用词;以及由预处理后的文本生成所述文本特征向量。

4、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述判别模型训练集还包括对应于所述视觉图像集的标签集和对应于所述标注图像集的标签集。

5、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中利用所述生成模型训练集来训练所述生成模型包括:利用所述生成模型训练集来训练所述生成模型,使得所述生成模型学习基于文本的文本特征向量生成对应于所述文本的视觉图像。

6、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述生成模型基于以下中的一个或多个来构建:生成对抗网络、变量自动编码器和基于流的生成模型。

7、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中至少将所述视觉图像集和标注图像集作为判别模型训练集来训练所述判别模型包括:利用所述判别模型训练集来训练所述判别模型,使得所述判别模型学习基于所述视觉图像集生成针对所述视觉图像集中的每个视觉图像的得分,所述得分指示所述每个视觉图像的质量以及所述输入文本与所述视觉图像集中的对应视觉图像之间的关联性。

8、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述方法还包括:构建用于训练所述生成模型和所述判别模型的目标函数,所述目标函数包括第一目标函数和第二目标函数;在固定所述生成模型的情况下利用所述判别模型训练集以最大化所述第一目标函数和所述第二目标函数为目标来训练所述判别模型,得到训练的判别模型;以及在固定所述训练的判别模型的情况下利用所述判别模型训练集以最小化所述第二目标函数为目标来训练所述生成模型,得到训练的生成模型。

9、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述第一目标函数用于确定所述训练的判别模型将所述判别模型训练集中的所述标注图像集的真实样本判别为真的概率。

10、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述第二目标函数用于确定所述判别模型训练集中的所述视觉图像集中的视觉图像与所述标注图像集的真实样本之间的距离。

11、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述方法还包括:交替地进行训练所述判别模型的步骤和训练所述生成模型的步骤;响应于所述第一目标函数确定的所述概率和所述第二目标函数确定的所述距离的总和大于第一阈值而得到确定的判别模型;以及响应于所述第二目标函数确定的距离小于第二阈值而得到确定的生成模型。

12、根据本申请一实施例或以上任一实施例的所述的用于训练视觉生成器的方法,其中所述方法还包括:基于所述确定的判别模型和所述确定的生成模型得到训练的视觉生成器。

13、按照本申请的第二方面,提供一种用于训练视觉生成器的系统,所述视觉生成器包括生成模型和判别模型,所述系统包括:获取单元,其配置成获取多个文本的每个文本的文本特征向量和对应于所述每个文本的视觉图像作为生成模型训练集;第一训练单元,其配置成利用所述生成模型训练集来训练所述生成模型,以得到训练的生成模型;处理单元,其配置成利用所述训练的生成模型处理输入文本的文本特征向量以生成对应于所述输入文本的文本特征向量的视觉图像集;以及第二训练单元,其配置成至少将所述视觉图像集和标注图像集作为判别模型训练集来训练所述判别模型,以得到训练的判别模型。

14、根据本申请的第三方面,提供一种计算机可读存储介质,其包括指令,所述指令在运行时执行根据本申请第一方面所述的用于训练视觉生成器的方法的步骤。

15、根据本申请的第四方面,提供一种对文本进行分类的方法,所述方法包括下列步骤:获取待处理文本的文本特征向量;利用视觉生成器,基于所述待处理文本的文本特征向量和随机噪声生成视觉图像,其中所述视觉生成器利用根据本申请第一方面所述的用于训练视觉生成器的方法进行训练;对所述文本特征向量进行编码以得到语义编码,以及对所述视觉图像进行编码以得到视觉编码;以及组合所述语义编码和所述视觉编码并基于所述语义编码和所述视觉编码的组合生成针对所述待处理文本的分类结果。

16、根据本申请的第五方面,提供一种对文本进行分类的系统,所述系统包括:获取单元,其配置成获取待处理文本的文本特征向量;视觉生成器,其配置成基于所述待处理文本的文本特征向量和随机噪声生成视觉图像,其中所述视觉生成器利用根据本申请第一方面所述的用于训练视觉生成器的方法进行训练;编码单元,其配置成对所述文本特征向量进行编码以得到语义编码,以及对所述视觉图像进行编码以得到视觉编码;以及处理单元,其配置成组合所述语义编码和所述视觉编码并基于所述语义编码和所述视觉编码的组合生成针对所述待处理文本的分类结果。

17、根据本申请的第六方面,提供一种计算机可读存储介质,其包括指令,所述指令在运行时执行根据本申请第四方面所述的对文本进行分类的方法的步骤。

18、在本申请的一些实施例中,能够利用训练的视觉生成器基于待处理文本的文本特征向量和随机噪声生成对应于所本文档来自技高网...

【技术保护点】

1.一种用于训练视觉生成器的方法,其特征在于,所述视觉生成器包括生成模型和判别模型,所述方法包括下列步骤:

2.根据权利要求1所述的方法,其中获取多个文本的每个文本的文本特征向量包括:

3.根据权利要求1所述的方法,其中所述判别模型训练集还包括对应于所述视觉图像集的标签集和对应于所述标注图像集的标签集。

4.根据权利要求1所述的方法,其中利用所述生成模型训练集来训练所述生成模型包括:

5.根据权利要求1所述的方法,其中所述生成模型基于以下中的一个或多个来构建:生成对抗网络、变量自动编码器和基于流的生成模型。

6.根据权利要求1所述的方法,其中至少将所述视觉图像集和标注图像集作为判别模型训练集来训练所述判别模型包括:

7.根据权利要求1所述的方法,其中所述方法还包括:

8.根据权利要求7所述的方法,其中所述第一目标函数用于确定所述训练的判别模型将所述判别模型训练集中的所述标注图像集的真实样本判别为真的概率。

9.根据权利要求7所述的方法,其中所述第二目标函数用于确定所述判别模型训练集中的所述视觉图像集中的视觉图像与所述标注图像集的真实样本之间的距离。

10.根据权利要求7-9中任一项所述的方法,其中所述方法还包括:

11.根据权利要求10所述的方法,其中所述方法还包括:

12.一种用于训练视觉生成器的系统,其特征在于,所述视觉生成器包括生成模型和判别模型,所述系统包括:

13.根据权利要求12所述的系统,其中所述获取单元进一步配置成:

14.根据权利要求12所述的系统,其中所述判别模型训练集还包括对应于所述视觉图像集的标签集和对应于所述标注图像集的标签集。

15.根据权利要求12所述的系统,其中所述第一训练单元进一步配置成:

16.根据权利要求12所述的系统,其中所述生成模型基于以下中的一个或多个来构建:生成对抗网络、变量自动编码器和基于流的生成模型。

17.根据权利要求12所述的系统,其中所述第二训练单元进一步配置成:

18.根据权利要求12所述的系统,其中所述系统还包括第三训练单元,所述第三训练单元配置成:

19.根据权利要求18所述的系统,其中所述第一目标函数用于确定所述训练的判别模型将所述判别模型训练集中的所述标注图像集的真实样本判别为真的概率。

20.根据权利要求18所述的系统,其中所述第二目标函数用于确定所述判别模型训练集中的所述视觉图像集中的视觉图像与所述标注图像集的真实样本之间的距离。

21.根据权利要求18-20中任一项所述的系统,其中所述第三训练单元进一步配置成:

22.根据权利要求21所述的系统,其中所述第三训练单元进一步配置成:

23.一种计算机可读存储介质,其特征在于,所述计算机存储介质包括指令,所述指令在运行时执行根据权利要求1-11中的任一项所述的用于训练视觉生成器的方法。

24.一种对文本进行分类的方法,其特征在于,所述方法包括下列步骤:

25.根据权利要求24所述的方法,其中获取待处理文本的文本特征向量包括:

26.根据权利要求24所述的方法,其中所述随机噪声服从标准正态分布。

27.根据权利要求24所述的方法,其中对所述文本特征向量进行编码以得到语义编码包括:

28.根据权利要求24所述的方法,其中对所述视觉图像进行编码以得到视觉编码包括:

29.根据权利要求24所述的方法,其中组合所述语义编码和所述视觉编码包括:

30.根据权利要求24所述的方法,其中基于所述语义编码和所述视觉编码的组合生成针对所述待处理文本的分类结果包括:

31.一种对文本进行分类的系统,其特征在于,所述系统包括:

32.根据权利要求31所述的系统,其中所述获取单元进一步配置成:

33.根据权利要求31所述的系统,其中所述随机噪声服从标准正态分布。

34.根据权利要求31所述的系统,其中所述编码单元包括语义编码器,所述语义编码器用于对所述文本特征向量进行编码以得到语义编码并且包括以下中的一种或多个:BERT-base模型、ERNIE模型、GPT模型。

35.根据权利要求31所述的系统,其中所述编码单元包括图编码器,所述图编码器用于对所述视觉图像进行编码以得到视觉编码并且包括以下中的一种或多个:VGG模型、ResNet模型。

36.根据权利要求31所述的系统,其中所述处理单元进一步配置成:

37...

【技术特征摘要】

1.一种用于训练视觉生成器的方法,其特征在于,所述视觉生成器包括生成模型和判别模型,所述方法包括下列步骤:

2.根据权利要求1所述的方法,其中获取多个文本的每个文本的文本特征向量包括:

3.根据权利要求1所述的方法,其中所述判别模型训练集还包括对应于所述视觉图像集的标签集和对应于所述标注图像集的标签集。

4.根据权利要求1所述的方法,其中利用所述生成模型训练集来训练所述生成模型包括:

5.根据权利要求1所述的方法,其中所述生成模型基于以下中的一个或多个来构建:生成对抗网络、变量自动编码器和基于流的生成模型。

6.根据权利要求1所述的方法,其中至少将所述视觉图像集和标注图像集作为判别模型训练集来训练所述判别模型包括:

7.根据权利要求1所述的方法,其中所述方法还包括:

8.根据权利要求7所述的方法,其中所述第一目标函数用于确定所述训练的判别模型将所述判别模型训练集中的所述标注图像集的真实样本判别为真的概率。

9.根据权利要求7所述的方法,其中所述第二目标函数用于确定所述判别模型训练集中的所述视觉图像集中的视觉图像与所述标注图像集的真实样本之间的距离。

10.根据权利要求7-9中任一项所述的方法,其中所述方法还包括:

11.根据权利要求10所述的方法,其中所述方法还包括:

12.一种用于训练视觉生成器的系统,其特征在于,所述视觉生成器包括生成模型和判别模型,所述系统包括:

13.根据权利要求12所述的系统,其中所述获取单元进一步配置成:

14.根据权利要求12所述的系统,其中所述判别模型训练集还包括对应于所述视觉图像集的标签集和对应于所述标注图像集的标签集。

15.根据权利要求12所述的系统,其中所述第一训练单元进一步配置成:

16.根据权利要求12所述的系统,其中所述生成模型基于以下中的一个或多个来构建:生成对抗网络、变量自动编码器和基于流的生成模型。

17.根据权利要求12所述的系统,其中所述第二训练单元进一步配置成:

18.根据权利要求12所述的系统,其中所述系统还包括第三训练单元,所述第三训练单元配置成:

19.根据权利要求18所述的系统,其中所述第一目标函数用于确定所述训练的判别模型将所述判别模型训练集中的所述标注图像集的真实样本判别为真的概率。

20.根据权利要求18所述的系统,其中所述第二目标函数用于确...

【专利技术属性】
技术研发人员:顾河建郑建宾高鹏飞
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1