System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据分析方法、装置、电子设备及存储介质制造方法及图纸_技高网

数据分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40980750 阅读:4 留言:0更新日期:2024-04-18 21:27
本申请提供一种数据分析方法、装置、电子设备及存储介质。该方法包括:基于查询请求从金融数据库中获取对应的图片数据、结构化数据和文本数据;分别对图片数据、结构化数据和文本数据进行特征提取,获得图片特征、结构化特征和文本特征;将图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得多模态交互编码模型将文本特征与所述图片特征和结构化特征对齐,获得对齐后的特征向量;基于对齐后的特征向量进行分析,获得查询请求对应的分析结果。本申请实施例对金融领域的多模态数据进行分析,在分析之前,由于多模态数据中图片数据和文本数据没有对齐,本申请将其进行对齐处理后再进行分析,提高了分析的准确性。

【技术实现步骤摘要】

本申请涉及大数据处理,具体而言,涉及一种数据分析方法、装置、电子设备及存储介质


技术介绍

1、在智能投顾系统中通常有图像、文字、财务报表和其他非结构化的网络关系图数据,这些多模态信息对于投资决策和市场分析非常重要,因此能够很好地掌握和分析金融领域中的数据对于交易决策和智能投顾非常重要。

2、现有技术中对金融领域中的数据往往是通过单一种类的数据进行分析,获得分析结果,其分析准确率较低。


技术实现思路

1、本申请实施例的目的在于提供一种数据分析方法、装置、电子设备及存储介质,用以提高对数据分析的准确性。

2、第一方面,本申请实施例提供一种数据分析方法,包括:

3、基于查询请求从金融数据库中获取对应的图片数据、结构化数据和文本数据;

4、分别对图片数据、结构化数据和文本数据进行特征提取,获得图片特征、结构化特征和文本特征;

5、将图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得多模态交互编码模型将文本特征与所述图片特征和结构化特征对齐,获得对齐后的特征向量;

6、基于对齐后的特征向量进行分析,获得查询请求对应的分析结果。

7、本申请实施例对金融领域的多模态数据进行分析,在分析之前,由于多模态数据中图片数据和文本数据没有对齐,本申请将其进行对齐处理后再进行分析,提高了分析的准确性。

8、在任一实施例中,将图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得多模态交互编码模型将文本特征与图片特征和结构化特征对齐,获得对齐后的特征向量,包括:

9、通过多模态交互编码模型中的图片特征映射层对图片特征进行特征映射,获得图片特征映射结果;

10、通过多模态交互编码模型中的结构化特征映射层对结构化特征进行特征映射,获得结构化特征映射结果;

11、通过多模态交互编码模型中的文本特征映射层对文本特征进行特征映射,获得文本特征映射结果;

12、通过多模态交互编码模型中的联合特征提取层对图片特征映射结果和结构化特征映射结果进行联合编码,获得联合编码结果;

13、将联合编码结果和文本特征映射结果输入交互对齐层,获得对齐后的特征向量。

14、本申请实施例通过将图片数据和结构化数据的联合编码结果与文本数据的文本特征映射结果进行对齐,从而使得分析的数据依据可以在相同的范围内,提高了数据分析的准确性。

15、在任一实施例中,分别对图片数据、结构化数据和文本数据进行特征提取,包括:

16、将图片数据、结构化数据和文本数据输入特征提取层进行特征提取;其中,特征提取层包括图片编码器、结构化数据编码器和文本编码器。

17、在任一实施例中,图片编码器包括transformer架构,结构化数据编码器包括cnn架构,文本编码器包括bert架构。

18、本申请实施例通过利用各自对应的编码器对对应的图片数据、结构化数据和文本数据进行特征提取,从而提取到各自的特征向量,以便于后续进行分析。

19、在任一实施例中,该方法还包括:

20、获取训练样本对,其中,训练样本对包括锚定样本、正样本和负样本;其中,锚定样本包括训练图片数据和训练结构化数据,正样本为与所述锚定样本对齐的训练文本数据,负样本为与所述锚定样本不对齐的训练文本数据;

21、对锚定样本进行特征提取,获得锚定特征;

22、对正样本进行特征提取,获得正样本特征;

23、对负样本进行特征提取,获得负样本特征;

24、将锚定特征、正样本特征和负样本特征输入损失函数中,并基于损失值对待训练的多模态交互编码模型中的内部参数进行优化,获得训练后的多模态交互编码模型。

25、本申请实施例通过预先训练多模态交互编码模型,使得训练好的多模态交互编码模型能够较准确地对金融数据进行分析。

26、在任一实施例中,损失函数为:max(d(a,p)-d(a,n)+m,0);

27、其中,a为锚定特征;p为正样本特征;n为负样本特征;m为类内和类间的距离余量;d(a,p)为锚定样本和正样本之间的距离;d(a,n)为锚定样本和负样本之间的距离。

28、本申请实施例通过利用triplet loss对多模态交互编码模型的参数进行优化,在极小化预测值和输出值的误差的情况下,通过迭代训练的方式获得模型的参数,从而可以获得性能较好的训练后的多模态交互编码模型。

29、在任一实施例中,基于查询请求从金融数据库中获取对应的图片数据、结构化数据和文本数据,包括:

30、对查询请求进行解析,获得用户的意图;

31、根据用户的意图从金融数据库中获取对应的图片数据、结构化数据和文本数据。

32、本申请实施例中,金融数据库中存储了金融相关的数据,从而支持用户从中查询所需的数据,用以后续分析。

33、第二方面,本申请实施例提供一种数据分析装置,包括:

34、数据查询模块,用于基于查询请求从金融数据库中获取对应的图片数据、结构化数据和文本数据。

35、特征提取模块,用于分别对图片数据、结构化数据和文本数据进行特征提取,获得图片特征、结构化特征和文本特征;

36、对齐模块,用于将所述图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得多模态交互编码模型将文本特征与图片特征和结构化特征对齐,获得对齐后的特征向量;

37、分析模块,用于基于对齐后的特征向量进行分析,获得查询请求对应的分析结果。

38、第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,

39、所述处理器和所述存储器通过所述总线完成相互间的通信;

40、所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。

41、第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:

42、所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。

43、本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本文档来自技高网...

【技术保护点】

1.一种数据分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得所述多模态交互编码模型将所述文本特征与所述图片特征和所述结构化特征对齐,获得对齐后的特征向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述分别对所述图片数据、结构化数据和文本数据进行特征提取,包括:

4.根据权利要求3所述的方法,其特征在于,所述图片编码器包括transformer架构,所述结构化数据编码器包括CNN架构,所述文本编码器包括BERT架构。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述损失函数为:max(d(A,P)-d(A,N)+m,0);

7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于查询请求从金融数据库中获取对应的图片数据、结构化数据和文本数据,包括:

8.一种数据分析装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,

10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种数据分析方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述图片特征、结构化特征和文本特征输入多模态交互编码模型中,使得所述多模态交互编码模型将所述文本特征与所述图片特征和所述结构化特征对齐,获得对齐后的特征向量,包括:

3.根据权利要求1所述的方法,其特征在于,所述分别对所述图片数据、结构化数据和文本数据进行特征提取,包括:

4.根据权利要求3所述的方法,其特征在于,所述图片编码器包括transformer架构,所述结构化数据编码器包括cnn架构,所述文本编码器包括bert架构。

5.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:朱帅戴辉吕坚平
申请(专利权)人:上海天数智芯半导体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1