利用神经网络处理多模态数据的方法、设备和介质技术

技术编号:31492741 阅读:38 留言:0更新日期:2021-12-18 12:30
本公开提供了一种利用神经网络处理多模态数据的方法、设备和介质,涉及人工智能领域,具体涉及多模态数据处理、视频分类技术和深度学习技术。该神经网络包括:输入子网络,被配置为接收多模态数据以输出多个模态各自的第一特征;多个跨模态特征子网络,并被配置为接收对应的两个模态各自的第一特征,以输出对应于两个模态的跨模态特征;多个跨模态融合子网络,每一个跨模态融合子网络被配置为接收对应于相应的目标模态和其他模态的至少一个跨模态特征,以输出目标模态的第二特征;以及输出子网络,被配置为接收多个模态各自的第二特征以输出对多模态数据的处理结果。以输出对多模态数据的处理结果。以输出对多模态数据的处理结果。

【技术实现步骤摘要】
利用神经网络处理多模态数据的方法、设备和介质


[0001]本公开涉及人工智能领域,具体涉及多模态数据处理、视频分类技术和深度学习技术,特别涉及一种用于多模态数据的神经网络、利用神经网络处理多模态数据的方法、神经网络训练方法、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]近年来,随着软硬件技术的快速发展,多模态数据逐渐成为信息传递的主要方式之一。在多模态数据分发、多模态数据压缩、多模态数据分类等场景下,均需要对多模态数据进行处理。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种用于多模态数据的神经网络、利用神经网络处理多模态数据的方法、神经网络训练方法、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种用于多模态数据的神经网络,包括:输入子网络,输入子网络被配置为接收多模态数据以输出多模态数据所包括的多个模态各自的第一特征;多个跨模态特征子网络,多个跨模态特征子网络中的每一个对应多个模态中的两个模态,每一个跨模态特征子网络被配置为接收两个模态各自的第一特征,以输出对应于两个模态的跨模态特征;与多个模态一一对应的多个跨模态融合子网络,多个跨模态融合子网络中的每一个跨模态融合子网络被配置为针对与该跨模态融合子网络对应的目标模态,接收对应于目标模态的至少一个跨模态特征,以输出目标模态的第二特征;以及输出子网络,输出子网络被配置为接收多个模态各自的第二特征以输出对多模态数据的处理结果。
[0007]根据本公开的另一方面,提供了一种利用神经网络处理多模态数据的方法,神经网络包括顺序连接的输入子网络、并列的多个跨模态特征子网络、并列的多个跨模态融合子网络和输出子网络,其中,多个跨模态特征子网络中的每一个对应多模态数据所包括的多个模态中的两个模态,并且多个跨模态融合子网络与多个模态一一对应。其中,方法包括:将多模态数据输入输入子网络,以获取输入子网络输出的多个模态各自的第一特征;将多个模态中的每两个模态各自的第一特征输入对应的跨模态特征子网络,以获取多个跨模态特征子网络各自输出的对应于相应的两个模态的跨模态特征;针对多个模态中的每一个
模态,将对应于该模态的至少一个跨模态特征输入与该模态对应的跨模态融合子网络,以获取多个跨模态融合子网络各自输出的相应的模态的第二特征;以及将多个模态各自的第二特征输入输出子网络,以获取输出子网络输出的对多模态数据的处理结果。
[0008]根据本公开的另一方面,提供了一种神经网络训练方法,包括:获取样本多模态数据和样本多模态数据的真实标签;将样本多模态数据输入上述神经网络,以获取神经网络输出的样本多模态数据的预测标签;基于预测标签和真实标签,计算损失值;以及基于损失值,调整神经网络的参数。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0012]根据本公开的一个或多个实施例,通过计算不同模态之间的跨模态特征,并且针对每个模态,基于与该模态对应的所有跨模态特征得到该模态的全局特征,而后基于每个模态的全局特征以对多模态数据进行分析,实现了各模态特征间的深度融合,加强了各模态特征间的交互,使得能够有效促进神经网络对多模态数据的深层次理解,提升了对多模态数据的处理结果的可信度和准确性。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开示例性实施例的用于多模态数据的神经网络的结构框图;
[0017]图3示出了根据本公开示例性实施例的输入子网络的结构框图;
[0018]图4示出了根据本公开示例性实施例的用于多模态数据的神经网络的结构框图;
[0019]图5示出了根据本公开示例性实施例的用于多模态数据的神经网络的结构框图;
[0020]图6示出了根据本公开示例性实施例的跨模态特征子网络的结构框图;
[0021]图7示出了根据本公开示例性实施例的利用神经网络处理多模态数据的方法的流程图;
[0022]图8示出了根据本公开示例性实施例的利用神经网络处理多模态数据的方法的流程图;
[0023]图9示出了根据本公开示例性实施例的神经网络训练方法的流程图;以及
[0024]图10出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0027]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于多模态数据的神经网络,包括:输入子网络,所述输入子网络被配置为接收所述多模态数据以输出所述多模态数据所包括的多个模态各自的第一特征;多个跨模态特征子网络,所述多个跨模态特征子网络中的每一个对应所述多个模态中的两个模态,所述每一个跨模态特征子网络被配置为接收所述两个模态各自的所述第一特征,以输出对应于所述两个模态的跨模态特征;与所述多个模态一一对应的多个跨模态融合子网络,所述多个跨模态融合子网络中的每一个跨模态融合子网络被配置为针对与该跨模态融合子网络对应的目标模态,接收对应于所述目标模态的至少一个跨模态特征,以输出所述目标模态的第二特征;以及输出子网络,所述输出子网络被配置为接收所述多个模态各自的所述第二特征以输出对所述多模态数据的处理结果。2.如权利要求1所述的网络,还包括:第一相关性计算子网络,所述第一相关性计算子网络被配置为计算所述多个模态中的每两个模态之间的相关性系数,其中,所述每一个跨模态融合子网络被进一步配置为基于所述至少一个跨模态特征各自对应的两个模态之间的相关性系数,融合所述至少一个跨模态特征,以输出所述目标模态的所述第二特征。3.如权利要求1所述的网络,其中,所述每一个跨模态特征子网络被进一步配置为针对与该跨模态特征子网络对应的第一模态和第二模态,输出所述第一模态对于所述第二模态的第一跨模态特征和所述第二模态对于所述第一模态的第二跨模态特征,并且其中,所述每一个跨模态融合子网络被进一步配置为接收所述目标模态分别对于所述至少一个其他模态的至少一个跨模态特征,以输出所述目标模态的所述第二特征。4.如权利要求3所述的网络,其中,所述输入子网络被进一步配置为将所述多个模态各自的所述第一特征映射为查询特征、键特征和值特征以输出,其中,所述每一个跨模态特征子网络被进一步配置为:接收相应的第一模态的查询特征、键特征和值特征以及相应的第二模态的查询特征、键特征和值特征;基于所述相应的第一模态的查询特征、所述相应的第二模态的键特征和所述相应的第二模态的值特征,确定所述第一跨模态特征;以及基于所述相应的第二模态的查询特征、所述相应的第一模态的键特征和所述相应的第一模态的值特征,确定所述第二跨模态特征。5.如权利要求3所述的网络,还包括:第二相关性计算子网络,所述第二相关性计算子网络被配置为确定所述多个模态中的每一个模态对于除该模态外的每一个其他模态的相关性系数,其中,所述相关性系数是至少基于对应的两个模态各自的第一特征确定的,其中,所述每一个跨模态融合子网络被进一步配置为基于所述目标模态分别对于所述至少一个其他模态的至少一个相关性系数,融合所述目标模态对于所述至少一个其他模态的至少一个跨模态特征,以输出所述目标模态的所述第二特征。6.如权利要求5所述的网络,其中,所述第二相关性计算子网络被进一步配置为针对所
述多个模态中的每一个模态,将该模态对于除该模态外的每一个其他模态的相关性系数进行归一化。7.如权利要求1所述的网络,其中,所述输入子网络包括:与所述多个模态一一对应的多个特征提取子网络,所述多个特征提取子网络中的每一个特征提取子网络被配置为:基于所述多模态数据中的与该特征提取子网络对应的模态的数据,确定该模态的初始特征序列,所述初始特征序列中的每一项对应该模态的数据的一部分;以及至少基于所述初始特征序列,确定该模态的所述第一特征。8.如权利要求7所述的网络,其中,至少基于所述初始特征序列,确定该模态的所述第一特征包括:基于所述初始特征序列,确定第一特征分量;确定第二特征分量,所述第二特征分量能够指示该模态的类型;以及基于所述第一特征分量和所述第二特征分量,确定该模态的所述第一特征。9.如权利要求8所述的网络,其中,所述第一特征分量是通过对所述初始特征序列进行最大池化而确定的。10.如权利要求1

9中任一项所述的网络,其中,所述多模态数据为视频数据。11.如权利要求10所述的网络,其中,所述多个模态包括图像模态、文本模态和音频模态。12.一种利用神经网络处理多模态数据的方法,所述神经网络包括顺序连接的输入子网络、并列的多个跨模态特征子网络、并列的多个跨模态融合子网络和输出子网络,其中,所述多个跨模态特征子网络中的每一个对应所述多模态数据所包括的多个模态中的两个模态,并且所述多个跨模态融合子网络与所述多个模态一一对应,其中,所述方法包括:将所述多模态数据输入所述输入子网络,以获取所述输入子网络输出的所述多个模态各自的第一特征;将所述多个模态中的每两个模态各自的所述第一特征输入对应的跨模态特征子网络,以获取所述多个跨模态特征子网络各自输出的对应于相应的两个模态的跨模态特征;针对所述多个模态中的每一个模态,将对应于该模态的至少一个跨模态特征输入与该模态对应的跨模态融合子网络,以获取所述多个跨模态融合...

【专利技术属性】
技术研发人员:陈帅汪琦杨虎贺峰冯知凡柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1