【技术实现步骤摘要】
利用神经网络处理多模态数据的方法、设备和介质
[0001]本公开涉及人工智能领域,具体涉及多模态数据处理、视频分类技术和深度学习技术,特别涉及一种用于多模态数据的神经网络、利用神经网络处理多模态数据的方法、神经网络训练方法、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]近年来,随着软硬件技术的快速发展,多模态数据逐渐成为信息传递的主要方式之一。在多模态数据分发、多模态数据压缩、多模态数据分类等场景下,均需要对多模态数据进行处理。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0005]本公开提供了一种用于多模态数据的神经网络、利用神经网络处理多模态数据的方法、神经网络训练方法、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种用于多模态数据的神经网络, ...
【技术保护点】
【技术特征摘要】
1.一种用于多模态数据的神经网络,包括:输入子网络,所述输入子网络被配置为接收所述多模态数据以输出所述多模态数据所包括的多个模态各自的第一特征;多个跨模态特征子网络,所述多个跨模态特征子网络中的每一个对应所述多个模态中的两个模态,所述每一个跨模态特征子网络被配置为接收所述两个模态各自的所述第一特征,以输出对应于所述两个模态的跨模态特征;与所述多个模态一一对应的多个跨模态融合子网络,所述多个跨模态融合子网络中的每一个跨模态融合子网络被配置为针对与该跨模态融合子网络对应的目标模态,接收对应于所述目标模态的至少一个跨模态特征,以输出所述目标模态的第二特征;以及输出子网络,所述输出子网络被配置为接收所述多个模态各自的所述第二特征以输出对所述多模态数据的处理结果。2.如权利要求1所述的网络,还包括:第一相关性计算子网络,所述第一相关性计算子网络被配置为计算所述多个模态中的每两个模态之间的相关性系数,其中,所述每一个跨模态融合子网络被进一步配置为基于所述至少一个跨模态特征各自对应的两个模态之间的相关性系数,融合所述至少一个跨模态特征,以输出所述目标模态的所述第二特征。3.如权利要求1所述的网络,其中,所述每一个跨模态特征子网络被进一步配置为针对与该跨模态特征子网络对应的第一模态和第二模态,输出所述第一模态对于所述第二模态的第一跨模态特征和所述第二模态对于所述第一模态的第二跨模态特征,并且其中,所述每一个跨模态融合子网络被进一步配置为接收所述目标模态分别对于所述至少一个其他模态的至少一个跨模态特征,以输出所述目标模态的所述第二特征。4.如权利要求3所述的网络,其中,所述输入子网络被进一步配置为将所述多个模态各自的所述第一特征映射为查询特征、键特征和值特征以输出,其中,所述每一个跨模态特征子网络被进一步配置为:接收相应的第一模态的查询特征、键特征和值特征以及相应的第二模态的查询特征、键特征和值特征;基于所述相应的第一模态的查询特征、所述相应的第二模态的键特征和所述相应的第二模态的值特征,确定所述第一跨模态特征;以及基于所述相应的第二模态的查询特征、所述相应的第一模态的键特征和所述相应的第一模态的值特征,确定所述第二跨模态特征。5.如权利要求3所述的网络,还包括:第二相关性计算子网络,所述第二相关性计算子网络被配置为确定所述多个模态中的每一个模态对于除该模态外的每一个其他模态的相关性系数,其中,所述相关性系数是至少基于对应的两个模态各自的第一特征确定的,其中,所述每一个跨模态融合子网络被进一步配置为基于所述目标模态分别对于所述至少一个其他模态的至少一个相关性系数,融合所述目标模态对于所述至少一个其他模态的至少一个跨模态特征,以输出所述目标模态的所述第二特征。6.如权利要求5所述的网络,其中,所述第二相关性计算子网络被进一步配置为针对所
述多个模态中的每一个模态,将该模态对于除该模态外的每一个其他模态的相关性系数进行归一化。7.如权利要求1所述的网络,其中,所述输入子网络包括:与所述多个模态一一对应的多个特征提取子网络,所述多个特征提取子网络中的每一个特征提取子网络被配置为:基于所述多模态数据中的与该特征提取子网络对应的模态的数据,确定该模态的初始特征序列,所述初始特征序列中的每一项对应该模态的数据的一部分;以及至少基于所述初始特征序列,确定该模态的所述第一特征。8.如权利要求7所述的网络,其中,至少基于所述初始特征序列,确定该模态的所述第一特征包括:基于所述初始特征序列,确定第一特征分量;确定第二特征分量,所述第二特征分量能够指示该模态的类型;以及基于所述第一特征分量和所述第二特征分量,确定该模态的所述第一特征。9.如权利要求8所述的网络,其中,所述第一特征分量是通过对所述初始特征序列进行最大池化而确定的。10.如权利要求1
‑
9中任一项所述的网络,其中,所述多模态数据为视频数据。11.如权利要求10所述的网络,其中,所述多个模态包括图像模态、文本模态和音频模态。12.一种利用神经网络处理多模态数据的方法,所述神经网络包括顺序连接的输入子网络、并列的多个跨模态特征子网络、并列的多个跨模态融合子网络和输出子网络,其中,所述多个跨模态特征子网络中的每一个对应所述多模态数据所包括的多个模态中的两个模态,并且所述多个跨模态融合子网络与所述多个模态一一对应,其中,所述方法包括:将所述多模态数据输入所述输入子网络,以获取所述输入子网络输出的所述多个模态各自的第一特征;将所述多个模态中的每两个模态各自的所述第一特征输入对应的跨模态特征子网络,以获取所述多个跨模态特征子网络各自输出的对应于相应的两个模态的跨模态特征;针对所述多个模态中的每一个模态,将对应于该模态的至少一个跨模态特征输入与该模态对应的跨模态融合子网络,以获取所述多个跨模态融合...
【专利技术属性】
技术研发人员:陈帅,汪琦,杨虎,贺峰,冯知凡,柴春光,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。