本申请提供一种多模态情感识别方法、装置、电子设备和计算机存储介质,该方法包括:获取待测样本文件,对所述待测样本文件中N个模态的信息进行特征提取,得到帧级别特征;其中,所述待检测样本文件表示与情感信息相关的文件,N为大于2的整数;从所述N个模态的每个模态的帧级别特征获取L个帧级别特征;根据所述N个模态各自对应的L个帧级别特征,得到N个3阶时序特征张量;L为大于1的整数的平方;根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量;基于所述N阶多模态融合特征张量,确定所述待测样本文件的情感分类结果。待测样本文件的情感分类结果。待测样本文件的情感分类结果。
【技术实现步骤摘要】
一种多模态情感识别方法、装置、电子设备和存储介质
[0001]本申请涉及情感分析
,尤其涉及一种多模态情感识别方法、装置、电子设备和计算机存储介质。
技术介绍
[0002]情感识别主要是根据目标人物一系列的行为动作、语言及表情等信息计算出对应的情感,应用领域广泛。随着互联网及大数据技术的发展,情感识别不仅仅依赖于单一模态的信息,跨模态的信息交互可以提供给情感识别更多的信息和特征,使得识别更准确。
[0003]相关技术中,多模态融合方法主要有特征融合和决策层融合两种,特征融合主要是针对不同模态的不同特征进行简单拼接,得到多模态融合特征,然而需要在时序上对不同模态的特征进行对齐,并且还需要保证不同模态间的颗粒度一致,即不同模态间的维度需要保持一致,这可能会导致对情感起关键作用的某一模态信息不完整;决策层融合是在每种单一模态信息单独做训练之后对结果进行决策投票,它不需要模态对齐信息,但是却难以挖掘不同模态间的交互信息;可见,在根据上述多模态融合方法进行情感识别时,会因为模态内或不同模态间信息缺失造成情感识别时准确率低的问题。
技术实现思路
[0004]本申请提供一种多模态情感识别方法、装置、电子设备和计算机存储介质;可以解决相关技术中在采用多模态融合方法进行情感识别时准确率低的问题。
[0005]本申请的技术方案是这样实现的:
[0006]本申请提供了一种多模态情感识别方法,所述方法包括:
[0007]获取待测样本文件,对所述待测样本文件中N个模态的信息进行特征提取,得到帧级别特征;其中,所述待检测样本文件表示与情感信息相关的文件,N为大于2的整数;
[0008]从所述N个模态的每个模态的帧级别特征获取L个帧级别特征;根据所述N个模态各自对应的L个帧级别特征,得到N个3阶时序特征张量;L为大于1的整数的平方;
[0009]根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量;基于所述N阶多模态融合特征张量,确定所述待测样本文件的情感分类结果。
[0010]在一些实施例中,所述根据所述N个模态对应的L个帧级别特征,得到N个3阶时序特征张量,包括:
[0011]对所述N个模态对应的L个帧级别特征进行转化,得到N个时序特征矩阵;
[0012]分别对所述N个时序特征矩阵进行张量化,得到N个3阶时序特征张量。
[0013]在一些实施例中,所述根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量,包括:
[0014]利用低秩张量网络机制,将所述N个3阶时序特征张量投影到N维空间,得到N阶多模态融合特征张量。
[0015]在一些实施例中,所述方法还包括:
[0016]在分别对所述N个时序特征矩阵进行张量化之前,采用设定压缩方法对所述N个时序特征矩阵进行降维。
[0017]在一些实施例中,在第k个模态的帧级别特征对应的维度为n
k
的情况下,所述N阶多模态融合特征张量的维度为n1×
n2×
...
×
n
k
×…×
n
N
;k的取值范围为1至N。
[0018]在一些实施例中,所述L个帧级别特征是连续的。
[0019]本申请提供一种多模态情感识别装置,所述装置包括第一得到模块、第二得到模块和确定模块,其中,
[0020]第一得到模块,用于获取待测样本文件,对所述待测样本文件中N个模态的信息进行特征提取,得到帧级别特征;其中,所述待检测样本文件表示与情感信息相关的文件,N为大于2的整数;
[0021]第二得到模块,用于从所述N个模态的每个模态的帧级别特征获取L个帧级别特征;根据所述N个模态各自对应的L个帧级别特征,得到N个3阶时序特征张量;L为大于1的整数的平方;
[0022]确定模块,用于根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量;基于所述N阶多模态融合特征张量,确定所述待测样本文件的情感分类结果。
[0023]本申请提供一种电子设备,所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述一个或多个技术方案提供的多模态情感识别方法。
[0024]本申请提供一种计算机存储介质,所述计算机存储介质存储有计算机程序;所述计算机程序被执行后能够实现前述一个或多个技术方案提供的多模态情感识别方法。
[0025]本申请实施例提供一种多模态情感识别方法、装置、电子设备和计算机存储介质,所述方法包括:获取待测样本文件,对所述待测样本文件中N个模态的信息进行特征提取,得到帧级别特征;其中,所述待检测样本文件表示与情感信息相关的文件,N为大于2的整数;从所述N个模态的每个模态的帧级别特征获取L个帧级别特征;根据所述N个模态各自对应的L个帧级别特征,得到N个3阶时序特征张量;L为大于1的整数的平方;根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量;基于所述N阶多模态融合特征张量,确定所述待测样本文件的情感分类结果。
[0026]可以看出,本申请实施例在提取到待测样本文件中各个模态的帧级别特征后,通过对每个模态的帧级别特征构建对应的时序特征张量,能够保留每个模态各自的原始空间结构信息;另外,通过对各个模态的时序特征张量进行融合,得到多模态融合特征张量,使得各个模态之间通过张量网络结合实现信息共享,从而有效捕捉了模态内及不同模态之间的交互信息,可以恢复出各个模态自然交互的全局特征,丰富了与情感信息相关的帧级别特征;可见,本申请实施例有效弥补了不能充分利用每个模态的数据信息及局部模态的交互信息的不足,提高后续情感识别的准确性;因而,可以解决现有技术中因为模态内或不同模态间信息缺失造成情感识别时准确率低的问题。
附图说明
[0027]图1为本申请实施例的一种多模态情感识别方法的流程图;
[0028]图2A为本申请实施例的另一种多模态情感识别方法的流程图;
[0029]图2B为本申请实施例的一种多模态情感识别方法的结构示意图;
[0030]图3为本申请实施例的多模态情感识别装置的组成结构示意图;
[0031]图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0032]下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述。
[0033]以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本申请,并不用于限定本申请。另外,以下所提供的实施例是用于实施本申请的部分实施例,而非提供实施本申请的全部实施例,在不冲突的情况下,本申请记载的技术方案可以任意组合的方式实施。
[0034]需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种多模态情感识别方法,其特征在于,所述方法包括:获取待测样本文件,对所述待测样本文件中N个模态的信息进行特征提取,得到帧级别特征;其中,所述待检测样本文件表示与情感信息相关的文件,从所述N个模态的每个模态的帧级别特征获取L个帧级别特征;根据所述N个模态各自对应的L个帧级别特征,得到N个3阶时序特征张量;L为大于1的整数的平方;根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量;基于所述N阶多模态融合特征张量,确定所述待测样本文件的情感分类结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述N个模态对应的L个帧级别特征,得到N个3阶时序特征张量,包括:对所述N个模态对应的L个帧级别特征进行转化,得到N个时序特征矩阵;分别对所述N个时序特征矩阵进行张量化,得到N个3阶时序特征张量。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述N个3阶时序特征张量,得到N阶多模态融合特征张量,包括:利用低秩张量网络机制,将所述N个3阶时序特征张量投影到N维空间,得到N阶多模态融合特征张量。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在分别对所述N个时序特征矩阵进行张量化之前,采用设定压缩方法对所述N个时序特征矩阵进行降维。5.根据权利要求1所述的方法,其特征在于,在第k个模态的帧级别特征对应的维度为n
k
的情况下,所述N阶多模态融合特征张量的维度为n1×
n2×
...
×
n
...
【专利技术属性】
技术研发人员:刘敏,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。