基于相似模态补全的多模态情感分析方法、系统和设备技术方案

技术编号：40419554 阅读：9 留言：0更新日期：2024-02-20 22:37

本发明专利技术涉及多模态情感数据识别技术领域，具体为基于相似模态补全的多模态情感分析方法、系统和设备，该分析方法首先将标记好的缺失模态的标记多模态样本，进行全局特征提取、多线性处理和概率映射处理，得到准确的标记多模态样本的预测标签；接着，基于缺失模态的属性，以及标记多模态样本的预测标签，与相似全模态样本的真实标签和预测标签的相同性，确定最合适的相似全模态样本，对缺失模态进行数据补全，得到补全标记多模态样本；最后，将待检多模态样本、或标记多模态样本、或补全标记多模态样本中的模态，进行多模态融合，得到的融合模态经分类处理，得到准确率更高的情感分析结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态情感数据识别，具体为基于相似模态补全的多模态情感分析方法、系统和设备。

技术介绍

1、近年来，随着互联网视频平台（如youtube、twitch和tiktok）的盛行以及社交媒体（如facebook、twitter和微博）的迅猛发展，越来越多的用户愿意通过发布视频、图文等形式来表达个人的情感和观点，由此产生了大量的视频、音频和文本模态信息。为了更有效地识别和理解这些模态信息中的情感和观点，获得更全面和准确的情感分析结果，多模态情感分析逐渐成为研究和应用的热点。

2、与单模态数据不同，多模态数据包含了情感表达的互补信息，因此，通过利用多模态特征进行互补学习可以显著提升情感分析的准确性。同时，采用有效的多模态融合方法也能够增强情感识别的性能。近年来，一些基于循环神经网络、transformer以及图卷积神经网络等技术的多模态情感分析模型取得了令人满意的成果，在情感识别技术的快速发展中发挥了重要作用，推动了情感识别技术的不断进步。

3、然而，大多数多模态情感分析模型都是在所有模态（文本、音频、视频）始终可用（不缺失）的假设下提出。但在实际应用中，由于一些不可控因素，经常会发生不确定模态缺失的情况。例如，出于隐私考虑，可能无法获取文本模态信息；摄像机设备可能会被障碍物遮挡，导致无法采集图像等视频模态；或者由于环境噪声过大，音频模态信号可能无法使用。因此，在许多实际应用场景中，无法确保所有模态是否缺失，是否可用，这会对数据的完整性产生威胁，导致现有的大多数多模态情感分析模型的情感分析结果的准确率较低。

技术实现思路

1、本专利技术提供基于相似模态补全的多模态情感分析方法、系统和设备。

2、本专利技术技术方案如下：

3、一种基于相似模态补全的多模态情感分析方法，包括如下操作：

4、s1、获取待检多模态样本，判断所述待检多模态样本是否含有缺失模态；若不含有缺失模态，执行s6；若含有缺失模态，标记出所述待检多模态样本中的缺失模态，得到标记多模态样本，所述标记多模态样本用于执行s2；

5、s2、所述标记多模态样本经全局特征提取，得到标记多模态序列样本；所述标记多模态序列样本经多线性处理，得到低维多模态序列样本；所述低维多模态序列样本经概率映射处理，得到标签概率分布数据；将所述标签概率分布数据中概率值最大值对应的标签，作为所述标记多模态样本的预测标签；

6、s3、若所述标记多模态样本中，缺失模态不为文本模态，执行s4；

7、若所述标记多模态样本中，缺失模态为文本模态，执行s5；

8、s4、获取全模态样本集中所有标准低维文本模态，与所述低维多模态序列样本中待测低维文本模态的相似度，所有相似度按照从小到大进行排序，将相似度为前第一数量的标准低维文本模态对应的全模态样本，作为相似全模态样本，所有相似全模态样本，形成了相似全模态样本集；

9、判断所述标记多模态样本的预测标签，是否与所述相似全模态样本集中任意一个相似全模态样本的真实标签相同；

10、若相同，基于所述相似全模态样本集，对所述标记多模态样本中的缺失模态进行模态数据补充处理，得到补全标记多模态样本；

11、若不相同，不对所述标记多模态样本进行任何处理；

12、s5、获取全模态样本集中所有标准低维音频模态或标准低维视频模态，分别与所述低维多模态序列样本中待测低维音频模态或待测低维视频模态的相似度，所有相似度按照从小到大进行排序，将相似度为前第二数量的标准低维音频模态或标准低维视频模态，对应的全模态样本，作为相似全模态样本，所有相似全模态样本，形成了相似全模态样本集；

13、判断所述标记多模态样本的预测标签，是否与所述相似全模态样本集中任意一个相似全模态样本的预测标签相同；

14、若相同，基于所述相似全模态样本集，对所述标记多模态样本中的缺失模态进行模态数据补充处理，得到补全标记多模态样本；

15、若不相同，不对所述标记多模态样本进行任何处理；

16、s6、所述待检多模态样本、或标记多模态样本、或补全标记多模态样本中的，文本模态与音频模态、视频模态经多模态融合处理，得到融合模态；所述融合模态经分类处理，得到情感分析结果。

17、所述s2中全局特征提取的操作为：所述标记多模态样本中的文本模态、音频模态、视频模态，分别经词向量化处理，得到文本模态向量、音频模态向量、视频模态向量；所述文本模态向量、音频模态向量、视频模态向量，分别与文本模态、音频模态、视频模态对应的位置编码经拼接处理，得到文本模态数据、音频模态数据、视频模态数据；所述文本模态数据、音频模态数据、视频模态数据，分别经多头注意力处理和拼接处理，得到注意力文本模态、注意力音频模态、注意力视频模态；所述注意力文本模态、注意力音频模态、注意力视频模态，分别与文本模态数据、音频模态数据、视频模态数据经拼接处理和归一化处理，得到特征文本模态、特征音频模态、特征视频模态；所述特征文本模态、特征音频模态、特征视频模态，分别经全连接处理，得到全连接文本模态、全连接音频模态、全连接视频模态；所述全连接文本模态、全连接音频模态、全连接视频模态，分别与特征文本模态、特征音频模态、特征视频模态经拼接处理，得到文本模态序列、音频模态序列、视频模态序列；所述文本模态序列、音频模态序列、视频模态序列，形成了所述标记多模态序列样本。

18、所述s2中多线性处理的操作为：所述标记多模态序列样本的文本模态序列、音频模态序列、视频模态序列，分别依次经归一化处理、第一线性处理、第一非线性处理、参数丢失处理、第二线性处理、第二非线性处理，得到待测低维文本模态、待测低维音频模态、待测低维视频模态；所述待测低维文本模态、待测低维音频模态、待测低维视频模态，形成了所述低维多模态序列样本。

19、所述s4中获取相似度的操作为：分别获取待测低维文本模态和标准低维文本模态在不同维度的文本数据，得到不同维度的待测文本数据和不同维度的标准文本数据；将不同维度的待测文本数据和不同维度的标准文本数据，进行对应维度的数据相乘后，进行求和处理，得到总维度数据；基于所述总维度数据，得到所述相似度。

20、相似全模态样本的预测标签，是基于全模态样本经全局特征提取、多线性处理和概率映射处理得到的。

21、所述s6中多模态融合的操作具体为：将所述待检多模态样本、或标记多模态样本、或补全标记多模态样本，进行全局特征提取处理，得到待分类模态序列样本；将所述待分类多模态序列样本中的，待分类文本模态序列分别与待分类音频模态序列、待分类视频模态序列进行多头注意力处理，得到第一多模态序列和第二多模态序列；所述第一多模态序列、第二多模态序列，分别经非线性处理后进行多线性处理，得到更新第一多模态序列、更新第二多模态序列；所述更新第一多模态序列、更新第二多模态序列和文本模态序列，分别与对应权重值相乘后，进行求和处理，得到所述融合模态。

本文档来自技高网...

【技术保护点】

1.一种基于相似模态补全的多模态情感分析方法，其特征在于，包括如下操作：

2.根据权利要求1所述的基于相似模态补全的多模态情感分析方法，其特征在于，所述S2中全局特征提取的操作为：

3.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法，其特征在于，所述S2中多线性处理的操作为：

4.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法，其特征在于，所述S4中获取相似度的操作为：

5.根据权利要求1所述的基于相似模态补全的多模态情感分析方法，其特征在于，相似全模态样本的预测标签，是基于全模态样本经全局特征提取、多线性处理和概率映射处理得到的。

6.根据权利要求1所述的基于相似模态补全的多模态情感分析方法，其特征在于，所述S6中多模态融合的操作具体为：

7.根据权利要求6所述的基于相似模态补全的多模态情感分析方法，其特征在于，所述S4或S5中，对所述标记多模态样本中的缺失模态进行模态数据补充处理的操作具体为：

8.一种基于相似模态补全的多模态情感分析系统，其特征在于，包括：

...

【技术特征摘要】

1.一种基于相似模态补全的多模态情感分析方法，其特征在于，包括如下操作：

2.根据权利要求1所述的基于相似模态补全的多模态情感分析方法，其特征在于，所述s2中全局特征提取的操作为：

3.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法，其特征在于，所述s2中多线性处理的操作为：

4.根据权利要求1所述的一种基于相似模态补全的多模态情感分析方法，其特征在于，所述s4中获取相似度的操作为：

6.根据权利要求1所述的基于相似模态补全的多模态情感分析方法，...

【专利技术属性】
技术研发人员：刘志中，孙宇航，初佃辉，郭强，孙鸿翔，
申请(专利权)人：烟台大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人