基于低秩张量和自监督多任务的多模态情感分析方法技术

技术编号：40422412 阅读：4 留言：0更新日期：2024-02-20 22:41

本发明专利技术一种基于低秩张量融合和自监督的多任务多模态情感分析方法，该方法通过利用门循环单元GRU(Gate Recurrent Unit)进行特征表示，利用低秩张量融合网络和Mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，并利用单模态标签生成模块进行自监督多任务学习，从而获取单模态间的互补性信息，从而构建出兼顾模态间相关性和互补性的多模态情感分析网络。在上述模型中涉及一种低秩张量融合和Mish激活函数相结合的模块，进行模态间相关性信息的提取；涉及一种单模态标签生成模块，帮助网络辅助训练，得到输出最终的分割预测结果。本发明专利技术提高了多模态情感分析的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及情感分析领域，具体而言，尤其涉及基于多种模态的情感分析方法。

技术介绍

1、近年来，随着互联网和通信技术的更新迭代，媒体的业态逐渐多元化，在平台上，使用者表达观点的方式也不仅仅局限于传统的文字，而是通过文本、图像、声音等多种方式共同表达他们的情绪(emotion)和情感(sentiment)。这些视频中包含了同类产品的比较，产品的优点和缺点等，带有强烈的情感色彩和情感倾向。社交平台上潜在的用户则可以通过这些视频中的信息来推断大众对于该产品的看法，帮助自己提前了解并筛选有用的信息，购买到符合自己预期的产品；而商家也可以根据用户反馈的信息，对产品进行精准定位，改进产品存在的缺点，帮助商家做出更加明智的决断。

2、情感分析，又称为观点挖掘(opinion mining)，旨在确定说话者、作者或其他主体对象对于某个主题、文档或事件的观点和态度。目前情感分析的相关研究在单模态领域已经较为成熟，我们可以通过基于文本特征的情感分析技术分析用户评价，可以通过基于图像特征的情感分析对人脸表情进行识别，可以通过基于语音特征的情感分析技术将语音转为文字进行情感预测。但随着互联网技术的不断发展，单模态已经渐渐无法满足人们的日常行为需求，不仅因为它的形式单一，还因为单模态的信息量相对来说不是十分充分，并且很容易受到外界各种因素的干扰，比如识别面部表情的过程中关键部位被遮挡，语音提取时环境噪音过大等。后续研究发现，人们在表达情感时，不同模态之间是具有一定互补性的，比如当人们表达一个“悲伤”的观点时，首先他的话语中传递出了悲伤的情绪

3、因此，多模态情感分析是一个具有应用价值的研究课题，如何设计一个兼顾模态间相关性和互补性的多模态情感分析网络成为一个具有挑战性的问题。

技术实现思路

1、本专利技术提供了一种基于低秩张量融合和自监督的多任务多模态情感分析模型，该模型通过利用门循环单元gru(gate recurrent unit)进行特征表示，利用低秩张量融合网络和mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，并利用单模态标签生成模块进行自监督多任务学习，从而获取单模态间的互补性信息，从而构建出兼顾模态间相关性和互补性的多模态情感分析网络。在上述模型中涉及一种低秩张量融合和mish激活函数相结合的模块，进行模态间相关性信息的提取；涉及一种单模态标签生成模块，帮助网络辅助训练，得到输出最终的分割预测结果。其具体技术方案如下：

2、一种基于低秩张量和自监督多任务的多模态情感分析方法，包括以下步骤：

3、步骤1，对原始输入数据进行初始化特征提取，处理成可供计算机识别的数字序列向量，将提取到的特征输出到特征表示模块；

4、步骤2，将上述输出的特征编码成独立的单位长度的特征表示，并将数据分别输入到低秩张量融合模块和线性层模块；

5、步骤3，将上述各模态的特征表示数据输入到该模块中，经过低秩张量融合后，将结果输入到线性层模块；

6、步骤4，将特征表示模块输出的数据投影到一个新的特征空间，得到各个单模态相同维度的特征表示，并分别输出到单模态标签生成模块以及得到各个单模态所对应的预测结果；将低秩张量融合模块的输出数据投影到低维空间，并得到融合表征，该融合表征用于预测多模态情感；

7、步骤5，利用线性层模块中各个单模态相同维度的特征表示和多模态标签生成单模态标签，对网络的训练起到辅助作用。

8、进一步的，步骤1中提取的初始化特征包括视频、音频、文本数据特征，对于不同的模态采用不同的特征提取办法。

9、进一步的，步骤2中对于文本采用bert预训练语言模型，用12层的基础bert来提取句子的特征表示，并将bert的最后一层的词向量作为整个句子的特征表示；对于视频和音频，将初始化模块输出的特征提取结果通过单向的门控循环单元gru来捕获这两个模态的时序特征进行特征表示。

10、进一步的，步骤4中，所述低秩张量融合模块和基于mish激活函数的线性层模块相配合得到多模态情感预测结果，先将多种模态的特征表示作为输入融合为高维张量，再将其映射回一个低维度输出向量空间，得到融合特征，作为多模态的预测结果。

11、进一步的，步骤5中基于多模态标签和单模态标签的表征来自动生成各个模态的单模态标签，采用基于动量的更新策略，将新生成的值与历史值相结合，从而得到稳定的预测值，进而辅助整个网络的训练过程，得到更优的结果。

12、较现有技术相比，本专利技术具有以下有益效果：

13、1、本专利技术充分利用gru对输入的音频、视频特征进行特征表示，获取上下文的语义信息；

14、2、本专利技术通过低秩张量融合网络与mish激活函数相组合的方式进行融合，捕获了不同模态间的相关性；

15、3、本专利技术采用单模态标签生成模块与mish激活函数相结合的方式来辅助训练计算模型，捕获了不同模型的互补性；

16、4、本专利技术可对多模态的情感数据进行了有效的识别，在自动驾驶、智慧教育等领域上有着非常大的应用场景。

17、综上所述，本专利技术的技术方案利用gru进行特征表示，然后，利用低秩张量融合和mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，同时采用单模态标签生成模块进行自监督多任务学习，从而获取单模态的互补性信息，二者相互影响，提高了多模态情感分析的准确率。

本文档来自技高网...

【技术保护点】

1.一种基于低秩张量和自监督多任务的多模态情感分析方法，包括以下步骤：

2.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤1中提取的初始化特征包括视频、音频、文本数据特征，对于不同的模态采用不同的特征提取办法。

3.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤2中对于文本采用BERT预训练语言模型，用12层的基础BERT来提取句子的特征表示，并将BERT的最后一层的词向量作为整个句子的特征表示；对于视频和音频，将初始化模块输出的特征提取结果通过单向的门控循环单元GRU来捕获这两个模态的时序特征进行特征表示。

4.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤4中，所述低秩张量融合模块和基于Mish激活函数的线性层模块相配合得到多模态情感预测结果，先将多种模态的特征表示作为输入融合为高维张量，再将其映射回一个低维度输出向量空间，得到融合特征，作为多模态的预测结果。

5.根据权利要求1所述的基于低秩张量和自监督多任务的多模

...

【技术特征摘要】

1.一种基于低秩张量和自监督多任务的多模态情感分析方法，包括以下步骤：

3.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤2中对于文本采用bert预训练语言模型，用12层的基础bert来提取句子的特征表示，并将bert的最后一层的词向量作为整个句子的特征表示；对于视频和音频，将初始化模块输出的特征提取结果通过单向的门控循环单元gru来捕获这两个模态的时序特征进行特...

【专利技术属性】
技术研发人员：张旭光，缪心蒙，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人