基于多模态前缀和跨模态注意力的情感分析方法及系统技术方案

技术编号：40520906 阅读：12 留言：0更新日期：2024-03-01 13:39

本发明专利技术公开了基于多模态前缀和跨模态注意力的情感分析方法及系统；其中方法，包括：获取待情感分析的视频片段；所述待情感分析的视频片段包括：语音、文本和图像三种模态数据；将待情感分析的视频片段，输入到训练后的多模态情感分析模型中，输出多模态情感分析结果；其中，训练后的多模态情感分析模型，用于：对视频片段中的语音、文本和图像分别进行编码，得到语音特征、文本标记序列和视觉特征；对语音特征和视觉特征分别进行前缀生成，得到语音前缀标记和视觉前缀标记；将语音前缀标记和视觉前缀标记进行串联拼接，将拼接结果添加到文本标记序列中，得到修正后的文本标记序列；对修正后的文本标记序列进行情感分类，得到情感分类标签。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及情感分析，特别是涉及基于多模态前缀和跨模态注意力的情感分析方法及系统。

技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
，并不必然构成现有技术。

2、情感分析旨在提取对一个实体的潜在态度和意见。传统的情感分析方法主要针对文本。然而，随着技术的发展，人们开始使用音频、图像、视频的方式表达自己的意见和情感。因此，多模态情感分析(msa)模型开始被广泛提出。与单一模态情感分析相比较，多模态情感分析可以取得更好的预测结果，因为多种模态数据之间的互补关系可以更深入的分析情感。

3、在实现本专利技术的过程中，专利技术人发现现有技术中存在以下技术问题：

4、现有技术对情感分析的过程中往往只考虑单模态的数据，而且，数据集不能够被充分利用导致模型训练后的精度不够高；

5、现有技术对情感分析的过程中没有考虑跨模态数据融合，导致情感分析结果不够准确。

技术实现思路

1、为了解决现有技术的不足，本专利技术提供了基于多模态前缀和跨模态注意力的情感分析方法及系统；

2、一方面，提供了基于多模态前缀和跨模态注意力的情感分析方法，包括：

3、获取待情感分析的视频片段；所述待情感分析的视频片段包括：语音、文本和图像三种模态数据；

4、将待情感分析的视频片段，输入到训练后的多模态情感分析模型中，输出多模态情感分析结果；

5、其中，训练后的多模态情感分析模型，用于：对视频片段中的语音、文本和图像

6、另一方面，提供了基于多模态前缀和跨模态注意力的情感分析系统，包括：

7、获取模块，其被配置为：获取待情感分析的视频片段；所述待情感分析的视频片段包括：语音、文本和图像三种模态数据；

8、输出模块，其被配置为：将待情感分析的视频片段，输入到训练后的多模态情感分析模型中，输出多模态情感分析结果；

9、其中，训练后的多模态情感分析模型，用于：对视频片段中的语音、文本和图像分别进行编码，得到语音特征、文本标记序列和视觉特征；对语音特征和视觉特征分别进行前缀生成，得到语音前缀标记和视觉前缀标记；将语音前缀标记和视觉前缀标记进行串联拼接，将拼接结果添加到文本标记序列中，得到修正后的文本标记序列；对修正后的文本标记序列进行情感分类，得到情感分类标签。

10、再一方面，还提供了一种电子设备，包括：

11、存储器，用于非暂时性存储计算机可读指令；以及

12、处理器，用于运行所述计算机可读指令，

13、其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

14、再一方面，还提供了一种存储介质，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

15、再一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

16、上述技术方案具有如下优点或有益效果：

17、1.针对数据集不被充分利用的问题，本专利技术选择使用原始数据进行预训练，可以充分利用数据信息，提高模型的训练速度和泛化能力，解决目标任务数据集可能出现的数据不平衡问题。

18、2.针对如何维持文本模态的优势问题，本专利技术引入a_laa并提出v_laa，这两个模块可以将语音和视觉特征编码为前缀标记。将前缀令牌送入预训练语言模型，可以保留大规模语言模型的优势并在msa任务取得良好的结果。

19、3.针对多模态之间的交互性问题，本专利技术通过将前缀标记添加到roberta中，可以扩展roberta模型的功能，使其具备学习跨模态注意力的能力，有利于捕获多模态间的相互作用。

本文档来自技高网...

【技术保护点】

1.基于多模态前缀和跨模态注意力的情感分析方法，其特征是，包括：

2.如权利要求1所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述多模态情感分析模型，其网络结构包括：

3.如权利要求2所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述音频前缀生成模块和视觉前缀生成模块的内部结构是一样的，所述音频前缀生成模块，包括：

4.如权利要求3所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述音频前缀生成模块和视觉前缀生成模块的工作过程是一样的，其中，音频前缀生成模块的工作过程，包括：

5.如权利要求4所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述音频前缀生成模块和视觉前缀生成模块的工作过程是一样的，其中，音频前缀生成模块的工作过程，包括：

6.如权利要求2所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述预训练语言模型，其训练过程包括：

7.如权利要求1所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述训练后的多模态情感分析模型，其训练过程包括：

8.基于多模态前缀和跨模态注意力的情感分析系统，其特征是，包括：

9.一种电子设备，其特征是，包括：

10.一种存储介质，其特征是，非暂时性存储计算机可读指令，其中，当非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。

...

【技术特征摘要】

1.基于多模态前缀和跨模态注意力的情感分析方法，其特征是，包括：

2.如权利要求1所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，所述多模态情感分析模型，其网络结构包括：

5.如权利要求4所述的基于多模态前缀和跨模态注意力的情感分析方法，其特征是，...

【专利技术属性】
技术研发人员：朱振方，李萌，李克峰，亓江涛，裴洪丽，张广渊，王朋，
申请(专利权)人：山东交通学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人