一种面向开源情报的多模态数据情感分析方法技术

技术编号：38471162 阅读：11 留言：0更新日期：2023-08-11 14:47

本发明专利技术涉及一种面向开源情报的多模态数据情感分析方法，属于人工智能、大数据、情感分析领域。本发明专利技术通过在Spark Streaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子；该方法处理过程如下：首先，对从HDFS接收的输入数据进行预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。本发明专利技术实现大数据+深度学习的技术融合，满足可扩展性和低资源应用，支持海量数据的智能挖掘分析。支持海量数据的智能挖掘分析。支持海量数据的智能挖掘分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向开源情报的多模态数据情感分析方法

[0001]本专利技术属于人工智能、大数据、情感分析领域，具体涉及一种面向开源情报的多模态数据情感分析方法。

技术介绍

[0002]随着数字技术、网络技术和移动通信技术发展，新媒体成为向用户提供信息和服务的重要传播形态，新媒体信息的情感分析也成为互联网内容安全监管和把控的重要研究方向，服务于政治、军事和经济等多个领域。新媒体信息的内容组成更加多样，既有纯文本、纯图片、纯视频的单模态形式，也有文本+图片、文本+视频的多模态形式。传统基于文本特征的情感分析方法，因缺少对多模态数据的建模，已不再适合处理新媒体信息的情感分析。现有的图文结合的情感分析方法也只适用于特定平台，比如微博、微信等自媒体平台的网民情感分析。而针对视频信息的情感分析，主要是利用视频中的文本、图像和声音等内容，通过抽取关键特征实现视频中人物情感倾向计算，对视频描述信息的利用存在不足，缺少整体的情感分析。另外，现有方法复杂度普遍较高，难以应对互联网海量的新媒体信息。
[0003]针对上述存在的不足，本专利技术提出了一种面向开源情报的多模态情感分析方法与系统，针对新媒体信息所包含的文本、视频、图像建立多模态情感分析模型，并结合大数据技术构建可扩展的多模态情感分析系统，实现了高效准确实时的新媒体信息的多模态情感分析，能够满足情报挖掘、舆情监测、话题监测与跟踪、品牌口碑挖掘等多种应用的实时/准实时的挖掘分析。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术要解决的...

【技术保护点】

【技术特征摘要】
1.一种面向开源情报的多模态数据情感分析方法，其特征在于，该方法包括：通过在SparkStreaming框架内封装多模态情感分析模型，实现了资源分类矩阵算子、图文数据对增强算子、多模态算法算子和多标签内容算子；该方法处理过程如下：首先，对从HDFS接收的输入数据进行预处理操作，其次，调用资源分类矩阵算子对文本、视频、图像进行分类处理，再次，调用图文数据对增强算子进行图文数据增强，调用多模态算法算子和多标签内容算子实现情感预测，最后，将预测的结果写入到Kafka，完成情感预测的整个流程。2.如权利要求1所述的面向开源情报的多模态数据情感分析方法，其特征在于，所述预处理操作包括：数据清洗及分词工作，其中，运用正则匹配进行数据清洗，过滤掉影响词语义连续性的干扰信息，包含链接部分、其他编码的特殊字符、无语义信息的#@￥％
……
&*字符，数字和英文的部分信息。3.如权利要求1所述的面向开源情报的多模态数据情感分析方法，其特征在于，资源分类矩阵算子包括了对多模态数据的分类及处理过程，将输入数据分为视频、图像、文字三种情况进行处理，其中，对于视频信息，通过FFmpge抽帧技术进行关键帧提取，得到图像信息；对于图像信息，判断图像有无文字信息，对于包含文字信息的图片，利用文字提取技术实现文字提取；对于文字信息，进行文本内容过滤处理。4.如权利要求3所述的面向开源情报的多模态数据情感分析方法，其特征在于，对于视频信息，视频流数据分析采取抽取关键帧技术，利用FFmpeg提取I帧，I帧在一段时间内数量少但包含的信息量是最多的，抽取多帧图像数据之后进行图像处理，经过文字提取之后，存储到图数据库和文本数据库，使用UUID作为图文对的唯一标识码。5.如权利要求3所述的面向开源情报的多模态数据情感分析方法，其特征在于，对于图像信息，文字提取技术采取PaddleOCR的Differentiable Binarization+CRNN算法的骨干网络MobileNetV3进行文本的检测与识别。6.如权利要求3
‑
5任一项所述的面向开源情报的多模态数据情感分析方法，其特征在于，图文数据对增强算子首先判断处理得到的图文对中图片和文本的占比，对于图片比重较小的情况，选择进行图片数据扩增，对于文本比重较小的情况，选择进行文本数据扩增；对于图文对中的图片扩增，采用增强pHash算法，和图片数据库中已有的图片进行相似比对，通过离散余弦变换计算汉明距离，若满足相似阈值，进行图片数据扩增，若遍历数据库之后均不满足阈值条件，则利用边缘拓展、随机剪裁、尺寸缩放、水平垂直翻转技术进行图片样本扩增；对于图文对中的文本扩增，采用TF
‑
IDF算法，和语料库中的句子计算相似度，若遍历数据库之后均满足阈值条件，则利用同义词替换、随机增加、随机交换技术进行文本数据扩增。7.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，通过离散余弦变换计算汉明距离，若满足相似阈值，进行图片数据扩增包括：S401、对图像进行尺寸变换；S402、对图像进行灰度化处理；S403、进行离散余弦变换和区域选择，计算DCT及其均值，选取代表区域；S404、Hash值计算，将每个DCT值转换成0或1，生成二进制数组；
S405、通过计算汉明距离，进行图片相似度计算；S406、和预定义阈值比较，输出结果。8.如权利要求6所述的面向开源情报的多模态数据情感分析方法，其特征在于，采用TF
‑
IDF算法，和语料库中的句子计算相似度，若遍历数据库之后均满足阈值条件包括：S411、计算词在文档中的频率TF；S412、TF进行标注化，避免受文本长度的影响；S413、计算词的逆文档频率IDF；S414、计算词的TF
‑
IDF值，得到每个文本的多维数值向量；S415、通过余弦相似度计算两个文本之间的相似度值；S416、和预定...

【专利技术属性】
技术研发人员：赵立永，王又辰，杨雨婷，方志，赵勤博，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人