当前位置: 首页 > 专利查询>苏州大学专利>正文

基于融合模态内和模态间关系的数据处理方法及系统技术方案

技术编号:29673777 阅读:17 留言:0更新日期:2021-08-13 21:55
本申请涉及基于融合模态内和模态间关系的数据处理方法及系统,包括:获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络;将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。本申请能够有效的提升社交网络数据指向目标分类的性能。

【技术实现步骤摘要】
基于融合模态内和模态间关系的数据处理方法及系统
本申请涉及数据处理
,更具体地说,本申请涉及一种融合模态内和模态间关系的数据处理方法和系统。
技术介绍
人的表达和行为有各种各样表现,反映了人的精神状况。对各种表达和行为的识别,并分类出其中具有问题的对象已经成为社会安全的必要过程,也是精神医学领域的重点研究对象。这类对象指的是在各种生物学、心理学以及社会环境因素影响下,大脑功能失调,导致认知、情感、意志和行为等精神活动出现不同程度障碍。这类具有问题的表达和行为的种类非常多,而很多最终会发展成为各种精神障碍,例如孤独症、抑郁症、妄想症等。其中抑郁症是一种最为常见的精神障碍,严重威胁人们健康。根据世界卫生组织统计,全球约有3亿人患有抑郁症。抑郁症在严重的情况下会导致自杀,其严重影响着患者的日常生活。但是低收入和中等收入国家中由于缺乏医疗资源以及训练有素的卫生医疗人员等原因,有76%至85%的抑郁症患者无法得到有效治疗,并且大部分抑郁症患者会忽略自身的抑郁症症状而错过合适的治疗时间。早期的抑郁症检测对于预防抑郁症等心理健康疾病具有重要的意义。目前传统的精神障碍识别主要以心理学知识为基础,例如对于抑郁症,采用填写抑郁症测量表和专业人员人工访谈的方式来判断用户是否具有抑郁倾向,然而这种方式存在以下缺陷:(1)资源消耗多,专业医疗人员有限,人工检测成本高;(2)诊断周期长,诊断过程需要医疗人员长期跟进,过程缓慢;(3)过程具有被动性,患者只有在症状明显的时候才会主动去治疗,而错过最佳治疗时间。随着互联网的迅猛发展,Twitter、微博和抖音等社交平台已经成为人们必不可少的社交工具,每天有上亿用户在各种社交平台分享他们的想法和心情,这种包括多种模态信息(如文本、图片和语音等)的社交网络数据提供了一种新的对人们表达和行为识别的方法和途径,越来越多的研究人员使用多模态社交网络数据来研究包括抑郁症在内的多种心理健康疾病。然而,面对海量的社交网络数据,如何有效建模多模态序列信息成为提高数据处理性能的关键问题。当前建模文本或者图片模态序列信息多采用RNN等变种方法实现,存在序列依赖问题。无法很好的建模时序信息。
技术实现思路
本申请的目的是解决上述技术问题。本申请提供一种融合模态内和模态间关系的社交网络数据处理方法和系统,通过使用一种新的主题模型建模多模态序列信息来处理需要进行识别分类的数据,缓解RNN等方法带来的序列依赖问题,进而提升社交网络指向目标分类处理的性能。本申请提供如下技术方案:第一方面,提供一种基于融合模态内和模态间关系的数据处理方法,包括:获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息;将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。可选地,其中所述文本特征提取网络为BERT模型,所述图片特征提取网络为VGG模型。可选地,其中所述利用预设的损失函数进行训练包括通过主任务损失函数、辅助任务损失函数和联合损失函数,同时训练主任务和辅助任务。可选地,其中所述文本模态网络、图片模态网络和模态间网络基于变分自编码器框架构建。可选地,其中所述获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息方法为:使用文本模态网络和图片模态网络获得模态内主题信息;使用以下公式获得文本模态和图片模态之间关系信息,并将其输入模态间网络获得多模态间关系主题信息:其中,为标准的非线性函数,为第t个文本和其对应的图片表示,且为3阶的转换向量,d,m表示向量的维度大小,,为可训练的参数,向量乘的结果为向量,其中的每个。可选地,其中所述主任务的网络模型基于LSTM模型构建。可选地,其中所述使用门控机制融合主任务和辅助任务的输出如下:其中,为社交网络用户最后的表示,为主任务的输出表示,为三种主题信息输出的表示,,和为可训练的参数。可选地,主任务损失函数为:其中,N为样本数目,为第i个用户的真实类别标签,为正则化的系数,为模型中的所有训练参数;辅助任务损失函数:其中,U为中间内容矩阵,为标准的正态分布,公式的前半部分用Kullback-Leibler散度来衡量模型学到的分布和真实的分布的相似性,第二部分为模型的重构损失,通过生成网络重构出原始输入,表示训练参数;联合损失函数:其中,为权重,用来平衡主任务和辅助任务的损失函数,为主损失函数,为文本模态损失函数,为图片模态损失函数,为模态间关系损失函数。第二方面,提供一种融合模态内和模态间关系的数据处理系统,包括:样本构建单元,获取初始样本,将样本划分为训练集、验证集和测试集;模型构建单元,构建基于融合模态内和模态间关系主题信息的数据分类模型;模型训练单元,训练基于融合模态内和模态间关系主题信息的数据分类模型。本申请的有益效果至少包括:(1)现有的社交网络数据处理以及分类方法多使用文本进行训练,只挖掘文本数据相关信息,与其相比,本申请使用基于文本和图片的多模态社交网络数据,使用了更多有用的信息;(2)本申请使用最新的BERT方法来抽取文本特征,使用VGG方法来抽取图片特征,能更好的捕捉数据的信息,有效的提高了方法的性能;(3)现有社交网络数据处理以及分类方法很少加入主题信息进行学习,而且多使用文本信息进行学习,本专利技术提出了一种新的主题模型,既可以学习稀疏的文本主题特征,也可以学习连续的图片特征主题;(4)本申请使用这种主题模型学习各模态内主题信息和多模态间关系主题信息,明显的提升了社交网络数据目标指向分类性能。本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本申请的研究和实践而为本领域的技术人员所理解。附图说明通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:图1是本申请一个实施例提供的融合模态内和模态间关系的数据处理方法总体示意图。图2是本申请一个实施例提供的融合模态内和模态间关系的数据处理方法流程图。图3是本申请一个实施例提供的基于BERT模型文本特征抽取示意图。图4是本申请一个实施例提供的基于VGG模型图片特征抽取示意图。图5是本申请一个实施例提供的主题信息模型本文档来自技高网
...

【技术保护点】
1.一种基于融合模态内和模态间关系的数据处理方法,包括:/n获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;/n构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息;/n将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。/n

【技术特征摘要】
1.一种基于融合模态内和模态间关系的数据处理方法,包括:
获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;
构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息;
将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。


2.根据权利要求1所述的方法,其中所述文本特征提取网络为BERT模型,所述图片特征提取网络为VGG模型。


3.根据权利要求1所述的方法,其中所述利用预设的损失函数进行训练包括通过主任务损失函数、辅助任务损失函数和联合损失函数,同时训练主任务和辅助任务。


4.根据权利要求1所述的方法,其中所述文本模态网络、图片模态网络和模态间网络基于变分自编码器框架构建。


5.根据权利要求4所述的方法,其中所述获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息方法为:
使用文本模态网络和图片模态网络获得模态内主题信息;
使用以下公式获得文本模态和图片模态之间关系信息,并将其输入模态间网络获得多模态间关系主题信息:

【专利技术属性】
技术研发人员:李寿山安明慧王晶晶周国栋
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1