一种异构数据共享表示学习方法及系统技术方案

技术编号:15254880 阅读:57 留言:0更新日期:2017-05-02 22:08
本发明专利技术公开了一种异构数据共享表示学习方法及系统,方法包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。本发明专利技术异构数据共享表示学习方法及系统,能够融合社交媒体中的多模态数据并实现有效的判别表示,克服了现有技术方案在对社交媒体数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。

Method and system for learning heterogeneous data sharing representation

The invention discloses a heterogeneous data sharing representation learning method and system, method includes: selecting data in the preset data samples for the atom, construct sample data dictionary; data extraction samples in the dictionary said in atomic features of each mode, the characteristics of the various modes of dictionary construction, characteristics of each mode in the dictionary of presupposition the sample data in feature extraction for corresponding modal atoms; data reconstruction model construct the feature dictionary of each modal representation, feature data samples in each modal extraction based on learning the data from the data sharing, data sharing in accordance with the classification of the data representation. The invention of heterogeneous data sharing that learning method and system, capable of multi-modal data fusion in social media and realize effective discriminant representation, overcomes the existing technical scheme in the process of social media data can not be solved at the same time there are heterogeneous, large amount of data and the problem of high computational cost.

【技术实现步骤摘要】

本专利技术涉及信息处理
,特别是涉及一种异构数据共享表示学习方法及系统。
技术介绍
社交媒体网站使得人们能够方便地产生或分享信息,同时产生了大量的社交媒体数据,其中蕴含了各种各样的现实世界中的概念和人们的活动。社会事件发生时,媒体的报道会引起人们的关注,人们不仅会在社交媒体平台上讨论、发表自己的观点同时也会提供一些自己的所见所闻,这些社交媒体信息不仅是人们对事件的反响,也能为事件提供更全面的信息和额外的线索。因此,事件检测任务近几年吸引了大量的研究者,尤其是社交媒体中的事件检测。社交媒体发布信息的便捷性、实时性强和传播速度快等特点,使得社交媒体数据在事件检测中尤为重要。在实际应用中,就单个事件而言,社交媒体平台中关于该事件的内容可能是被多个用户发布或者分享,这些用户可能地理上分布不同、分享的时间不同、模态形式不同、内容不同、描述角度不同等等,因此造成信息分布散乱。因此多模态数据存在异构性、数据量大和计算代价大的特点,这给多模态数据的处理及蕴含的事件挖掘带来了挑战。目前,单一模态数据挖掘方法由于多模态数据的异构性和数据量大的特点,不能处理场景中的数据;多模态融合技术虽然可针对多模态数据进行有效处理,但较高的计算复杂度使得进行多模态数据处理时占用大量内存,不适用于社交媒体平台。由此可见,现有技术方案对多模态数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。
技术实现思路
有鉴于此,本专利技术提供一种异构数据共享表示学习方法及系统,能够融合社交媒体中的多模态数据并实现有效的判别表示,克服了现有技术方案在对社交媒体数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。为解决上述技术问题,本专利技术提供如下技术方案:一种异构数据共享表示学习方法,包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。可选地,当在数据中无标定数据时,任取一个特征模态对数据进行聚类,选取代表性数据样本作为所述预设数据样本。可选地,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第i个模态的特征表示为Xm,m∈[1,M];所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示包括:建立的所述数据重构模型表示如下:其中,第一个正则项表示对重构误差的约束,第二个正则项表示低秩约束,第三个正则项表示拉普拉斯约束,Z表示数据共享表示,Lm表示第m个模态上构造的拉普拉斯矩阵;并有如下关系:其中,N表示数据样本的数目,Wm表示第m个模态上利用相似度值构造的邻接图矩阵,Degm表示第m个模态上的度矩阵。可选地,当在数据中有标定数据时,以标定数据样本作为所述预设数据样本。可选地,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第i个模态的特征表示为Xm(t),m∈[1,M];根据数据样本词典的标签,对各个模态的特征词典划分为K个子集,得到各个模态的特征词典表示为:其中ec表示第c个事件标签;所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,计算获得数据样本的数据共享表示包括:建立的所述数据重构模型表示如下:其中,Xm(t)表示数据样本I(t)在第m个模态的特征表示,表示类感知的数据共享表示。一种异构数据共享表示学习系统,包括词典构建装置和共享表示学习装置;所述词典构建装置包括:数据样本词典构建模块,用于选取数据中的预设数据样本为原子,构建数据样本词典;特征词典构建模块,用于提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;所述共享表示学习装置用于基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。可选地,所述词典构建装置还包括:特征标准化模块,用于计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,并更新各个模态的特征词典中的各个原子表示。可选地,所述数据样本词典构建模块具体用于:当在数据中无标定数据时,任取一个特征模态对数据进行聚类,选取代表性数据样本作为所述预设数据样本;当在数据中有标定数据时,以标定数据样本作为所述预设数据样本。可选地,当在数据中有标定数据时,以标定数据样本作为所述预设数据样本;所述特征词典构建模块还用于:根据数据样本词典的标签,对各个模态的特征词典划分为K个子集,得到各个模态的特征词典表示为:其中ec表示第c个事件标签,M表示模态的数目;所述共享表示学习装置建立的所述数据重构模型表示如下:其中,Xm(t)表示数据样本I(t)在第m个模态的特征表示,表示类感知的数据共享表示。可选地,还包括数据处理装置,用于从收集的数据中提取各个模态数据的特征表示。由上述技术方案可知,本专利技术所提供的异构数据共享表示学习方法及系统,选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的共享数据表示,以根据所述共享数据表示对该数据样本进行分类。本专利技术异构数据共享表示学习方法及系统,能够融合社交媒体中的多模态数据并实现有效的判别表示,克服了现有技术方案在对社交媒体数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种异构数据共享表示学习方法流程图;图2为本专利技术实施例提供的一种异构数据共享表示学习系统示意图;图3为本专利技术又一实施例提供的一种异构数据共享表示学习系统示意图;图4为本专利技术实施例提供的一种事件检测系统的示意图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施本文档来自技高网
...

【技术保护点】
一种异构数据共享表示学习方法,其特征在于,包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。

【技术特征摘要】
1.一种异构数据共享表示学习方法,其特征在于,包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。2.根据权利要求1所述的异构数据共享表示学习方法,其特征在于,当在数据中无标定数据时,任取一个特征模态对数据进行聚类,选取代表性数据样本作为所述预设数据样本。3.根据权利要求2所述的异构数据共享表示学习方法,其特征在于,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第m个模态的特征表示为Xm,m∈[1,M];所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示包括:建立的所述数据重构模型表示如下:minZ,Dm12Σm=1M||Xm-DmZ||F2+β||Z||*+γΣm=1MTr(ZLmZT);]]>其中,第一个正则项表示对重构误差的约束,第二个正则项表示低秩约束,第三个正则项表示拉普拉斯约束,Z表示数据共享表示,Lm表示第m个模态上构造的拉普拉斯矩阵;并有如下关系:12Σm=1MΣi=1NΣj=1NWi,jm||Zi-Zj||2=Σm=1MΣi=1NDegi,imZiZiT-Σm=1MΣi=1NΣj=1NWi,jmZiZjT=Σm=1M(Tr(Z(Degm)ZT)-Tr(ZWmZT))=Σm=1MTr(ZLmZT);]]>其中,N表示数据样本的数目,Wm表示第m个模态上利用相似度值构造的邻接图矩阵,Degm表示第m个模态上的度矩阵。4.根据权利要求1所述的异构数据共享表示学习方法,其特征在于,当在数据中有标定数据时,以标定数据样本作为所述预设数据样本。5.根据权利要求4所述的异构数据共享表示学习方法,其特征在于,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样...

【专利技术属性】
技术研发人员:刘文印杨振国李青
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1