The invention discloses a heterogeneous data sharing representation learning method and system, method includes: selecting data in the preset data samples for the atom, construct sample data dictionary; data extraction samples in the dictionary said in atomic features of each mode, the characteristics of the various modes of dictionary construction, characteristics of each mode in the dictionary of presupposition the sample data in feature extraction for corresponding modal atoms; data reconstruction model construct the feature dictionary of each modal representation, feature data samples in each modal extraction based on learning the data from the data sharing, data sharing in accordance with the classification of the data representation. The invention of heterogeneous data sharing that learning method and system, capable of multi-modal data fusion in social media and realize effective discriminant representation, overcomes the existing technical scheme in the process of social media data can not be solved at the same time there are heterogeneous, large amount of data and the problem of high computational cost.
【技术实现步骤摘要】
本专利技术涉及信息处理
,特别是涉及一种异构数据共享表示学习方法及系统。
技术介绍
社交媒体网站使得人们能够方便地产生或分享信息,同时产生了大量的社交媒体数据,其中蕴含了各种各样的现实世界中的概念和人们的活动。社会事件发生时,媒体的报道会引起人们的关注,人们不仅会在社交媒体平台上讨论、发表自己的观点同时也会提供一些自己的所见所闻,这些社交媒体信息不仅是人们对事件的反响,也能为事件提供更全面的信息和额外的线索。因此,事件检测任务近几年吸引了大量的研究者,尤其是社交媒体中的事件检测。社交媒体发布信息的便捷性、实时性强和传播速度快等特点,使得社交媒体数据在事件检测中尤为重要。在实际应用中,就单个事件而言,社交媒体平台中关于该事件的内容可能是被多个用户发布或者分享,这些用户可能地理上分布不同、分享的时间不同、模态形式不同、内容不同、描述角度不同等等,因此造成信息分布散乱。因此多模态数据存在异构性、数据量大和计算代价大的特点,这给多模态数据的处理及蕴含的事件挖掘带来了挑战。目前,单一模态数据挖掘方法由于多模态数据的异构性和数据量大的特点,不能处理场景中的数据;多模态融合技术虽然可针对多模态数据进行有效处理,但较高的计算复杂度使得进行多模态数据处理时占用大量内存,不适用于社交媒体平台。由此可见,现有技术方案对多模态数据进行处理时无法同时解决存在的异构性、数据量大和计算代价大的问题。
技术实现思路
有鉴于此,本专利技术提供一种异构数据共享表示学习方法及系统,能够融合社交媒体中的多模态数据并实现有效的判别表示,克服了现有技术方案在对社交媒体数据进行处理时无法同时解决存 ...
【技术保护点】
一种异构数据共享表示学习方法,其特征在于,包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。
【技术特征摘要】
1.一种异构数据共享表示学习方法,其特征在于,包括:选取数据中的预设数据样本为原子,构建数据样本词典;提取所述数据样本词典中的原子在各个模态的特征表示,构建各个模态的特征词典,每一模态的特征词典以各预设数据样本在对应模态提取的特征表示为原子;基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示,以根据所述数据共享表示对该数据样本进行分类。2.根据权利要求1所述的异构数据共享表示学习方法,其特征在于,当在数据中无标定数据时,任取一个特征模态对数据进行聚类,选取代表性数据样本作为所述预设数据样本。3.根据权利要求2所述的异构数据共享表示学习方法,其特征在于,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样本第m个模态的特征表示为Xm,m∈[1,M];所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型,学习获得数据样本的数据共享表示包括:建立的所述数据重构模型表示如下:minZ,Dm12Σm=1M||Xm-DmZ||F2+β||Z||*+γΣm=1MTr(ZLmZT);]]>其中,第一个正则项表示对重构误差的约束,第二个正则项表示低秩约束,第三个正则项表示拉普拉斯约束,Z表示数据共享表示,Lm表示第m个模态上构造的拉普拉斯矩阵;并有如下关系:12Σm=1MΣi=1NΣj=1NWi,jm||Zi-Zj||2=Σm=1MΣi=1NDegi,imZiZiT-Σm=1MΣi=1NΣj=1NWi,jmZiZjT=Σm=1M(Tr(Z(Degm)ZT)-Tr(ZWmZT))=Σm=1MTr(ZLmZT);]]>其中,N表示数据样本的数目,Wm表示第m个模态上利用相似度值构造的邻接图矩阵,Degm表示第m个模态上的度矩阵。4.根据权利要求1所述的异构数据共享表示学习方法,其特征在于,当在数据中有标定数据时,以标定数据样本作为所述预设数据样本。5.根据权利要求4所述的异构数据共享表示学习方法,其特征在于,所述基于数据样本在各个模态提取的特征表示、各个模态的所述特征词典构建数据重构模型之前,还包括:计算数据样本在各个模态提取的特征表示分别与对应模态的特征词典中各原子的相似度值,得到的结果作为数据样本在各个模态的特征表示,数据样...
【专利技术属性】
技术研发人员:刘文印,杨振国,李青,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。