一种面向群智多模态数据的处理方法及系统技术方案

技术编号:16379821 阅读:64 留言:0更新日期:2017-10-15 13:56
本发明专利技术公开了一种面向群智多模态数据的处理方法及系统,首先提取社交网络群智数据中文本数据的文本特征和图像数据的图像特征,并基于图像特征对图像数据进行聚类;然后基于提取的文本特征和图像特征进行哈希编码;最后计算文本数据哈希编码和图像数据哈希编码的海明距离,并将每一类图像中海明距离最小的图像数据加入优选数据集合;根据群智数据中的文本数据,结合聚类以及跨模态数据关联的方法,对群智数据中的图像数据进行优选,在保证数据语义相关性的同时,提高了数据的多样性。

Processing method and system for intelligent group modal data

The invention discloses a processing method and system for intelligent group modal data, firstly, image feature extraction and image features of text data text data of the social network of swarm intelligence in the data, and based on the image data clustering image features; then the text feature and image feature extraction based on Hash encoding; the final calculation of text data hash hash encoding and image data encoding Hamming distance and Hamming distance of each kind of image in image data with minimum preferred data set; according to the text data of swarm intelligence data, combined with the method of clustering and cross modal data association, to optimize the image data of swarm intelligence data, to ensure data semantics the correlation at the same time, increase the diversity of data.

【技术实现步骤摘要】
一种面向群智多模态数据的处理方法及系统
本专利技术涉及群智数据筛选领域,特别涉及一种面向群智多模态数据的处理方法及系统。
技术介绍
近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,网络上产生了越来越多的用户生成内容,用户生成内容可视为互联网时代中具有代表性的一类群智数据。社交媒体中的群智数据类型主要有文本、图像、视频、音频四大类,其中以文本和图像数据最为常见。由于社交媒体用户众多,平台开放性强,这导致来源于社交媒体的群智数据丰富却冗杂。目前,已有大量相关技术用于选择代表性的文本数据。目前也有一部分的研究实现了跨模态数据的检索:专利CN105205096A提出了一种跨文本模态和图像模态的数据检索方法,该专利将文本模态数据和图像模态数据的语义向量作为逻辑斯特回归分类器的输出表达,将主亲和力非线性表达中心化后作为输入表达来进行训练,得到多个分类函数,当用户需要检索文本或者图像模态数据样本时,分别计算主亲和力并输入到所述分类函数中,得到文本或者图像模态数据样本的语义层表达,然后归一化处理生成最终表达,利用内积距离计算公式计算检索结果。专利CN103559192A公开了一种基于跨模态稀疏主题建模的跨媒体检索方法,利用联合分析及稀疏关联的方法提供跨模态数据在同一稀疏主题空间内的表示,进而进行跨模态信息检索。专利CN104462489A公开了一种基于深层模型的跨模态检索方法,通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量,利用目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量计算目标检索模态与检索库中每一个被检索模态的距离以进行信息检索。这些专利都只考虑了跨模态信息检索,并没有考虑基于跨模态数据关联的数据优选,获得的结果缺乏多样性。
技术实现思路
本专利技术的目的是,为了克服现有的跨模态数据检索方法获得的结果缺乏多样性的技术缺陷,提供了一种面向群智多模态数据的处理方法及系统。为实现上述目的,本专利技术提供了如下方案:一种面向群智多模态数据的处理方法,包括如下步骤:获取社交网络中用户生成内容作为群智数据;根据群智数据中的文本数据提取文本特征;根据群智数据中的图像数据提取图像特征;基于提取的所述图像特征,对图像数据进行聚类;基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;对每一类图像数据,计算所述第一哈希编码与所述第二哈希编码的海明距离,选取海明距离最小的图像数据加入优选数据集合。优选地,所述提取文本特征的步骤具体包括:对群智数据中的文本数据,利用LDA(LatentDirichletAllocation)提取文本内容的话题分布作为特征向量,将LDA中话题个数定为n,得到维数为n的特征向量,作为文本特征。优选地,所述提取图像特征的步骤具体包括:对于群智数据中的图像数据,利用SIFT(ScaleInvariantFeatureTransform,尺度不变特征变换匹配算法)算法从图像中提取特征点;使用K-Means聚类算法对特征点进行聚类,得到词袋模型的单词表,将K-Means的聚类个数定义为m,得到大小为m的单词表;基于单词表对每一张图像计算其m维的TF-IDF(TermFrequency–InverseDocumentFrequency)词向量作为图像特征。优选的,所述对图像数据聚类的步骤具体包括:利用K-Means聚类算法将图像数据聚为R类。优选地,所述对文本数据进行哈希编码的步骤具体包括:基于提取的文本特征,利用跨模态哈希学习算法SCM-seq,采用哈希映射的方式,计算文本数据的哈希编码,得到第一哈希编码。优选地,所述对图像数据进行哈希编码的步骤具体包括:基于提取的图像特征,对每类图像数据,利用跨模态哈希学习算法SCM-seq,采用哈希映射的方式,计算图像数据的哈希编码,得到第二哈希编码。本专利技术还提供了一种面向群智多模态数据的处理系统,包括提取模块、聚类模块、哈希编码模块和选取模块;所述提取模块,用于根据群智数据中的文本数据提取文本特征,并根据群智数据中的图像数据提取图像特征;所述聚类模块,用于基于提取的所述图像特征,对图像数据进行聚类;哈希编码模块,用于基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;并基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;选取模块,用于对每一类图像数据,计算所述第一哈希编码与所述第二哈希编码的海明距离,选取海明距离最小的图像数据加入优选数据集合。优选地,所述提取模块,用于对群智数据中的文本数据,利用LDA提取文本内容的话题分布作为特征向量,将LDA中话题个数定为n,得到维数为n的特征向量,作为文本特征,对于群智数据中的图像数据,利用SIFT算法从图像中提取特征点,使用K-Means聚类算法对特征点进行聚类,得到词袋模型的单词表,将K-Means的聚类个数定义为m,得到大小为m的单词表,并基于单词表对每一张图像计算其m维的TF-IDF词向量作为图像特征。优选地,所述聚类模块,用于利用K-Means聚类算法将图像数据聚为R类。优选地,所述哈希编码模块,用于基于提取的文本特征,利用跨模态哈希学习算法SCM-seq,采用哈希映射的方式,计算文本数据的哈希编码,得到第一哈希编码,基于提取的图像特征,对每类图像数据,利用跨模态哈希学习算法SCM-seq,采用哈希映射的方式,计算图像数据的哈希编码,得到第二哈希编码。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:专利技术公开了一种面向群智多模态数据的处理方法及系统,基于跨模态数据的关联进行数据优选,根据群智数据中的代表性文本数据,结合聚类及跨模态数据关联的方法,对群智数据中的图像数据进行优选,在保证数据语义相关性的同时还提高了数据的多样性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种面向群智多模态数据的处理方法的一个实施例的流程图。图2为本专利技术提供的一种面向群智多模态数据的处理方法的另一个实施例的流程图。图3为本专利技术提供的一种面向群智多模态数据的处理系统的结构框图。具体实施方式本专利技术的目的是提供一种面向群智多模态数据的处理方法及系统。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。如图1所示,作为一种可实施方式,一种面向群智多模态数据的处理方法,包括如下步骤:S1、获取社交网络中用户生成内容作为群智数据;S2、根据群智数据中的文本数据提取文本特征;S3、根据群智数据中的图像数据提取图像特征;S4、基于提取的所述图像特征,对图像数据进行聚类;S5、基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;S6、基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;S7、对每一类图像数据本文档来自技高网
...
一种面向群智多模态数据的处理方法及系统

【技术保护点】
一种面向群智多模态数据的处理方法,其特征在于,包括如下步骤:获取社交网络中用户生成内容作为群智数据;根据群智数据中的文本数据提取文本特征;根据群智数据中的图像数据提取图像特征;基于提取的所述图像特征,对图像数据进行聚类;基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;对每一类图像数据,计算所述第一哈希编码与所述第二哈希编码的海明距离,选取海明距离最小的图像数据加入优选数据集合。

【技术特征摘要】
1.一种面向群智多模态数据的处理方法,其特征在于,包括如下步骤:获取社交网络中用户生成内容作为群智数据;根据群智数据中的文本数据提取文本特征;根据群智数据中的图像数据提取图像特征;基于提取的所述图像特征,对图像数据进行聚类;基于提取的所述文本特征,对文本数据进行哈希编码,得到第一哈希编码;基于提取的图像特征,对聚类后的每类图像数据的进行哈希编码,得到第二哈希编码;对每一类图像数据,计算所述第一哈希编码与所述第二哈希编码的海明距离,选取海明距离最小的图像数据加入优选数据集合。2.根据权利要求1所述的一种面向群智多模态数据的处理方法,其特征在于,所述提取文本特征的步骤具体包括:对群智数据中的文本数据,利用LDA提取文本内容的话题分布作为特征向量,将LDA中话题个数定为n,得到维数为n的特征向量,作为文本特征。3.根据权利要求1所述的一种面向群智多模态数据的处理方法,其特征在于,所述提取图像特征的步骤具体包括:对于群智数据中的图像数据,利用SIFT算法从图像中提取特征点;使用K-Means聚类算法对特征点进行聚类,得到词袋模型的单词表,将K-Means的聚类个数定义为m,得到大小为m的单词表;基于单词表对每一张图像计算其m维的TF-IDF词向量作为图像特征。4.根据权利要求1所述的一种面向群智多模态数据的处理方法,其特征在于,所述对图像数据聚类的步骤具体包括:利用K-Means聚类算法将图像数据聚为R类。5.根据权利要求1所述的一种面向群智多模态数据的处理方法,其特征在于,所述对文本数据进行哈希编码的的步骤具体包括:基于提取的文本特征,利用跨模态哈希学习算法SCM-seq,采用哈希映射的方式,计算文本数据的哈希编码,得到第一哈希编码。6.根据权利要求1所述的一种面向群智多模态数据的处理方法,其特征在于,所述对图像数据进行哈希编码的步骤具体包括:基于提取的图像特征,对每类图像数据,...

【专利技术属性】
技术研发人员:郭斌欧阳逸於志文张佳凡王柱
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1