一种面向群智多模态数据的处理方法及系统技术方案

技术编号：16379821 阅读：64 留言：0更新日期：2017-10-15 13:56

本发明专利技术公开了一种面向群智多模态数据的处理方法及系统，首先提取社交网络群智数据中文本数据的文本特征和图像数据的图像特征，并基于图像特征对图像数据进行聚类；然后基于提取的文本特征和图像特征进行哈希编码；最后计算文本数据哈希编码和图像数据哈希编码的海明距离，并将每一类图像中海明距离最小的图像数据加入优选数据集合；根据群智数据中的文本数据，结合聚类以及跨模态数据关联的方法，对群智数据中的图像数据进行优选，在保证数据语义相关性的同时，提高了数据的多样性。

Processing method and system for intelligent group modal data

The invention discloses a processing method and system for intelligent group modal data, firstly, image feature extraction and image features of text data text data of the social network of swarm intelligence in the data, and based on the image data clustering image features; then the text feature and image feature extraction based on Hash encoding; the final calculation of text data hash hash encoding and image data encoding Hamming distance and Hamming distance of each kind of image in image data with minimum preferred data set; according to the text data of swarm intelligence data, combined with the method of clustering and cross modal data association, to optimize the image data of swarm intelligence data, to ensure data semantics the correlation at the same time, increase the diversity of data.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向群智多模态数据的处理方法及系统
本专利技术涉及群智数据筛选领域，特别涉及一种面向群智多模态数据的处理方法及系统。
技术介绍
近年来，随着社交媒体，如微博，Twitter等为代表的社交网络的快速发展，网络上产生了越来越多的用户生成内容，用户生成内容可视为互联网时代中具有代表性的一类群智数据。社交媒体中的群智数据类型主要有文本、图像、视频、音频四大类，其中以文本和图像数据最为常见。由于社交媒体用户众多，平台开放性强，这导致来源于社交媒体的群智数据丰富却冗杂。目前，已有大量相关技术用于选择代表性的文本数据。目前也有一部分的研究实现了跨模态数据的检索：专利CN105205096A提出了一种跨文本模态和图像模态的数据检索方法，该专利将文本模态数据和图像模态数据的语义向量作为逻辑斯特回归分类器的输出表达,将主亲和力非线性表达中心化后作为输入表达来进行训练,得到多个分类函数，当用户需要检索文本或者图像模态数据样本时,分别计算主亲和力并输入到所述分类函数中,得到文本或者图像模态数据样本的语义层表达,然后归一化处理生成最终表达，利用内积距离计算公式计算检索结果。专利CN103559192A公开了一种基于跨模态稀疏主题建模的跨媒体检索方法，利用联合分析及稀疏关联的方法提供跨模态数据在同一稀疏主题空间内的表示，进而进行跨模态信息检索。专利CN104462489A公开了一种基于深层模型的跨模态检索方法，通过堆叠对应的受限波尔兹曼机Corr-RBMs深层模型获得目标检索模态的高级表达向量和检索库中每一个被检索模态的高级表达向量，利用目标检索模态的高级表达向量和检索库中每一个...
一种面向群智多模态数据的处理方法及系统

【技术保护点】
一种面向群智多模态数据的处理方法，其特征在于，包括如下步骤：获取社交网络中用户生成内容作为群智数据；根据群智数据中的文本数据提取文本特征；根据群智数据中的图像数据提取图像特征；基于提取的所述图像特征，对图像数据进行聚类；基于提取的所述文本特征，对文本数据进行哈希编码，得到第一哈希编码；基于提取的图像特征，对聚类后的每类图像数据的进行哈希编码，得到第二哈希编码；对每一类图像数据，计算所述第一哈希编码与所述第二哈希编码的海明距离，选取海明距离最小的图像数据加入优选数据集合。

【技术特征摘要】
1.一种面向群智多模态数据的处理方法，其特征在于，包括如下步骤：获取社交网络中用户生成内容作为群智数据；根据群智数据中的文本数据提取文本特征；根据群智数据中的图像数据提取图像特征；基于提取的所述图像特征，对图像数据进行聚类；基于提取的所述文本特征，对文本数据进行哈希编码，得到第一哈希编码；基于提取的图像特征，对聚类后的每类图像数据的进行哈希编码，得到第二哈希编码；对每一类图像数据，计算所述第一哈希编码与所述第二哈希编码的海明距离，选取海明距离最小的图像数据加入优选数据集合。2.根据权利要求1所述的一种面向群智多模态数据的处理方法，其特征在于，所述提取文本特征的步骤具体包括：对群智数据中的文本数据，利用LDA提取文本内容的话题分布作为特征向量，将LDA中话题个数定为n，得到维数为n的特征向量，作为文本特征。3.根据权利要求1所述的一种面向群智多模态数据的处理方法，其特征在于，所述提取图像特征的步骤具体包括：对于群智数据中的图像数据，利用SIFT算法从图像中提取特征点；使用K-Means聚类算法对特征点进行聚类，得到词袋模型的单词表，将K-Means的聚类个数定义为m，得到大小为m的单词表；基于单词表对每一张图像计算其m维的TF-IDF词向量作为图像特征。4.根据权利要求1所述的一种面向群智多模态数据的处理方法，其特征在于，所述对图像数据聚类的步骤具体包括：利用K-Means聚类算法将图像数据聚为R类。5.根据权利要求1所述的一种面向群智多模态数据的处理方法，其特征在于，所述对文本数据进行哈希编码的的步骤具体包括：基于提取的文本特征，利用跨模态哈希学习算法SCM-seq，采用哈希映射的方式，计算文本数据的哈希编码，得到第一哈希编码。6.根据权利要求1所述的一种面向群智多模态数据的处理方法，其特征在于，所述对图像数据进行哈希编码的步骤具体包括：基于提取的图像特征，对每类图像数据，...

【专利技术属性】
技术研发人员：郭斌，欧阳逸，於志文，张佳凡，王柱，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人