【技术实现步骤摘要】
基于模糊C均值聚类算法的多源异构数据融合方法及系统
[0001]本专利技术涉及数据处理
,尤其涉及一种基于模糊C均值聚类算法的多源异构数据融合方法及系统。
技术介绍
[0002]随着计算机及数码电子产品的普及以及互联网的迅速发展,人们每天都可以接触到海量的多源异构数据,对多源异构数据进行融合,并基于融合后的数据进行应用,有利于实现科学决策以及更广大范围的应用。但由于多源异构数据的来源不同、结构不同、属性不同、模态不同以及用途不同,数据融合较为复杂。为了实现有价值应用的目标,需要一种超越语音、图像、视频以及影响等多模态的、能够支持多源异构数据融合的方法及系统。
[0003]目前,现有的多源异构数据融合常用的方法为基于数据特征的类型使用不同的核函数进行映射,融合过程主要通过构造并合并矩阵的方式完成。多核学习属于后期融合的一种,相比于前期特征融合在性能上会有大大的提升,但是多核学习算法由于需要计算各个核矩阵对应的核组合系数,需要多个核矩阵共同参加运算,如果样本的个数过多,那么核矩阵的维数也会非常大,无疑会占用很大的内 ...
【技术保护点】
【技术特征摘要】
1.一种基于模糊C均值聚类算法的多源异构数据融合方法,其特征在于,所述方法包括:S1,获取特定环境下的多源异构数据以及对应的任务信息;S2,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词,对特征分词进行归一化得到标准特征信息;S3,根据获取到的多源异构数据以及对应的任务信息建立事件树,基于复相关系数算法计算标准特征信息与事件树的相关概率;S4,基于相关概率采用模糊C均值聚类算法对标准特征信息进行特征融合,得到满足条件的融合结果。2.如权利要求1所述的一种基于模糊C均值聚类算法的多源异构数据融合方法,其特征在于,步骤S1具体包括:所述多源异构数据包括多个来源的数据集和多个模态的数据集,还包括文本数据集、语音数据集、图像数据集以及视频数据集。3.如权利要求2所述的一种基于模糊C均值聚类算法的多源异构数据融合方法,其特征在于,步骤S2中,将获取到的多源异构数据均转化为可描述的文本数据,并从中提取特征分词具体包括:获取语音数据集的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合对应帧的音频内容生成语音的文本数据;采用卷积神经网络提取图像数据集中的图像特征,并用文本的形式描述出来,得到图像的文本数据;获取视频数据集中需要处理的图像帧,识别图像帧中各实体对象,并记录各实体对象的特征,得到图像特征,获取视频数据集中的音频信号以及需要处理的音频帧,记录每一帧中发出的声音的实体对象生成声音特征,结合音频内容、字幕内容以及图像特征得到音频的文本数据;对文本数据集、语音的文本数据、图像的文本数据以及音频的文本数据进行行分词处理和去停用词处理,采用TF
‑
IDF特征提取方法提取特征分词。4.如权利要求3所述的一种基于模糊C均值聚类算法的多源异构数据融合方法,其特征在于,步骤S2中,对特征分词进行归一化得到标准特征信息具体包括:所述特征分词中有n条特征数据,表示为X={x1,x2,
…
,x
n
};对特征分词中的每一条特征数据求标准差,其计算公式为:其中,i=1,2,
…
,n,表示特征数据的均值,对特征分词中的每一条特征数据进行Z
‑
score归一化处理,其计算公式为
其中,x
i
为原始的特征数据,x
′
i
为归一化后的特征数据,即标准特征信息。5.如权利要求4所述的一种基于模糊C均值聚类算法的多源异构数据融合方法,其特征在于,步骤S3中,根据获取到的多源异构数据以及对应的任务信息建立事件树具体包括:将获取到的多源异构数据作为根节点,将标准特征信息作为子节点,对应的任务信息作为叶子节点建立事件树。6.如权利要求5所述的一种基于模糊C均值...
【专利技术属性】
技术研发人员:杜登斌,杜乐,杜小军,
申请(专利权)人:武汉东湖大数据交易中心股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。