一种基于多维矢量数据的网络数据挖掘方法和系统技术方案

技术编号:21799027 阅读:34 留言:0更新日期:2019-08-07 10:28
本发明专利技术涉及一种基于多维矢量数据的网络数据挖掘方法和系统。方法包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。

A Network Data Mining Method and System Based on Multidimensional Vector Data

【技术实现步骤摘要】
一种基于多维矢量数据的网络数据挖掘方法和系统
本专利技术属于数据挖掘
,具体涉及一种基于多维矢量数据的网络数据挖掘方法和系统。
技术介绍
在互联网时代,随着移动互联网的普及和广泛应用,任何一个的事件都会在网络空间上产生大量的网络信息,包括但不限于自媒体用户公众号、微博、朋友圈、短视频、图片等相关内容。这些信息的特点是:信息量大、内容繁杂、形式多样、増长速度快、传播速度快、交互功能强。但是,由于这些网络信息零碎、分布范围广、多语种、无序、缺乏统一的数据库管理,因此试图人工从这些数据中还原事件的演化过程、发现关键环节、消除不良舆论影响较为困难。现有技术中提出了采用数据挖掘技术分析热点事件网络信息的技术方案。以网络空间中提取的热点事件关键词为依托,通过与物理空间的数据集进行协同聚类,根据聚类结果提取物理空间与热点事件相关的信息样本,让用户可以快速、全面了解热点事件的相关信息。然而,随着关键词数量增多,一方面协同聚类运算复杂度提高,难以快速获得聚类结果,另一方面缺少不同类型关键词之间的关联性分析,导致分析不够全面,数据挖掘效率较低。
技术实现思路
为了解决上述的聚类运算复杂度高,难以快速获得聚类结果,数据分析不够全面,数据挖掘效率较低的技术问题,本专利技术提出了一种基于多维矢量数据的网络数据挖掘方法和系统。一种基于多维矢量数据的网络数据挖掘方法,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。进一步地,所述多维矢量数据源表示为DATA(a,r,p),a为行为信息分量,r为关系信息分量,p为位置信息分量。进一步地,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。进一步地,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和/或位置信息。进一步地,还包括:计算信息数据族中代表行为、关系和/或位置分量的多个关键词与事件中代表行为、关系和/或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和/或位置信息。一种基于多维矢量数据的网络信息挖掘系统,包括:矢量化模块,用于将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,搜索模块,用于根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,聚类分析模块,用于对汇总的搜索结果进行聚类分析,产生信息数据族集合,关联度分析模块,用于对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。进一步地,所述多维矢量数据源表示为DATA(a,r,p),a为行为信息分量,r为关系信息分量,p为位置信息分量。进一步地,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。进一步地,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和/或位置信息。进一步地,所述关联度分析模块还用于计算信息数据族中代表行为、关系和/或位置分量的多个关键词与事件中代表行为、关系和/或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和/或位置信息。本专利技术的有益效果:通过将网络信息数据源中的网络信息矢量化,减少了聚类分析和关联度分析运算的复杂性,保证了信息数据族的快速收敛,实现了多角度的关联度分析,提高了数据挖掘的效率。本专利技术实施例提出的方法和系统可用于网络信息的控制,例如,为用户提供热点事件的相关信息或者可能感兴趣的内容。附图说明图1是根据本专利技术实施例提出的事件的信息三维空间示意图;图2是根据本专利技术实施例提出的基于多维矢量数据的网络数据挖掘方法的方法流程图;图3是根据本专利技术实施例提出的一种二维分布的聚类结果示意图;图4是根据本专利技术实施例提出的一种基于多维矢量数据的网络数据挖掘系统方框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。但本领域技术人员知晓,本专利技术并不局限于附图和以下实施例。本专利技术实施例提出了一种基于多维矢量数据的网络数据挖掘方法。移动互联网时代,在社会上已经产生了影响的事件,将产生大量的网络信息。每一个事件可以包含多个信息集合,例如行为(action)集合、关系(relationship)集合和位置(position)集合等。行为是指人们一切有目的的活动,由一系列简单动作构成的,通常表现出来的一切动作的统称。关系是指人与人之间,人与事物之间,事物与事物之间的相互联系。位置是指确定的地理位置。事件的信息集合ei可以表示为三个子集之和,即:{∑ak+∑rn+∑pm}∈ei。其中,[iknm]=1,2……n,∑ak为行为信息子集,∑rn为关系信息子集,∑pm为位置信息子集。如图1所示,通过将行为、关系和位置作为三维空间中的X,Y,Z轴,可以在三维空间中描述一个事件的信息集合。事件信息来源于信息源,因而事件信息集合ei也来源于信息源。每一个信息源可以包含行为信息子集、关系信息子集和位置信息子集中的一种或多种。图2是根据本专利技术实施例提出的一种基于多维矢量数据的网络数据挖掘方法。如图2所示,在步骤210中,将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源。以三维矢量数据源为例,将行为、关系和位置作为三维空间中的X,Y,Z轴,三维矢量数据源可以表示为DATA(a,r,p),即三维空间中的一个点。从事件信息的原点到这个点的向量,代表了网络信息矢量化。如果网络信息数据源中只包含行为信息子集、关系信息子集和位置信息子集中的一种或两种,不包含的信息子集分量则表示为0。例如网络信息数据源包含行为信息子集、关系信息子集,则三维矢量数据源表示为DATA(a,r,0)。可以选择更多的维度构建多维矢量数据。在步骤220中,根据设定条件搜索多个多维矢量数据源,获得多个网络信息数据源的矢量信息。可以采用多次迭代搜索的方式进行搜索,例如在完成第一次搜索后,将得到的结果作为搜索元素再进行搜索。迭代次数一般不超过3次。完成搜索后,将搜索结果进行汇总。在步骤230中,对汇总的搜索结果进行多种参数的聚类分析,获得多样式分布的聚类结果,产生信息数据族的集合。如图3所示,分别使用基于密度和基于网格(搜索迭代次数作为网格的标尺)的方法进行聚类分析,得到二维分布的聚类结果,聚类结果包括多个信息数据族,每个信息数据族都分别包含了具有矢量信息的信息元素。在步骤240中,对每一个信息数据族的空间矢量分布进行统计,进行关联度分析获得网络数据的关联性。通过关联度分析,确定与事件关联度高的信息族,以及信息族中主要的信息元素,从而对事件作出正确的研判。计算每两个信息数据族之间的关联度,确定哪些信息族与事件的关联度高。两个信息族之间的距离越近,其本文档来自技高网...

【技术保护点】
1.一种基于多维矢量数据的网络数据挖掘方法,其特征在于,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。

【技术特征摘要】
1.一种基于多维矢量数据的网络数据挖掘方法,其特征在于,包括:将多个网络信息数据源中的网络信息矢量化,形成多个多维矢量数据源,根据设定条件搜索所述多个多维矢量数据源,并汇总搜索结果,对汇总的搜索结果进行聚类分析,产生信息数据族集合,对所述信息数据族集合中的每一个信息数据族统计其空间矢量分布,通过关联度分析获得网络数据的关联性。2.如权利要求1所述的数据挖掘方法,其特征在于,所述多维矢量数据源表示为DATA(a,r,p),a为行为信息分量,r为关系信息分量,p为位置信息分量。3.如权利要求1所述的数据挖掘方法,其特征在于,所述通过关联度分析获得网络数据的关联性包括计算每两个信息数据族之间的关联度,确定与事件的关联度高的信息数据族。4.如权利要求1所述的数据挖掘方法,其特征在于,所述通过关联度分析获得网络数据的关联性包括统计信息数据族中行为、关系、位置分量的分布情况,确定与事件关联度高的行为、关系和/或位置信息。5.如权利要求4所述的数据挖掘方法,其特征在于,还包括:计算信息数据族中代表行为、关系和/或位置分量的多个关键词与事件中代表行为、关系和/或位置分量的多个关键词的重合度,并进行归一化处理,将归一化后重合度大的关键词作为与时间关联度高的行为、关系和/或位置信息。6.一种基于多维矢量数据的网络数据挖掘系统...

【专利技术属性】
技术研发人员:张俊曦邢国贤王石赵学豪吴坤鹏朱翼署
申请(专利权)人:中科金联北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1