基于总体综合关系图的实体分类设备和方法技术

技术编号:3763766 阅读:214 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了一种基于总体综合关系图的实体分类设备和方法。在指定时间段内的单一总体综合关系图中,节点表示实体,节点间的连线表示所述指定时间段内的实体间关系。本发明专利技术的基于总体综合关系图的实体分类设备包括:时间段内总体综合关系图生成装置,用于对输入的时序关系进行综合,生成指定时间段内的单一总体综合关系图;以及关系图聚类装置,用于对所述时间段内总体综合关系图生成装置所生成的所述单一总体综合关系图中的节点进行聚类,生成最终分类完成的节点。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,更具体地,涉及时间序列关系挖掘。根据本专利技术,提出了一种。
技术介绍
随着全球化进程的飞速发展,公司之间形成了比以往更加错综复杂的商业联系,同时一个公司的发展进程要比以往迅速很多,而发展进程中其他有商业联系的公司对它的发展起着至关重要的作用。另一方面,随着信息化的发展,商业新闻大量地出现在互联网等媒介上。这些商业新闻中包含了大量的公司间商业关系的信息。以往到现在积累下来的所有商业新闻几乎可以涵盖所有产业中的所有商业联系的信息。这些信息形成了一个时序性的商业信息过程。如果商业咨询行业能从中得到这些信息,从这些信息中建立起时序性的商业信息过程,并推导出一些对用户(用户主要是一些公司咨询者)有用的产业及子产业关系以及一些对应的商业性事件,那么这将是一个非常有前景的技术。商业关系随着时间的发展会形成变化的网络,对这个变化的网络建立时序模型之后,如何从中找到产业结构(即包含多少个产业,每个产业包含有多少子产业,每个产业和子产业中代表性的企业是谁)是一个难题。从商业关系推广到一般关系(如,社会关系),给定一个时序的关系图之后,如何从中找出哪些节点属于哪个类,每个类又可以如何分为子类,并从中找出每个类和子类的代表也是一个难题。在已有的方法中,包括对基于连接图的关系进行聚类的技术,如参考文献lC. H, Ding, X. He, H. Zha, M. Gu, and H. D. Simon.A min-max cut algorithm for graph partitioning and dataclustering. In Proceedings of IEEE ICDM 2001, pages 107-114,2001.,参考文献J. Shi and J. Malik. Normalized cut and imagesegmentation. IEEE Trans, on Pattern Analysis and MachineIntelligence, 22 (8) :888 - 905, August 2000.。但是,该技术仅应用于简单的图形,没有提及如何针对根据时间变化商业关系而建立的图进行聚类的方法。而在商业性事件检测中,有根据时间序列检测重要的节点的技术(如,日本专利JP 2005-352817),但是并未提出关于在将时序图进行聚类划分为产业后、如何进行相应的事件检测的相应技术。
技术实现思路
本专利技术针对随时间变化的关系进行综合,建立特定时间段内的单一总体综合关系图,对总体综合关系图进行基于图的切分的聚类,以得到最终完成分类的节点与相应的关系。同时,在将本专利技术应用于商业领域后,进一步根据分类号的节点与关系对商业领域内的公司和关系做产业划分,最后经过产业内的商业事件检测得到商业性事件。为了实现上述目的,本专利技术提出了一种基于总体综合关系图的实体分类设备,在指定时间段内的单一总体综合关系图中,节点表示实体,节点间的连线表示所述指定时间段内的实体间关系,所述基于总体综合关系图的实体分类设备包括时间段内总体综合关系图生成装置,用于对输入的时序关系进行综合,生成指定时间段内的单一总体综合关系图;以及关系图聚类装置,用于对所述时间段内总体综合关系图生成装置所生成的所述单一总体综合关系图中的节点进行聚类,生成最终分类完成的节点。优选地,所述基于总体综合关系图的实体分类设备还包括时序关系生成单元,用于对关系实例计算权值,解决内部冲突,对没有出现的时间进行插值,得到所述时序关系,并将所述时序关系发送至时间段内总体综合关系图生成装置。8优选地,所述基于总体综合关系图的实体分类设备还包括时序 关系提取单元,用于从外部输入的时序关系图中提取出所述时序关系, 并将所述时序关系发送至时间段内总体综合关系图生成装置。优选地,所述时间段内总体综合关系图生成装置包括总体关系 综合单元,用于针对所述指定时间段,对实体间各种类型关系进行综 合,得到两个实体间的单一总体综合关系;以及总体综合关系图创建 单元,用于针对所述指定时间段内的单一总体综合关系,创建单一的 非时序总体综合关系图。优选地,所述总体关系综合单元针对所述指定时间段,使用以下 算法中的至少一种,对实体间各种类型关系进行综合求和算法、平 均算法、加权求和算法、加权平均算法和最大值选取算法。优选地,所述总体关系综合单元所生成的两个实体间的总体综合 关系是无方向的。优选地,在所述总体综合关系图创建单元所创建的单一的非时序 总体综合关系图中,以节点表示实体,以节点间的连线表示两实体间 的总体综合关系,每条连线的权值为两实体间的总体综合关系的取值。优选地,所述总体综合关系图生成装置针对指定时间段内的所有 时间单位,生成一个带权值的无向图。优选地,所述关系图聚类装置采用分级聚类方法,对所述时间段 内总体综合关系图生成装置所生成的所述单一总体综合关系图中的节 点进行聚类。优选地,所述基于总体综合关系图的实体分类设备还包括事件 检测装置,用于根据所述关系图聚类装置所产生的节点聚类结果,对 实体间关系进行事件检测,输出事件结果。优选地,所述事件检测装置包括类别归类单元,用于针对所述 指定时间段,对所有实体和关系进行类别划分,按照预定的类别细分 阈值,选取所述关系图聚类装置所产生的节点聚类结果,针对所选取 的节点聚类结果中的每一类别,对所述总体综合关系图中的所有节点 和连线进行归类,从而将所有实体和关系归类到各个类别中;实体重 要度计算单元,用于针对所述指定时间段内的每个类别,计算各个实体在该类别内的实体重要度;以及事件检测单元,用于针对所述指定 时间段内的每个类别,选择本类别内的实体和关系,并结合实体重要 度,进行事件检测。优选地,所述实体重要度计算单元采用Page Rank方法或HITS 算法来计算实体重要度。优选地,所述事件检测单元包括类别选取子单元,用于选取所 述类别归类单元所生成的实体和关系分类中的指定类别内的实体和关 系;以及基于规则的事件提取子单元,用于利用预定义规则、所述类 别选取子单元的选取结果、由所述实体重要度计算单元生成的各类别 内的实体重要度,检测并输出与所述预定义规则匹配的事件。优选地,所述实体为公司,所述关系为商业关系,以及所述类别 为产业。为了实现上述目的,本专利技术还提出了一种基于总体综合关系图的 实体分类方法,在指定时间段内的单一总体综合关系图中,节点表示 实体,节点间的连线表示所述指定时间段内的实体间关系,所述基于 总体综合关系图的实体分类方法包括时间段内总体综合关系图生成 步骤,对输入的时序关系进行综合,生成指定时间段内的单一总体综 合关系图;以及关系图聚类步骤,对在所述时间段内总体综合关系图 生成步骤中生成的所述单一总体综合关系图中的节点进行聚类,生成 最终分类完成的节点。优选地,在所述时间段内总体综合关系图生成步骤之前,所述基 于总体综合关系图的实体分类方法还包括时序关系生成步骤,对关 系实例计算权值,解决内部冲突,对没有出现的时间进行插值,得到 所述时序关系。优选地,在所述时间段内总体综合关系图生成步骤之前,所述基 于总体综合关系图的实体分类方法还包括时序关系提取步骤,从外 部输入的时序关系图中提取出所述时序关系。优选地本文档来自技高网
...

【技术保护点】
一种基于总体综合关系图的实体分类设备,在指定时间段内的单一总体综合关系图中,节点表示实体,节点间的连线表示所述指定时间段内的实体间关系,所述基于总体综合关系图的实体分类设备包括: 时间段内总体综合关系图生成装置,用于对输入的时序关系进 行综合,生成指定时间段内的单一总体综合关系图;以及 关系图聚类装置,用于对所述时间段内总体综合关系图生成装置所生成的所述单一总体综合关系图中的节点进行聚类,生成最终分类完成的节点。

【技术特征摘要】

【专利技术属性】
技术研发人员:许荔秦胡长建福岛俊一
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1