一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法技术

技术编号:9860249 阅读:189 留言:0更新日期:2014-04-02 19:35
一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法,引入粗糙集理论、数据挖掘技术实现城市安全数据流的分析与挖掘,首先建立分布异步海量数据流概念形式化描述模型;其次对概念模型进行偶合分析;再次提出基于属性约简的粗糙集海量数据分割方法并采用基于概念格的节点对的关联规则挖掘找出节点间的关联性,最后通过可伸缩粒计算获取影响城市安全的关键事件信息,实现城市的数字化管理。本发明专利技术提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘
知识,尤其是一种分布异构海量城市安全数据流的在线数据挖掘方法。
技术介绍
城市公共安全状况,是一个国家竞争力和国家形象的重要标志。随着城市聚集人口和积累财富的不断增长,城市的重要性日趋明显,然而也使其面临越来越多的安全挑战。自然灾害频度和强度的增大、各类社会事故的增长以及恐怖主义的威胁,对城市预防灾害及应付突发事件的能力提出了更为严峻的要求。统计表明,我国每年因城市公共安全问题造成的经济损失达6500亿元,约占⑶P总量的6%。国务院新闻办公室2009年5月11日发表的《中国的减灾行动》白皮书指出,我国70%以上的城市、50%以上的人口分布在气象、地震、地质、海洋等自然灾害严重的地区。纵观社会发展,俄罗斯切尔诺贝利核泄露、亚洲金融风暴、日本东京地铁毒气案、2001年美国“9.11”事件、2003年SARS灾害、2009年“H1N1”甲型流感病毒疫情、2010年上海“11.15”特别重大火灾事故等历史教训时刻提醒着人们,深入开展有关城市公共安全的研究已是迫在眉睫。城市公共安全管理过程中,存在着许多潜在的、不为人知的又有用的信息,挖掘出这些信息,对提高城市安全管理有着极其重大的作用。然而由于与城市安全相关的数据通常具有数据量大、变化快、随机存取代价高、详细数据难以存储等特点,因此如何准确、及时的对其进行挖掘,发现具有较高价值的信息是目前研究的难点与热点。
技术实现思路
为了克服已有城市公共安全数据的无法进行准确、及时挖掘、数据的有效性较差的不足,本专利技术提供了一种挖掘的准确性高、及时性较好、数据有效性良好的融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法。本专利技术解决其技术问题所采用的技术方案是:,所述在线数据挖掘方法包括以下步骤:I)分布异步海量数据流概念形式化描述:通过数据流的粒化,对概念进行粒的表示、特征化、描述和解释;基于粒计算的概念分析过程包括以下步骤:①概念分层,采用粒计算模型中的概念格、粒度划分;②建立概念之间关系;③描述概念的外延和内涵,对属性和对象进行描述,表明概念之间的泛化关系;④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析,挖掘数据流隐藏的特征;2)概念的偶合分析:概念包括内涵和外延,用二元组<0a;Da>表示,其中,Oa是DS的外延,03是05的内涵;假设一个时间段〈Tb; τε>中的概念为<0a;Da>,时间来到<xb; \>,概念变化为<0a;Da>;〈Tb;时间段内概念集合所构成的概念格设为CL1,其后续时间段〈τ b; τ e>内的概念集合构成的概念格设为CL2 ;3)建立基于属性约简的粗糙集海量数据分割方法:在考察当前的条件属性组合A时,分两部分来考虑:①所有的相容条件分类X(X e Posa(D))且X e U/ind(A),相容条件分类X中的所有样本在A上都含有相同的属性值以及相同的决策值,在属性组合A下这些样本是完全相同的,因此这些样本可以随意被分割到不同的子数据集中,也不会造成正域的变化所有的冲突条件分类Y (Y e negA(D))且Y e U/ind(A) ;Y中的样本在A上都含有相同的属性值以及不同的决策值,在分割父数据集的过程中把同一个冲突条件分类Y的样本分到同一个子数据集中;4)基于概念格的节点对的关联规则挖掘:采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则,关联规则基于频繁项集挖掘,它的两个重要的兴趣度度量指标是支持度和置信度,支持度表明规则的可用性,而置信度则表明规则的确定性,对于概念格中的先辈晚辈节点对(C1,C2),假定.本文档来自技高网...

【技术保护点】
一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法,其特征在于:所述在线数据挖掘方法包括以下步骤:1)分布异步海量数据流概念形式化描述:通过数据流的粒化,对概念进行粒的表示、特征化、描述和解释;基于粒计算的概念分析过程包括以下步骤:①概念分层,采用粒计算模型中的概念格、粒度划分;②建立概念之间关系;③描述概念的外延和内涵,对属性和对象进行描述,表明概念之间的泛化关系;④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析,挖掘数据流隐藏的特征;2)概念的偶合分析:概念包括内涵和外延,用二元组表示,其中,Oa是DS的外延,Da是DS的内涵;假设一个时间段中的概念为,时间来到,概念变化为;时间段内概念集合所构成的概念格设为CL1,其后续时间段内的概念集合构成的概念格设为CL2;3)建立基于属性约简的粗糙集海量数据分割方法:在考察当前的条件属性组合A时,分两部分来考虑:①所有的相容条件分类X(X∈posA(D))且X∈U/ind(A),相容条件分类X中的所有样本在A上都含有相同的属性值以及相同的决策值,在属性组合A下这些样本是完全相同的,因此这些样本可以随意被分割到不同的子数据集中,也不会造成正域的变化;②所有的冲突条件分类Y(Y∈negA(D))且Y∈U/ind(A);Y中的样本在A上都含有相同的属性值以及不同的决策值,在分割父数据集的过程中把同一个冲突条件分类Y的样本分到同一个子数据集中;4)基于概念格的节点对的关联规则挖掘:采用基于先辈晚辈节点对的关联规则提取方法来提取概念格上的关联规则,关联规则基于频繁项集挖掘,它的两个重要的兴趣度度量指标是支持度和置信度,支持度表明规则的可用性,而置信度 则表明规则的确定性,对于概念格中的先辈晚辈节点对(C1,C2),假定C1=(O1∪O,A),C2=(O,A∪B),则在具有A属性的|O1∪O|个对象中有|O|个也具有B属性,即可得到关联规则其支持度是 λ sup port = ( A ⇒ B ) = | O | U = | extent ( C 2 ) | | U | , 置信度是 λ confidence ( A ⇒ B ) = | O | | O 1 ∪ O | = | extent ( C 2 ) | | extent ( C 1 ) | ; 在概念格上提取规则:提取外延对象数大于等于支持度阈值,且晚辈外延对象个数与先辈外延对象个数的比值大于等于置信度阈值的节点对;5)可伸缩粒计算知识的获取:通过对信息表分层粒化模型的分析,采用一种粒分布链表方法;6)建立面向分布异构海量的城市安全数据流挖掘系统架构:采用四种辅助网格服务来支持网格数据挖掘:数据传输服务、针对数据挖掘任务的资源分配和调度服务、数据分割服务以及全局模型生成服务;其中,数据传输服务:待挖掘处理数据在各网格节点之间的传输以及数据挖掘过程中需要处理的信息的过程;资源分配和调度服务:能够最优化地把数据挖掘的相关任务分配到网格资源上进行处理;数据分割服务:作为网格下海量数据挖掘的预处理过程,为了支...

【技术特征摘要】
1.一种融合粗糙集与粒计算的分布异构海量城市安全数据流的在线数据挖掘方法,其特征在于:所述在线数据挖掘方法包括以下步骤: 1)分布异步海量数据流概念形式化描述:通过数据流的粒化,对概念进行粒的表示、特征化、描述和解释;基于粒计算的概念分析过程包括以下步骤:①概念分层,采用粒计算模型中的概念格、粒度划分;②建立概念之间关系;③描述概念的外延和内涵,对属性和对象进行描述,表明概念之间的泛化关系;④通过对概念的外延偶合度、内涵偶合度和概念偶合度的分析,挖掘数据流隐藏的特征; 2)概念的偶合分析:概念包括内涵和外延,用二元组<Oa;Da>表示,其中,(\是05的外延,03是05的内涵;假设一个时间段〈Tb; τε>中的概念为<Oa;Da>,时间来到〈Tb; τ e>,概念变化为<Oa;Da>;〈 Tb; τε>时间段内概念集合所构成的概念格设为CL1,其后续时间段<Tb; τ e>内的概念集合构成的概念格设为CL2 ;3)建立基于属性约简的粗糙集海量数据分割方法:在考察当前的条件属性组合A时,分两部分来考虑:①所有的相容条件分类X(X e Posa...

【专利技术属性】
技术研发人员:陈庭贵周广澜许翀寰
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1