This disclosure discloses a data mining method for terrorist attacks, which processes the historical data of each historical event and obtains several historical data points; processes the predicted data to obtain the data points to be measured; reduces the dimension of all the historical data points to be obtained; and clusteres the results after dimension reduction by subspace clustering, and then clusters them by subspace clustering. The distance between the data point to be measured and each data object in the historical data cluster is calculated, and the distance between the data point to be measured and the nearest data object in the corresponding cluster is taken as the distance between the data point to be measured and the cluster. If the distance between the data point to the cluster is within the set range, the matching will be successful, otherwise the matching will fail. Successfully matched data points are sorted from small to large according to the distance between the data points to clusters, and the names of the criminal gangs in the top M historical events are output as output values.
【技术实现步骤摘要】
一种针对恐怖袭击事件的数据挖掘方法
本公开涉及数据分析挖掘
,特别是涉及一种针对恐怖袭击事件的数据挖掘方法。
技术介绍
本部分的陈述仅仅是提高了与本公开相关的
技术介绍
,并不必然构成现有技术。自二十世纪九十年代以来,各种规模不等的恐怖袭击在世界多地发生,有在全球范围内迅速蔓延的趋势,提醒人们不能忽视恐怖主义对人类的威胁。所以相关安全部门十分重视恐怖组织与恐怖袭击事件数据的搜集和相关数据库的建设,同时基于相关数据库在数据挖掘方面进行了一系列的研究。数据挖掘是一种在大型数据存储库中自动发现有用信息的过程,一般包括数据预处理、数据挖掘和后处理几部分。目前相关领域关于数据挖掘的应用非常多,但是,根据以往恐怖袭击事件的特征,挖掘恐怖袭击事件与犯罪团伙的相关关系方法尚未有成熟的结果和说明。当今社会,经济迅速发展的同时犯罪率也在逐步上升,且有多起恐怖袭击事件作案者尚未确定。如果将可能是同一个恐怖组织或个人在不同时间、不同地点多次作案的若干特征串联起来,不仅有助于统一组织侦查提高破案效率,而且可以尽早发现新生或者隐藏的恐怖分子。因此利用数据挖掘技术解决此类问题就显得尤为重要, ...
【技术保护点】
1.一种针对恐怖袭击事件的数据挖掘方法,其特征是,包括:步骤(1):对每个历史事件的历史数据进行处理得到若干个历史数据点;每个历史事件都具有唯一的编号;所述对历史数据进行处理包括:对历史数据进行特征提取和对历史数据作案动机进行量化处理;每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值和作案动机量化值形成的N*1维向量;步骤(2):对待预测事件的待测数据进行处理得到待测数据点;对待测数据进行处理,包括:对待测数据进行特征提取和对待测数据作案动机进行量化处理;待测数据点是包括待预测事件对应位置数据的提取特征的特征值和作案动机量化值形成的N*1维向量;步骤(3):对 ...
【技术特征摘要】
1.一种针对恐怖袭击事件的数据挖掘方法,其特征是,包括:步骤(1):对每个历史事件的历史数据进行处理得到若干个历史数据点;每个历史事件都具有唯一的编号;所述对历史数据进行处理包括:对历史数据进行特征提取和对历史数据作案动机进行量化处理;每个历史数据点是包括每个历史事件对应历史数据的提取特征的特征值和作案动机量化值形成的N*1维向量;步骤(2):对待预测事件的待测数据进行处理得到待测数据点;对待测数据进行处理,包括:对待测数据进行特征提取和对待测数据作案动机进行量化处理;待测数据点是包括待预测事件对应位置数据的提取特征的特征值和作案动机量化值形成的N*1维向量;步骤(3):对步骤(1)得到的所有历史数据点进行降维处理;对降维处理后的结果进行子空间聚类,通过子空间聚类获得不同维度的历史数据类簇;步骤(4):计算待测数据点与历史数据类簇中每个数据对象之间的距离,把待测数据点到对应类簇中最近的数据对象的距离作为待测数据点到类簇的距离,如果待测数据点到类簇的距离在设定范围内,则匹配成功,否则匹配失败;最后,针对匹配成功的待测数据点,按照待测数据点到类簇的距离从小到大进行排序,排序靠前的M个历史事件的犯罪团伙的名称作为输出值输出。2.如权利要求1所述的方法,其特征是,所述步骤(1)的对历史数据进行特征提取的具体步骤为:数据获取步骤:获取历史恐怖袭击事件的记录数据;每个事件都设有唯一的编号;所述记录数据,包括:地区、攻击类型、财产损失金额、受伤总数、死亡总数、凶手数量、抓获的凶手数量、凶手死亡人数、事件摘要、人质绑架结果或事件的解决日期;数据预处理步骤:对历史恐怖袭击事件的记录数据均进行预处理;数据分类步骤:采用聚类算法对数据预处理后得到的数据进行分类,划分为若干类数据;特征一次提取步骤:采用主成分分析算法,从每一类数据中提取出若干个特征;特征整合步骤:对所有类数据提取的所有特征进行特征整合,得到特征集合;将特征集合以及每个特征对应的特征值作为结果输出。3.如权利要求1所述的方法,其特征是,所述数据预处理步骤,包括:数据筛选子步骤、数据填充子步骤、数据转换子步骤和数据归一化子步骤;所述数据筛选子步骤,对事件摘要、人质绑架结果和事件的解决日期进行剔除;所述数据填充子步骤,对恐怖袭击事件发生的凶手数量、死亡总数、抓获的凶手数量、受伤总数、死亡总数、凶手死亡人数和财产损失金额记录缺失值进行填充,对于待测数据进行零填充;所述数据转换子步骤,对恐怖袭击事件发生的地区、攻击类型,由文本数据转换成数字数据;所述数据归一化子步骤,对经过数据筛选、数据填充和数据转换得到的数据,采用最大最小归一化算法进行归一化处理,根据归一化处理后的数据,针对每个事件均建立N*1的矩阵,N表示数据的个数,矩阵中每个元素的值是每个记录数据对应的数值归一化后的结果。4.如权利要求1所述的方法,其特征是,所述步骤(1)的对历史数据作案动机进行量化处理的具体步骤为:步骤(101):采集以英文文本形式记录的历史数据作案动机,对历史数据的作案动机进行分词,利用python语言中的正则表达式删除历史数据中非文本内容得到初步处理的集合F1;步骤(102):拼写检查更正,利用python中的pyenchant包检查集合F1中单词拼写是否正确,将拼写错误的单词修改为拼写正确的单词,最后得到拼写正确的数据集合F2;步骤(103):词型还原,利用python中的nltk包中的WordNetLemmatizer类库,将数据集合F2中可组合成一个单词的相邻字符还原成对应单词,并利用python中的TextBlob库进行api处理,将所有单词统一为小写,输出还原为单个单词的集合F3;步骤(104):对集合F3的数据进行向量化处理,采用K均值聚类算法对向量化处理的结果进行关键词提取:以每个历史事件的历史数据为一个数据对象,依次统计每条数据对象中不同单词出现的频率,作为对应的特征值,输出形式为(Pi,bij,c),其中Pi代表集合中第i个历史事件,bij代表第i个历史事件中的第j个单词,c代表第i个历史事件中的第j个单词在第i个历史事件中对应的词频,每个历史事件的所有单词的词频以一维向量Vm表示;对生成的所有历史事件的一维向量进行K均值聚类,通过不断调整K值确定最优分类,最后产生K个类簇,根据类簇半径从大到小对K个类簇进行排序,然后,对排序的结果依次赋值,所述赋值为...
【专利技术属性】
技术研发人员:马璐璐,赵丽丽,王彩雨,王峰,俞凤萍,张伟,闫晓燕,胡斌,
申请(专利权)人:山东师范大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。