基于K-means聚类的铁路突发事件分级预警方法技术

技术编号:20161286 阅读:26 留言:0更新日期:2019-01-19 00:14
本发明专利技术提供了一种基于K‑means聚类的铁路突发事件分级预警方法。该方法包括:对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集;确定聚类中心数,基于K‑means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征;将当前铁路突发事件的数据特征与所述各级铁路突发事件的样本数据特征进行比较,根据比较结果确定所述当前铁路突发事件的突发事件等级。本发明专利技术的方法采用数据挖掘机器学习理论,避免主观决策,对铁路突发事件影响动态定量评估分级。实验结果表明该方法能够合理有效解决突发事件影响分级预警,实用性好。

【技术实现步骤摘要】
基于K-means聚类的铁路突发事件分级预警方法
本专利技术涉及
,尤其涉及一种基于K-means聚类的铁路突发事件分级预警方法。
技术介绍
铁路安全运营日益得到关注,铁路突发事件影响分级预警对铁路安全运营具有至关重要的作用。现阶段铁路突发事件影响分级预警研究多是依据线路运营中断时间、人员伤亡和财产损失等特征,采用层次分析法对铁路突发事件影响事后评估划分等级,划分权重根据专家经验确定,具有较强的主观性,并且评估事件影响粒度较大,主要针对铁路运营造成严重影响的重大事件,不适应于现今公众对铁路特别是高速铁路准点、舒适的服务需求。K-means聚类算法是一种无监督学习数据聚类算法,用于数据挖掘领域。K-means聚类算法基于样本间相似性度量对数据分组,使得组内样本相似性最大,组间样本差别最大,实现相似样本聚类的目的。K-means聚类算法具有结构简单、速度快等优点。现有技术中还没有一种有效的基于K-means聚类的铁路突发事件分级预警方法。
技术实现思路
本专利技术的实施例提供了一种基于K-means聚类的铁路突发事件分级预警方法,以克服现有技术的缺点。为了实现上述目的,本专利技术采取了如下技术方案。一种基于K-means聚类的铁路突发事件分级预警方法,包括:对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集;确定聚类中心数,基于K-means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征;将当前铁路突发事件的数据特征与所述各级铁路突发事件的样本数据特征进行比较,根据比较结果确定所述当前铁路突发事件的突发事件等级。进一步地,所述的对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集,包括:通过对历史铁路突发事件影响数据分析,从铁路列车运行状态角度,提取铁路突发事件的影响特征X={x1,x2,L,xd},根据影响特征X形成d维实数的影响特征向量,其中xi为第i维影响特征的值;根据所述影响特征向量,整理历史铁路突发事件影响形成记录集,对所述记录集进行数据清洗,处理所述记录集中特征数据缺失的记录样本,形成特征完备数据集其中X′i={x′i,1,x′i,2,L,x′i,d}为第i个特征完备的数据样本,x′i,d为第i个数据样本的d维特征值,N为特征完备数据样本个数;对所述特征完备数据集中的分类型特征进行独热编码,对所述特征完备数据集中的数值型特征进行最大最小归一化处理,归一化后的数据特征值xi,j为:其中x′i,j为归一化处理前的第i个数据样本的j维特征值,得到训练数据集Xi={xi,1,xi,2,L,xi,d}。进一步地,所述的确定聚类中心数,基于K-means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征,包括:步骤2.1:采用一定范围内的网格搜索方法,分别计算Calinski-HarabazIndex和迭代误差确定聚类中心数k;步骤2.2:从N个数据样本中任意选取k个数据样本作为初始聚类中心并初始化迭代器m=0;步骤2.3:计算训练数据集中每个数据样本与聚类中心之间的欧式距离,以最大化簇间距离,最小化簇内距离为目标,以φmin目标函数,划分每个数据样本的类别,其中,wi,j为0-1变量,wi,j=1表示样本Xi属于聚类中心Cj簇内样本,否则wi,j=0;步骤2.4:根据更新后簇内样本数据,计算每簇聚类中心,更新m=m+1与聚类中心步骤2.5:计算聚类方差,并判断聚类方差是否满足最小标准,如果满足,输出k个聚类中心及各簇内的数据样本;否则,继续执行步骤2.3。进一步地,所述的根据聚类结果获取各级铁路突发事件的样本数据特征,包括:突发事件Ⅰ级预警特征为列车晚点时间21min以上或列车限速250km/h以下;突发事件Ⅱ级预警特征为列车晚点时间14~21min或列车限速250~300km/h;突发事件Ⅲ级预警特征为列车晚点时间9~14min或列车限速300~310km/h;突发事件Ⅳ级预警特征为列车晚点时间5~9min或列车限速310~325km/h;突发事件Ⅴ级预警特征为列车晚点时间5min以下或列车限速325~350km/h。进一步地,所述的将当前铁路突发事件的数据特征与所述各级铁路突发事件的样本数据特征进行比较,根据比较结果确定所述当前铁路突发事件的突发事件等级,包括:所述突发事件Ⅰ级、Ⅱ级、Ⅲ级、Ⅳ级和Ⅴ级的样本数据特征向量包含:车次等级、车型、事件类型、事件发生所在线路、事件发生位置及属性、事件影响区间及车站数量、列车晚点类型、晚点时间、列车限速、晚点列车数量、停运列车数量、影响持续时间和是否启用备用动车组;将当前发生的铁路突发事件中的列车晚点时间和列车限速量化分别与上述突发事件Ⅰ级、Ⅱ级、Ⅲ级、Ⅳ级和Ⅴ级的样本数据特征向量中的晚点时间、列车限速进行比较,根据比较结果结合突发事件Ⅰ级、Ⅱ级、Ⅲ级、Ⅳ级和Ⅴ级事件等级划分准则,定位当前突发事件等级,实现铁路突发事件分级预警。由上述本专利技术的实施例提供的技术方案可以看出,本专利技术实施例的方法基于数据挖掘机器学习理论,根据历史铁路突发事件影响数据,通过数据清洗和特征处理,获得定量评价事件影响特征和标准化样本数据;采用K-means聚类进行训练,最终得到铁路突发事件影响等级与相关对应的定量特征,能够对突发事件影响更加准确的分级预警,验证结果表明此方法具有很高的实用价值。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种基于K-means聚类的铁路突发事件分级预警方法流程图;图2为本专利技术实施例提供的一种优化k-means算法中的超参数K值示意图;图3为本专利技术实施例提供的一种聚类中心样本数量统计示意图;图4为本专利技术实施例提供的一种训练集样本聚类二维空间可视化示意图;图5为本专利技术实施例提供的一种训练集样本距聚类中心的距离示意图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术本文档来自技高网
...

【技术保护点】
1.一种基于K‑means聚类的铁路突发事件分级预警方法,其特征在于,包括:对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集;确定聚类中心数,基于K‑means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征;将当前铁路突发事件的数据特征与所述各级铁路突发事件的样本数据特征进行比较,根据比较结果确定所述当前铁路突发事件的突发事件等级。

【技术特征摘要】
1.一种基于K-means聚类的铁路突发事件分级预警方法,其特征在于,包括:对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集;确定聚类中心数,基于K-means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征;将当前铁路突发事件的数据特征与所述各级铁路突发事件的样本数据特征进行比较,根据比较结果确定所述当前铁路突发事件的突发事件等级。2.根据权利要求1所述的方法,其特征在于,所述的对历史铁路突发事件影响数据进行特征分析与数据清洗,获取训练数据集,包括:通过对历史铁路突发事件影响数据分析,从铁路列车运行状态角度,提取铁路突发事件的影响特征X={x1,x2,L,xd},根据影响特征X形成d维实数的影响特征向量,其中xi为第i维影响特征的值;根据所述影响特征向量,整理历史铁路突发事件影响形成记录集,对所述记录集进行数据清洗,处理所述记录集中特征数据缺失的记录样本,形成特征完备数据集其中X′i={x′i,1,x′i,2,L,x′i,d}为第i个特征完备的数据样本,x′i,d为第i个数据样本的d维特征值,N为特征完备数据样本个数;对所述特征完备数据集中的分类型特征进行独热编码,对所述特征完备数据集中的数值型特征进行最大最小归一化处理,归一化后的数据特征值xi,j为:其中x′i,j为归一化处理前的第i个数据样本的j维特征值,得到训练数据集Xi={xi,1,xi,2,L,xi,d}。3.根据权利要求2所述的方法,其特征在于,所述的确定聚类中心数,基于K-means算法对所述训练数据集进行聚类,根据聚类结果获取各级铁路突发事件的样本数据特征,包括:步骤2.1:采用一定范围内的网格搜索方法,分别计算Calinski-HarabazIndex和迭代误差确定聚类中心数k;步骤2.2:从N个数据样本中任意选取k个数据样本作为初始聚类中心并初始化迭代器m=0;步骤2.3:计算训练数据集...

【专利技术属性】
技术研发人员:王莉王铭铭秦勇贾利民张惠茹郭建媛徐杰程晓卿
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1