【技术实现步骤摘要】
一种基于事故文本的城市轨道交通运营风险点综合辨识方法
[0001]本专利技术涉及城市轨道交通
,尤其涉及一种基于事故文本的城市轨道交通运营风险点综合辨识方法。
技术介绍
[0002]城市轨道交通系统通常规模庞大、结构功能和运行工况复杂、系统内各部分耦合关系强、人员和设备高度密集,且一般处于封闭环境下,具有“小故障、大影响”的特点。城市轨道交通系统的运营既涵盖人的因素,又与设备设施及移动装备、环境以及管理息息相关,其各方面的潜在危险要素若被触发很可能造成局部故障甚至运营事故,造成巨大的人身和财产损失。且现今许多大中型城市的轨道交通系统采用规模化、网络化运营的模式,线网里程超长、服务频次性极高,这对当今城市轨道交通安全运营也提出了更高的要求。在规模庞大、结构复杂的路网中,运营安全事故一旦发生其波及的深度和广度将远超出单一运营事故本身的后果。
[0003]城市轨道交通系统的运营过程与系统内众多的组分节点密切相关,这些组分节点涉及人、机、环和管多种类型。相当一部分的组分节点可能受到不安全的因素影响,是具有“风险”或可能 ...
【技术保护点】
【技术特征摘要】
1.一种基于事故文本的城市轨道交通运营风险点综合辨识方法,其特征在于,包括:获取城市轨道交通事故案例的文本数据,将每一则事故案例对应一条事故文本数据,划分事故类别文本集;建立城市轨道交通运营的安全专业词库和事故报告规范化模板;基于所述事故报告规范化模板对事故文本数据进行规范化预处理;基于所述安全专业词库对规范化预处理后的事故文本数据进行语义共现分析,根据分析结果建立框架词语集合;基于词频
‑
逆文本频率指数TF
‑
IDF算法表征所述框架词语集合的重要性,使用变异系数赋权法对框架词语集合赋权;基于BTM主题模型对事故文本数据进行关键词语提取,基于框架词语集合的权重计算出关键词语的概率;计算出所述框架词语集合中的词语在事故文本中的重要程度;将所述关键词语的概率和所述词语的重要度两个综合指标的乘积作为词的风险判断指标,基于所述城市轨道交通运营的安全专业词库和所述词的风险判断指标进行城市轨道交通系统的运营风险点的综合辨识。2.根据权利要求1所述的方法,其特征在于,所述的建立城市轨道交通运营的安全专业词库和事故报告规范化模板,包括:设置城市轨道交通运营系统的安全专业词库包括人员、物理类、管理类和环境类四大类,其中物理类包含车辆系统、供电系统、机电系统、土建设施系统、线路系统和信号系统等多个设备设施子系统;设置城市轨道交通运营事故报告的规范化模板的格式如表4所示:表4城市轨道交通运营的事故报告规范化模板
。3.根据权利要求2所述的方法,其特征在于,所述的基于所述事故报告规范化模板对事故文本数据进行规范化预处理,包括:基于城市轨道交通运营的事故报告规范化模板,对事故文本数据的格式进行一致化处理,将原始事故文本数据中的部分残缺和遗漏进行补全,检查全部事故文本数据,简化纯描述性语句,规范非正式术语。4.根据权利要求3所述的方法,其特征在于,所述的基于所述安全专业词库对规范化预处理后的事故文本数据进行语义共现分析,根据分析结果建立框架词语集合,包括:使用Jaccard相似系数作为表征语义中词语共现程度的指标,给定两个集合A和B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,表示如下:式中J(A,B)——Jaccard系数值,J(A,B)∈[0,1],当集合A,B都为空时,J(A,B)定义为1;根据词频和相似关系的计算结果确定共现单词对,规定当词语出现次数大于30且必须出现在总数前1%的案例中,词间连接的Jaccard系数大于0.2,则将该词语纳入框架词语集合中;使用KHcoder软件进行编码和可视化,对城市轨道交通系统运营的安全事故案例进行语义共现分析,针对所得词语分析结果,分别对应建立人员类、设备和环境类、物理过程和参与者活动类、技术措施和管理方法类、基本信息描述类五个框架词语集合,分别用公式(2)、(3)、(4)、(5)、(6)表示。V
H
={v
H1
,v
H2
,v
H3
,...,v
Hn
}(2)V
E
={v
E1
,v
E2
,v
E3
,...,v
Em
}(3)V
P
={v
P1
,v
P2
,v
P3
,...,v
Pi
}(4)
V
T
={v
T1
,v
T2
,v
T3
,...,v
Tj
}(5)V
B
={v
B1
,v
B2
,v
B3
,...,v
Bq
}(6)V
H
——人员类框架词语集合;V
E
——设备和环境类框架词语集合;V
P
——物理过程和参与者活动类框架词语集合;V
T
——技术措施和管理方法类框架词语集合;V
B
——基本信息描述类框架词语集合;n——人员类框架词语集合中词语的总个数;m——设备和环境类框架词语集合词语的总个数;i——物理过程和参与者活动类框架词语集合中词语的总个数;j——技术措施和管理方法类框架词语集合中词语的总个数;q——基本信息描述类框架词语集合中词。5.根据权利要求4所述的方法,其特征在于,所述的基于词频
‑
逆文本频率指数TF
‑
IDF算法表征所述框架词语集合的重要性,使用变异系数赋权法对框架词语集合赋权,包括:使用变异系数赋权法对每个框架词语集合进行赋权,将每个框架词语集合的权值作为从语义角度出发的事故全文文本的特征值,该特征值包括词频TF、逆文档频率IDF、词频
‑
逆文档频率TF
‑
IDF和变异系数与权重;词频TF用来衡量表征词语在全部事故文本中出现的频率,利用下式(7)完成词频TF的归一化处理;式中——词语v
x
的词频;——词语v
x
在事故文本d
w
中出现的次数;——事故文本d
w
中所有分词的总数。逆文档频率IDF用来衡量关键词的普遍重要程度的特征参量,给分母进行加1处理。式中——词语v
x
的全文逆文档频率;|D|——全部事故文本的总个数;1+|{k:v
x
∈d
k
}|——包含词语v
x
的事故文本总个数。词频
‑
逆文档频率TF
‑
IDF用来计算某一词在全文综合频率,反映此关键词在事故文本集中的全局重要程度,权重值越高表明该词在事故文本中的重要度越高,计算方式为下式(9)。式中——关键词v
x
的事故文本语料库的全文词频;——关键词v
x
的全文逆文档频率;
TF
‑
IDF(v
x
)——关键词v
x
在事故文本集中的词频
‑
逆文档频率值。根据各评价指标当前值与具标值的变异程度对各指标进行赋权,当各指标现有值与目标值差距较大时,说明该指标较难实现目标值,应该赋予较大的权重,反之则应该赋予较小的权重,以人员类框架词语集合为例,其变异系数计算为式(10),其对应的人员子框架的权重算式为式(11);重算式为式(11);式中C(V
H
)——人员类框架词语集合的变异系数;σ(V
H
)——人员类框架词语集合各词语TF
‑
IDF值的标准差;——人员类框架词语集合各词语TF
‑
IDF值的均值...
【专利技术属性】
技术研发人员:王艳辉,牛鹏骅,绳可欣,张天格,贾利民,李曼,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。