【技术实现步骤摘要】
铁路事故因子辨识与关系抽取方法、系统及设备和介质
[0001]本申请涉及铁路事故分析
更具体地,涉及一种基于文本挖掘的铁路事故致因因子辨识与关系抽取方法。
技术介绍
[0002]当前,铁路系统是我国至关重要的基础设施之一,在综合交通运输体系中具有不可取代的关键地位。作为攸关旅客生命和财产安全的大型地面运输系统,铁路系统的安全性与可靠性至关重要。但铁路系统作为一个复杂的大系统,其各要素之间耦合度高,各子系统之间接口关系复杂,单一因素的微小变化都有可能导致整个系统行为的迅速恶化,从而为铁路安全运营埋下隐患,最终可能引发重大铁路事故。因此,如何规避事故、提升铁路安全运输能力,是铁路安全运营亟待解决的关键问题。而基于铁路历史事故写实文档开展分析,挖掘事故致因因子,辨识致因因子间的非线性关系,为有效预测事故风险点,提高风险预警技术,完善运营管理策略,实现铁路系统事故预防管控,具有重要现实意义。
[0003]目前常用的铁路事故分析主要利用专家经验对历史事故数据进行单因素分析,忽视了事故致因因素的多维性和关联性,或采用综合评价方法对不同因素人为加权进行事故评价。虽然现有研究已经形成了一定的理论方法,然而这些方法存在一定的局限性。一方面,受限于领域专家的经验知识。铁路的安全运营涉及到不同环节和不同专业,而不同领域的专家之间存在知识壁垒,难以从系统性视角进行综合分析;另一方面,以结构化数据信息为主,忽略了日益积累的海量非结构化数据信息的有效利用。随着铁路系统运营管理的不断发展,铁路行业建立了覆盖全国铁路固定设施、移动装 ...
【技术保护点】
【技术特征摘要】
1.一种铁路事故因子辨识与关系抽取方法,其特征在于,所述铁路事故因子辨识与关系抽取方法包括:历史事故文本数据集获取步骤:针对多种来源的铁路历史事故写实文档段落篇章布局特征,定义正则表达式,抽取所述历史事故写实文档中对事件描述的文本段落进行数据清洗,获取有效的历史事故文本数据集;结构化特征提取步骤:对所述有效的历史事故文本数据集基于预构造的铁路领域词表进行分句的分词后,基于所述分词进行词性标注及命名实体识别,将所述词性标注的结果进行依存句法结构生成后,进行所述历史事故文本数据集结构化特征提取和结构化存储;致因因子辨识分类步骤:标注所述历史事故文本数据的结构化特征进行知识库的构建,基于所述知识库通过构建包含多层致因因子的致因因子识别方法进行事故致因因子辨识,分类得到多层事故致因因子集;致因因子关系抽取步骤:基于所述多层事故致因因子集进行排序组合,构建形成事故致因因子链,实现事故致因因子关系的抽取。2.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述历史事故文本数据集获取步骤进一步包括:文本格式转换步骤:针对包含多种格式及多个来源的铁路历史事故写实文档,采用统一文件编码方式进行文件类型转换,得到可识别格式的文件;有效文本获取步骤:分析所述可识别格式的文件的段落篇章布局特征,设计正则表达式,过滤清洗无关的铁路历史事故文本,获得由有效的铁路历史事故文本组成的铁路历史事故文本数据集。3.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述结构化特征提取进一步包括:分词步骤:针对所述铁路历史事故文本,根据标点符号进行分句划分,得到分句集,所述铁路领域词表包括:铁路领域停用词表及铁路领域个性化分词表,采用预训练分词模型,结合铁路领域停用词表及铁路系统个性化分词表,针对所述分句集进行分词,得到分词结果;词性标注步骤:针对所述铁路历史事故文本分句的分词结果,采用预训练词性标注模型进行词性标注;命名实体识别步骤:针对所述铁路历史事故文本分句的分词结果,采用预训练命名实体识别模型进行命名实体识别;词性筛选步骤:基于所述词性标注步骤得到的词性标注结果,对所述铁路历史事故文本进行分词词性筛选,保留预设有效词类,将筛选结果拼接,形成对应于所述铁路历史事故文本的新文本及新语料;词频
‑
逆向文件频率值计算步骤:针对所述新语料计算各个所述铁路历史事故文本中筛选后所述预设有效词类的词频
‑
逆向文件频率TF
‑
IDF值,计算得出词语在不同文档中的代表性评分;补充优化步骤:通过筛选各文档中所述代表性评分较高的词语,重复执行所述分词步骤至所述词频
‑
逆向文件频率值计算步骤,对所述铁路领域停用词表及所述铁路领域个性化分词表进行补充优化;
依存句法结构识别步骤:基于所述铁路历史事故文本分句的分词结果及词性标注结果作为特征输入,采用预训练依存句法分析模型进行依存句法结构识别,所述分句中可得到多种依存句法结构,形成多元组特征并进行结构化存储。4.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述致因因子辨识分类步骤进一步包括:致因因子体系构建步骤:构建基于人机环管的多层致因因子体系,形成致因因子分类标签与描述的映射关系;知识库构建步骤:针对文本数据的结构化特征进行标注构建多层知识库,所述知识库包括:映射关系、关键词词表及依存结构表;致因因子集获取步骤:针对所述铁路历史事故文本数据集,完成数据清洗及文本特征计算后,基于所述知识库通过构建包含多层结构的致因因子识别进行事故致因因子分类辨识,生成致因因子备选集,通过对致因因子融合去重,得到了测试铁路历史事故文本数据集对应的致因因子集。5.根据权利要求4所述铁路事故因子辨识与关系抽取方法,其特征在于,所述知识库构建步骤进一步包括:获取铁路历史事故文本中词...
【专利技术属性】
技术研发人员:刘佩,张可新,李和壁,陈家旭,王铭铭,刘磊,张鹏,谢泽,颜珊珊,李金波,徐宁,王小铁,王立乾,孙耿杰,汤飞,付巧玲,胡莫,张艳磊,
申请(专利权)人:中国铁道科学研究院集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。