铁路事故因子辨识与关系抽取方法、系统及设备和介质技术方案

技术编号:39004286 阅读:16 留言:0更新日期:2023-10-07 10:35
本申请公开了一种铁路事故因子辨识与关系抽取方法,包括:针对事故调查分析报告、事故认定书等多源铁路历史事故写实文档,定义正则表达式设计,抽取文档中对事件描述的文本段落,进行数据清洗,获取事故文本数据集;对事故文本进行分句、分词、词性标注、命名实体识别和依存句法结构分析,进行特征提取和结构化存储;构建包含人机环管的多层致因因子体系,由相关领域专家进行特征标注形成知识库,进而提出基于文本特征的包含三层结构的致因因子辨识和关系抽取方法。本申请还公开了一种铁路事故因子辨识与关系抽取系统。本申请方法合理有效利用铁路历史事故写实文档,将专家领域知识形成知识库,进而识别事故致因因子并构建因子间关系。间关系。间关系。

【技术实现步骤摘要】
铁路事故因子辨识与关系抽取方法、系统及设备和介质


[0001]本申请涉及铁路事故分析
更具体地,涉及一种基于文本挖掘的铁路事故致因因子辨识与关系抽取方法。

技术介绍

[0002]当前,铁路系统是我国至关重要的基础设施之一,在综合交通运输体系中具有不可取代的关键地位。作为攸关旅客生命和财产安全的大型地面运输系统,铁路系统的安全性与可靠性至关重要。但铁路系统作为一个复杂的大系统,其各要素之间耦合度高,各子系统之间接口关系复杂,单一因素的微小变化都有可能导致整个系统行为的迅速恶化,从而为铁路安全运营埋下隐患,最终可能引发重大铁路事故。因此,如何规避事故、提升铁路安全运输能力,是铁路安全运营亟待解决的关键问题。而基于铁路历史事故写实文档开展分析,挖掘事故致因因子,辨识致因因子间的非线性关系,为有效预测事故风险点,提高风险预警技术,完善运营管理策略,实现铁路系统事故预防管控,具有重要现实意义。
[0003]目前常用的铁路事故分析主要利用专家经验对历史事故数据进行单因素分析,忽视了事故致因因素的多维性和关联性,或采用综合评价方法对不同因素人为加权进行事故评价。虽然现有研究已经形成了一定的理论方法,然而这些方法存在一定的局限性。一方面,受限于领域专家的经验知识。铁路的安全运营涉及到不同环节和不同专业,而不同领域的专家之间存在知识壁垒,难以从系统性视角进行综合分析;另一方面,以结构化数据信息为主,忽略了日益积累的海量非结构化数据信息的有效利用。随着铁路系统运营管理的不断发展,铁路行业建立了覆盖全国铁路固定设施、移动装备和沿线环境的传感器网,积累了面向铁路行车安全主题的海量业务信息,其中在铁路行车安全领域体量最大、保存周期最长、蕴含价值最丰富的文本文件就是铁路事故写实文档,这些非结构化文本数据作为关键事故信息载体,蕴含着丰富的价值,亟需通过文本挖掘的方式探索隐藏在文本中有关事故的发生规律,从而为铁路行车安全从被动安全向主动安全提供决策支持。
[0004]文本挖掘是针对非结构的文本数据,获取未知的、可被理解的有用知识的全过程,涉及到数据采集、存储、检索、特征提取、挖掘分析等子任务。文本挖掘方法已被广泛应用在各个领域,取得了较高的实用价值。
[0005]因此,与目前传统的事故分析方法相比,亟需提出一种基于文本挖掘的铁路事故致因因子辨识和关系抽取方法,以铁路历史事故写实文档为研究对象,通过文档转换、数据清洗、特征提取等技术将非结构化的文本数据进行结构化转换,采用文本挖掘方法提取关键特征,利用专家领域知识进行特征标注形成知识库,进而构建包含三层结构的致因因子辨识方法,辨识出事故致因因子,并抽取致因因子关系。该方法在充分运用海量铁路历史事故数据的基础上,将专家领域知识转化为知识库,避免了领域专家的局限性及主观性,构建形成统一标准的领域知识库,有效从历史事故中学习出致因因子及其关系。

技术实现思路

[0006]本申请实施例提供了一种基于文本挖掘的铁路事故致因因子辨识和关系抽取方法,以解决海量非结构化数据信息的有效利用问题。
[0007]第一方面,本申请实施例提供了一种铁路事故因子辨识与关系抽取方法,包括:
[0008]历史事故文本数据集获取步骤:针对多种来源的铁路历史事故写实文档的段落篇章布局特征,定义正则表达式,抽取历史事故写实文档中对事件描述的文本段落进行数据清洗,获取有效的历史事故文本数据集;
[0009]结构化特征提取步骤:对有效的历史事故文本数据集基于预构造的铁路领域词表进行分句的分词后,基于分词进行词性标注及命名实体识别,将词性标注的结果进行依存句法结构生成后,进行历史事故文本数据集结构化特征提取和结构化存储;
[0010]致因因子辨识分类步骤:标注历史事故文本数据的结构化特征进行知识库的构建,基于知识库通过构建包含多层致因因子的致因因子识别方法进行事故致因因子辨识,分类得到多层事故致因因子集;
[0011]致因因子关系抽取步骤:基于多层事故致因因子集进行排序组合,构建形成事故致因因子链,实现事故致因因子关系的抽取。
[0012]优选的,上述历史事故文本数据集获取步骤进一步包括:
[0013]文本格式转换步骤:针对包含多种格式及多个来源的铁路历史事故写实文档,采用统一文件编码方式进行文件类型转换,得到可识别格式的文件;
[0014]有效文本获取步骤:分析可识别格式的文件的段落篇章布局特征,设计正则表达式,过滤清洗无关的铁路历史事故文本,获得由有效的铁路历史事故文本组成的铁路历史事故文本数据集。
[0015]优选的,上述结构化特征提取进一步包括:
[0016]分词步骤:针对铁路历史事故文本,根据标点符号进行分句划分,得到分句集,铁路领域词表包括:铁路领域停用词表及铁路领域个性化分词表,采用预训练分词模型,结合铁路领域停用词表及铁路系统个性化分词表,针对分句集进行分词,得到分词结果;
[0017]词性标注步骤:针对铁路历史事故文本分句的分词结果,采用预训练词性标注模型进行词性标注;
[0018]命名实体识别步骤:针对铁路历史事故文本分句的分词结果,采用预训练命名实体识别模型进行命名实体识别;
[0019]词性筛选步骤:基于词性标注步骤得到的词性标注结果,对铁路历史事故文本进行分词词性筛选,保留预设有效词类,将筛选结果拼接,形成对应于铁路历史事故文本的新文本及新语料;
[0020]词频

逆向文件频率值计算步骤:针对新语料计算各个铁路历史事故文本中筛选后预设有效词类的词频

逆向文件频率TF

IDF值,计算得出词语在不同文档中的代表性评分;
[0021]补充优化步骤:通过筛选各文档中代表性评分较高的词语,重复执行分词步骤至词频

逆向文件频率值计算步骤,对铁路领域停用词表及铁路领域个性化分词表进行补充优化;
[0022]依存句法结构识别步骤:基于铁路历史事故文本分句的分词结果及词性标注结果
作为特征输入,采用预训练依存句法分析模型进行依存句法结构识别,分句中可得到多种依存句法结构,形成多元组特征并进行结构化存储。
[0023]优选的,上述致因因子辨识分类步骤进一步包括:
[0024]致因因子体系构建步骤:构建基于人机环管的多层致因因子体系,形成致因因子分类标签与描述的映射关系;
[0025]知识库构建步骤:针对文本数据的结构化特征进行标注构建多层知识库,知识库包括:映射关系、关键词词表及依存结构表;
[0026]致因因子集获取步骤:针对铁路历史事故文本数据集,完成数据清洗及文本特征计算后,基于知识库通过构建包含多层结构的致因因子识别进行事故致因因子分类辨识,生成致因因子备选集,通过对致因因子融合去重,得到了测试铁路历史事故文本数据集对应的致因因子集。
[0027]优选的,上述知识库构建步骤进一步包括:
[0028]获取铁路历史事故文本中词性标注为预设标记的外语单词,外语单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种铁路事故因子辨识与关系抽取方法,其特征在于,所述铁路事故因子辨识与关系抽取方法包括:历史事故文本数据集获取步骤:针对多种来源的铁路历史事故写实文档段落篇章布局特征,定义正则表达式,抽取所述历史事故写实文档中对事件描述的文本段落进行数据清洗,获取有效的历史事故文本数据集;结构化特征提取步骤:对所述有效的历史事故文本数据集基于预构造的铁路领域词表进行分句的分词后,基于所述分词进行词性标注及命名实体识别,将所述词性标注的结果进行依存句法结构生成后,进行所述历史事故文本数据集结构化特征提取和结构化存储;致因因子辨识分类步骤:标注所述历史事故文本数据的结构化特征进行知识库的构建,基于所述知识库通过构建包含多层致因因子的致因因子识别方法进行事故致因因子辨识,分类得到多层事故致因因子集;致因因子关系抽取步骤:基于所述多层事故致因因子集进行排序组合,构建形成事故致因因子链,实现事故致因因子关系的抽取。2.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述历史事故文本数据集获取步骤进一步包括:文本格式转换步骤:针对包含多种格式及多个来源的铁路历史事故写实文档,采用统一文件编码方式进行文件类型转换,得到可识别格式的文件;有效文本获取步骤:分析所述可识别格式的文件的段落篇章布局特征,设计正则表达式,过滤清洗无关的铁路历史事故文本,获得由有效的铁路历史事故文本组成的铁路历史事故文本数据集。3.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述结构化特征提取进一步包括:分词步骤:针对所述铁路历史事故文本,根据标点符号进行分句划分,得到分句集,所述铁路领域词表包括:铁路领域停用词表及铁路领域个性化分词表,采用预训练分词模型,结合铁路领域停用词表及铁路系统个性化分词表,针对所述分句集进行分词,得到分词结果;词性标注步骤:针对所述铁路历史事故文本分句的分词结果,采用预训练词性标注模型进行词性标注;命名实体识别步骤:针对所述铁路历史事故文本分句的分词结果,采用预训练命名实体识别模型进行命名实体识别;词性筛选步骤:基于所述词性标注步骤得到的词性标注结果,对所述铁路历史事故文本进行分词词性筛选,保留预设有效词类,将筛选结果拼接,形成对应于所述铁路历史事故文本的新文本及新语料;词频

逆向文件频率值计算步骤:针对所述新语料计算各个所述铁路历史事故文本中筛选后所述预设有效词类的词频

逆向文件频率TF

IDF值,计算得出词语在不同文档中的代表性评分;补充优化步骤:通过筛选各文档中所述代表性评分较高的词语,重复执行所述分词步骤至所述词频

逆向文件频率值计算步骤,对所述铁路领域停用词表及所述铁路领域个性化分词表进行补充优化;
依存句法结构识别步骤:基于所述铁路历史事故文本分句的分词结果及词性标注结果作为特征输入,采用预训练依存句法分析模型进行依存句法结构识别,所述分句中可得到多种依存句法结构,形成多元组特征并进行结构化存储。4.根据权利要求1所述铁路事故因子辨识与关系抽取方法,其特征在于,所述致因因子辨识分类步骤进一步包括:致因因子体系构建步骤:构建基于人机环管的多层致因因子体系,形成致因因子分类标签与描述的映射关系;知识库构建步骤:针对文本数据的结构化特征进行标注构建多层知识库,所述知识库包括:映射关系、关键词词表及依存结构表;致因因子集获取步骤:针对所述铁路历史事故文本数据集,完成数据清洗及文本特征计算后,基于所述知识库通过构建包含多层结构的致因因子识别进行事故致因因子分类辨识,生成致因因子备选集,通过对致因因子融合去重,得到了测试铁路历史事故文本数据集对应的致因因子集。5.根据权利要求4所述铁路事故因子辨识与关系抽取方法,其特征在于,所述知识库构建步骤进一步包括:获取铁路历史事故文本中词...

【专利技术属性】
技术研发人员:刘佩张可新李和壁陈家旭王铭铭刘磊张鹏谢泽颜珊珊李金波徐宁王小铁王立乾孙耿杰汤飞付巧玲胡莫张艳磊
申请(专利权)人:中国铁道科学研究院集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1