基于领域词典的空管事件报告风险要素识别方法及系统技术方案

技术编号:38684693 阅读:14 留言:0更新日期:2023-09-02 22:57
本发明专利技术公开了一种基于领域词典的空管事件报告风险要素识别方法及系统,解决了民航空管领域不安全事件报告等文本数据风险要素提取精确度不高的问题,实现不安全事件致因精准识别。将通过数据预处理后的空管危险源数据进行语义切分,利用组合次数最大匹配方法得到构成领域词典的候选词语,根据组合稳定性分析筛选出部分词语并形成初始词典,结合最佳汇入量对初始词典进行优化升级得到最终民航空管领域词典,将其融入TF

【技术实现步骤摘要】
基于领域词典的空管事件报告风险要素识别方法及系统


[0001]本专利技术涉及民航安全风险识别
,具体涉及一种基于领域词典的空管事件报告风险要素识别方法及系统。

技术介绍

[0002]加强安全生产是民航业发展的重中之重,交通运输部强调要强化全年安全生产治理,确保交通行业安全稳定。空管作为民航业的一部分发挥着重要作用,要努力提高民航空管安全生产水平,推动空管智慧化发展。
[0003]民航空管不安全事件报告是分析事故以及事故征候的重要依据,其内容主要是对不安全事件进行详细的描述,包含许多领域内部词语,具有专业性较高的特点。如何充分的利用不安全事件报告成为当下面临的一个主要问题,对不安全事件报告实现风险要素自动提取可以节省数据处理的时间,在文本分类、事故类型分析等方面都有着重要意义。
[0004]现有的关于风险要素识别的研究多是基于词频以及语义关联的,然而并没有考虑到对文本数据预处理过程的改进,传统的文本预处理过程包括文本清洗、分词处理以及停用词处理,在文本清洗阶段将数据中的非文本内容、数字、字母以及标点符号等进行清除,分词处理通过词库匹配以及通过规则和语义的方式进行文档切分,最后通过停用词处理提升切分单元的可用性。
[0005]本专利技术提出一种基于民航空管领域词典构建的风险要素识别改进算法,通过构建领域词典对分词精度进行提升,进而改进最终的风险要素识别效果,并在此基础上进一步优化词典,使得最终提取结果可读性更强,表达效果更好。

技术实现思路

[0006]本专利技术所要解决的技术问题是:提供一种基于领域词典的空管事件报告风险要素识别方法及系统,增强不安全事件报告风险要素识别的准确性和可读性,提高不安全事件致因识别的准确度。
[0007]本专利技术为了解决上述技术问题采用的技术方案如下:
[0008]基于领域词典的空管事件报告风险要素识别方法,包括如下步骤:
[0009]步骤1:收集民航空管危险源数据以及民航空管不安全事件报告数据,其中,民航空管危险源数据包括危险源触发因素、造成的后果、现有防控机制以及风险缓控措施;民航空管不安全事件报告数据包括不安全事件发生的时空数据、不安全事件发生的详细记录过程、不安全事件发生的结果;
[0010]步骤2:对步骤1民航空管危险源数据进行数据预处理,形成格式统一的民航空管危险源数据样本;
[0011]步骤3:对步骤2格式统一的民航空管危险源数据样本进行语义切分,形成民航空管危险源数据切分单元;
[0012]步骤4:对步骤3民航空管危险源数据切分单元采用组合次数最大匹配方法分析,
获得候选词语;
[0013]步骤5:对步骤4候选词语进行组合稳定性筛选,将筛选结果与民航空管基础词典融合形成初始民航空管领域词典;
[0014]步骤6:对步骤5初始民航空管领域词典构成后剩余候选词语进行组合稳定性排序,以最佳汇入量依次加入初始民航空管领域词典中,得到最终民航空管领域词典;
[0015]步骤7:将步骤6形成的最终民航空管领域词典融入到TF

IDF算法中,进行民航空管不安全事件报告的风险要素识别。
[0016]作为本专利技术方法的一种优选方案,所述步骤2中,对民航空管危险源数据进行预处理的过程如下:
[0017]步骤2.1:删除民航空管危险源数据中包括航班号、飞行时间、飞行高度以及航速等字母和数字类型的数据;
[0018]步骤2.2:依据百度停用词库整合出停用词表,将专业相关度低的词语删除。
[0019]作为本专利技术方法的一种优选方案,所述步骤3中,语义切分采用的分词工具为pkuseg,对民航空管危险源数据样本进行语义切分,形成民航空管危险源数据切分单元。
[0020]作为本专利技术方法的一种优选方案,所述步骤4中,组合次数最大匹配方法的规则如下:
[0021]在步骤3得到的民航空管危险源数据切分单元的基础上,按照数据库中已经出现的组合形式匹配所有的组合,将组合次数大于1的组合筛选出来,构成候选词语。
[0022]作为本专利技术方法的一种优选方案,所述步骤5中,组合稳定性的计算规则如下:
[0023][0024]其中,S是候选词语的组合稳定性;f
o
是候选词语在民航空管危险源数据中出现的次数;ω
i
是指构成候选词语的切分单元集合,其个数为m;为第i个切分单元在民航空管危险源数据中出现的次数。筛选出组合稳定性为1的候选词语。
[0025]民航空管基础词典为通过网络爬虫技术爬取到民用航空空中交通管理专业词汇,以此构成基础词典。
[0026]作为本专利技术方法的一种优选方案,所述步骤6中,最佳汇入量的确定规则如下:
[0027]将步骤5中组合稳定性计算结果介于0

1之间的候选词语按照从高到低的顺序加入初始民航空管领域词典中,对比风险要素识别精确度,在精确度达到稳定值时,确定此时的候选词语添加量为最佳汇入量。
[0028]作为本专利技术方法的一种优选方案,所述步骤7中,进行民航空管不安全事件报告风险要素识别的具体过程为:
[0029]对民航空管不安全事件报告进行数据预处理,结合步骤6中形成的最终民航空管领域词典进行民航空管不安全事件报告分词处理,通过TF

IDF算法进行民航空管不安全事件报告风险要素识别。
[0030]基于领域词典的空管事件报告风险要素识别系统,该系统包括初始民航空管领域词典构建模块、初始民航空管领域词典优化模块以及民航空管不安全事件报告风险要素识别模块,所述初始民航空管领域词典构建模块包括数据收集单元、数据预处理单元、语义切分单元、组合次数最大匹配单元以及组合稳定性筛选单元;
[0031]所述数据收集单元用于收集原始的民航空管危险源数据以及民航空管不安全事件报告数据;
[0032]所述数据预处理单元用于对收集到的民航空管危险源数据进行预处理,得到民航空管危险源数据样本;
[0033]所述语义切分单元用于对民航空管危险源数据样本进行分词处理,得到民航空管危险源数据切分单元;
[0034]所述组合次数最大匹配单元用于将民航空管危险源数据切分单元进行组合匹配,集合匹配次数大于1的组合形成候选词语;
[0035]所述组合稳定性筛选单元用于筛选组合稳定性为1的候选词语,得到初始民航空管领域词典;
[0036]所述初始民航空管领域词典优化模块用于对初始民航空管领域词典进行优化升级,通过最佳汇入量加入组合稳定性介于0

1之间的候选词语,使得初始民航空管领域词典得到强化,得到最终的民航空管领域词典;
[0037]所述民航空管不安全事件报告风险要素识别模块用于结合民航空管领域词典与TF

IDF算法进行民航空管不安全事件报告风险要素识别。
[0038]本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:
[0039]本专利技术从文本数据的特点出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域词典的空管事件报告风险要素识别方法,其特征在于,包括如下步骤:步骤1:收集民航空管危险源数据以及民航空管不安全事件报告数据,其中,民航空管危险源数据包括危险源触发因素、造成的后果、现有防控机制以及风险缓控措施;民航空管不安全事件报告数据包括不安全事件发生的时空数据、不安全事件发生的详细记录过程、不安全事件发生的结果;步骤2:对步骤1民航空管危险源数据进行数据预处理,形成格式统一的民航空管危险源数据样本;步骤3:对步骤2格式统一的民航空管危险源数据样本进行语义切分,形成民航空管危险源数据切分单元;步骤4:对步骤3民航空管危险源数据切分单元采用组合次数最大匹配方法分析,获得候选词语;步骤5:对步骤4候选词语进行组合稳定性筛选,将筛选结果与民航空管基础词典融合形成初始民航空管领域词典;步骤6:对步骤5初始民航空管领域词典构成后剩余候选词语进行组合稳定性排序,以最佳汇入量依次加入初始民航空管领域词典中,得到最终民航空管领域词典;步骤7:将步骤6形成的最终民航空管领域词典融入到TF

IDF算法中,进行民航空管不安全事件报告的风险要素识别。2.根据权利要求1所述的基于领域词典的空管事件报告风险要素识别方法,其特征在于,所述步骤2中数据预处理过程为:步骤2.1:删除民航空管危险源数据中包括航班号、飞行时间、飞行高度以及航速等字母和数字类型的数据;步骤2.2:依据百度停用词库整合出停用词表,将专业相关度低的词语删除。3.根据权利要求1所述的基于领域词典的空管事件报告风险要素识别方法,其特征在于,所述步骤3中语义切分采用的分词工具为pkuseg,对民航空管危险源数据样本进行语义切分,形成民航空管危险源数据切分单元。4.根据权利要求1所述的基于领域词典的空管事件报告风险要素识别方法,其特征在于,所述步骤4中组合次数最大匹配方法的规则如下:在步骤3得到的民航空管危险源数据切分单元的基础上,按照已经出现的组合形式匹配所有的组合,将组合次数大于1的组合筛选出来,构成候选词语。5.根据权利要求1所述的基于领域词典的空管事件报告风险要素识别方法,其特征在于,所述步骤5中组合稳定性的计算规则如下:其中,S是候选词语的组合稳定性;f
o
是候选词语在民航空管危险源数据中出现的次数;ω
i
是指构成候选词语的切分单元集合,其个数为m;为第i个切分单元在...

【专利技术属性】
技术研发人员:刘伟伟王华伟倪晓梅吕少岚王龙震
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1