一种基于机器学习与规则匹配的民航事故报告处理方法技术

技术编号：32177207 阅读：27 留言：0更新日期：2022-02-08 15:37

本发明专利技术涉及一种基于机器学习与规则匹配的民航事故报告处理方法。依据自然语言处理的方法对中文民用航空事故报告进行批量处理，利用机器学习分类器实现报告的自动分类，采用基于规则的方法对句子结构与内容进行分析，并据此实现事故原因的提取。本发明专利技术实现了中文报告的自动分类与原因提取，避免了人为误差的引入，可以达到更精确的效果，也提高了工作效率。也提高了工作效率。也提高了工作效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习与规则匹配的民航事故报告处理方法

[0001]本专利技术属于自然语言处理方法
，特别是涉及一种基于机器学习与规则匹配的民航事故报告处理方法。

技术介绍

[0002]民用航空事故会对乘客的人身及财产安全造成巨大威胁，很多事故都是由多个不安全措施引起的，如果能够对每起事故背后的发生原因进行提取与总结，就能够得到导致某种类型事故发生的关键因素，从而提升警惕。在每次事故发生后，责任单位都会有专业人员对其发生过程做出细致的剖析，并将其记录在事故报告中，对报告的有效分析可以帮助航空公司对某类事故发生的根本原因得到了解并从中吸取教训。报告通常以文本形式描述，多为非结构化或半结构化的数据，每月上报的报告有上千份，采用传统的手动分析不仅会导致资源的浪费，而且会引入人为误差，因此通过文本挖掘进行自动化处理是必要的。
[0003]通过采用文本挖掘的技术，事故报告中有利用价值的信息可以被提取出来，现有方法的局限性在于对主题的建模，无法对报告中事故发生的具体原因进行识别，因此无法进行下一步的利用。此外对文本分析的研究多集...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于，包括如下步骤：步骤1，对民航事故报告数据进行预处理，筛选和规范用于处理的报告；步骤2，对预处理后的报告进行中文分词、词性识别，并移除停用词；步骤3，选择tf
‑
idf值高的词作为报告的文本特征用于分类；步骤4，报告文本向量化，构成可用于分类的数据集；步骤5，选择最佳分类器对报告文本进行分类，得到事故类别；步骤6，建立原因识别规则，用于提取事故原因。2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤1中预处理包含数据筛选和拼写标准化两步，数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选，若报告存在以上内容，则可作为事故原因提取的数据；拼写标准化是对事故报告中的错别字进行纠正，对缩写和同义词进行标准化替换，避免由于文本描述偏差而出现的特征表示错误。3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤2中通过分词对句子进行分割，使其成为在当前语境下有独立意义的词；为了避免在分类时将一些复合专业词汇分开，还需要对文本内容进行分析构建民用航空领域的专业词典；中文分词后需进行词性识别，并建立专业词汇对应的的词性表；词性识别主要是对句内各词的词性进行分析，识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词，词性识别结束后需要进行停用词的移除，停用词包括代词、冠词、语气助词、连接词和副词。4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤3中选择可以最大化代表文本信息的词汇作为分类的依据，可以达到更好的分类效果；特征选择可以实现数据的降维，为了区分不同类别的文档，作为特征的词汇在不同类别的文本中的分布一定是不同的，差异越大表示这个词对于分类越重要；单个词汇的重要性通过下式计算得到的tf
‑
idf值进行衡量：式中，x
ik
为词汇i在类别k中的重要性度量，即tf
‑
idf值；f
ik
为类别k的文档中词汇i出现的频率；N为总的文档的数量；n
i
为所有包含词汇i的文档的数量，n
i
值越大，则该词对于此种文档的重要程度就越高；将文本中词汇按照tf
‑
idf值从大到小排序，选择前M个构成词典作为该文本的特征用于分类。5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法，其特征在于：步骤4中将每个文本表示为与词典中词的个数等长的向量，并根据文本中某个词出现的次数为文本对应的数值向量赋值，没有出现的词对应的值为0，构成可用于分类的数据集；随后将数据集分离为训练集和测试集，其中训练...

【专利技术属性】
技术研发人员：卢宾宾，焦洋，韩静茹，董锦涛，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人