当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于机器学习与规则匹配的民航事故报告处理方法技术

技术编号:32177207 阅读:10 留言:0更新日期:2022-02-08 15:37
本发明专利技术涉及一种基于机器学习与规则匹配的民航事故报告处理方法。依据自然语言处理的方法对中文民用航空事故报告进行批量处理,利用机器学习分类器实现报告的自动分类,采用基于规则的方法对句子结构与内容进行分析,并据此实现事故原因的提取。本发明专利技术实现了中文报告的自动分类与原因提取,避免了人为误差的引入,可以达到更精确的效果,也提高了工作效率。也提高了工作效率。也提高了工作效率。

【技术实现步骤摘要】
一种基于机器学习与规则匹配的民航事故报告处理方法


[0001]本专利技术属于自然语言处理方法
,特别是涉及一种基于机器学习与规则匹配的民航事故报告处理方法。

技术介绍

[0002]民用航空事故会对乘客的人身及财产安全造成巨大威胁,很多事故都是由多个不安全措施引起的,如果能够对每起事故背后的发生原因进行提取与总结,就能够得到导致某种类型事故发生的关键因素,从而提升警惕。在每次事故发生后,责任单位都会有专业人员对其发生过程做出细致的剖析,并将其记录在事故报告中,对报告的有效分析可以帮助航空公司对某类事故发生的根本原因得到了解并从中吸取教训。报告通常以文本形式描述,多为非结构化或半结构化的数据,每月上报的报告有上千份,采用传统的手动分析不仅会导致资源的浪费,而且会引入人为误差,因此通过文本挖掘进行自动化处理是必要的。
[0003]通过采用文本挖掘的技术,事故报告中有利用价值的信息可以被提取出来,现有方法的局限性在于对主题的建模,无法对报告中事故发生的具体原因进行识别,因此无法进行下一步的利用。此外对文本分析的研究多集中在如建筑、铁路与工业等领域,它们实现了报告的分类与其中关键因素的抽取,并能够根据出现的因素对事故的风险与后果进行预测,但对航空事故相关尤其是采用中文描述的文本分析则较少。

技术实现思路

[0004]本专利技术针对现有技术的不足,提供一种基于机器学习与规则匹配的民航事故报告处理方法,实现了对民用航空事故报告的自动分类与事故发生原因的自动提取。
[0005]为了达到上述目的,本专利技术提供的技术方案是一种基于机器学习与规则匹配的民航事故报告处理方法,包括以下步骤:
[0006]步骤1,对民航事故报告数据进行预处理,筛选和规范用于处理的报告;
[0007]步骤2,对预处理后的报告进行中文分词、词性识别,并移除停用词;
[0008]步骤3,选择tf

idf值高的词作为报告的文本特征用于分类;
[0009]步骤4,报告文本向量化,构成可用于分类的数据集;
[0010]步骤5,选择最佳分类器对报告文本进行分类,得到事故类别;
[0011]步骤6,建立原因识别规则,用于提取事故原因。
[0012]而且,所述步骤1中预处理包含数据筛选和拼写标准化两步。数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选,若报告存在以上内容,则可作为事故原因提取的数据。拼写标准化是对事故报告中的错别字进行纠正,对缩写和同义词进行标准化替换,避免由于文本描述偏差而出现的特征表示错误。
[0013]而且,所述步骤2中通过分词对句子进行分割,使其成为在当前语境下有独立意义的词。为了避免在分类时将一些复合专业词汇分开,还需要对文本内容进行分析构建民用
航空领域的专业词典。中文分词后需进行词性识别,并建立专业词汇对应的的词性表。词性识别主要是对句内各词的词性进行分析,识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词。词性识别结束后需要进行停用词的移除,停用词包括代词、冠词、语气助词、连接词和副词。
[0014]而且,所述步骤3中选择可以最大化代表文本信息的词汇作为分类的依据,可以达到更好的分类效果。特征选择可以实现数据的降维,为了区分不同类别的文档,作为特征的词汇在不同类别的文本中的分布一定是不同的,差异越大表示这个词对于分类越重要。
[0015]单个词汇的重要性通过下式计算得到的tf

idf值进行衡量:
[0016][0017]式中,x
ik
为词汇i在类别k中的重要性度量,即tf

idf值;f
ik
为类别k的文档中词汇i出现的频率;N为总的文档的数量;n
i
为所有包含词汇i的文档的数量,n
i
值越大,则该词对于此种文档的重要程度就越高。
[0018]将文本中词汇按照tf

idf值从大到小排序,选择前M个构成词典作为该文本的特征用于分类。
[0019]而且,所述步骤4中将每个文本表示为与词典中词的个数等长的向量,并根据文本中某个词出现的次数为文本对应的数值向量赋值,没有出现的词对应的值为0,构成可用于分类的数据集。随后将数据集分离为训练集和测试集,其中训练集用来对备选的分类模型进行训练,测试集用来对备选的分类模型的分类效果进行评估。
[0020]而且,所述步骤5中以分类器和特征词数为自变量,首先使用训练集对多种分类器进行训练,然后使用测试集比较各分类器的分类效果。考虑到不同事故类别间存在数据不平衡,根据测试集中每类事故报告占总报告中的百分比对每一类报告的指标F1进行加权,得到WEIGHTED

F1作为分类器的性能评价。
[0021]WEIGHTED

F1计算方式如下:
[0022][0023]式中,k为事故报告的类别数,N为事故报告的总数,n
i
为第i类报告的数量,F
1i
为第i类报告测试机分类结果的F1值,WEIGHTED

F1为加权后的F1值。
[0024]F1的计算方式如下:
[0025][0026]式中,Precision反映了被判定为该类中真正属于该类的比例,Recall反映了该类被识别出来的数量与该类总数的比例,F1

score则是综合了Precision和Recall,保证两者均不会太低。
[0027]Precision和Recall的计算方式如下:
[0028][0029][0030]式中:TP为每一类中正确分类的个数,FP为不属于此类但被错误识别的个数,FN为属于本类但却被识别为其他类的个数。
[0031]在确定分类器与对应的最佳特征词个数后,通过网格搜索得到分类器的最佳参数。
[0032]而且,所述步骤6中将事故原因归为设备、人员、环境及组织四类,四类中又包含多个具体原因。事故报告中的每一句话都可以看作由不同元素的组合,根据日常描述习惯,基于同一段描述内不同类别词的出现情况设置识别规则:对于环境原因仅需识别出相关的环境关键词,设备原因通常是直接描述,而对于人为原因和组织原因的描述多为主语、谓语与补语的组合。在对事故的描述中,主语提供了责任单位,谓语表明了主语的某种动作或某项决定,补语做出了对谓语的评价,判断此种行为是否是会对事故的发生产生影响。
[0033]与现有技术相比,本专利技术具有如下优点:
[0034]1)依据自然语言处理的方法对中文民用航空事故报告进行批量处理,利用机器学习分类器实现报告的自动分类,采用基于规则的方法对句子结构与内容进行分析,并据此实现事故原因的提取。由于采用了自动化的处理方式,避免了人为误差的引入,可以达到更精确的效果,也可以在短时间内对大量报告进行分析,提高了工作效率。...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于,包括如下步骤:步骤1,对民航事故报告数据进行预处理,筛选和规范用于处理的报告;步骤2,对预处理后的报告进行中文分词、词性识别,并移除停用词;步骤3,选择tf

idf值高的词作为报告的文本特征用于分类;步骤4,报告文本向量化,构成可用于分类的数据集;步骤5,选择最佳分类器对报告文本进行分类,得到事故类别;步骤6,建立原因识别规则,用于提取事故原因。2.如权利要求1所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤1中预处理包含数据筛选和拼写标准化两步,数据筛选根据报告内容是否对事故发生的背景、事故发生时飞行器的状态以及对事故的原因做出分析进行筛选,若报告存在以上内容,则可作为事故原因提取的数据;拼写标准化是对事故报告中的错别字进行纠正,对缩写和同义词进行标准化替换,避免由于文本描述偏差而出现的特征表示错误。3.如权利要求2所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤2中通过分词对句子进行分割,使其成为在当前语境下有独立意义的词;为了避免在分类时将一些复合专业词汇分开,还需要对文本内容进行分析构建民用航空领域的专业词典;中文分词后需进行词性识别,并建立专业词汇对应的的词性表;词性识别主要是对句内各词的词性进行分析,识别出的词性包括名词、动词、动名词、动副词、形容词、副词、量词、代词、连词、介词、助词,词性识别结束后需要进行停用词的移除,停用词包括代词、冠词、语气助词、连接词和副词。4.如权利要求3所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤3中选择可以最大化代表文本信息的词汇作为分类的依据,可以达到更好的分类效果;特征选择可以实现数据的降维,为了区分不同类别的文档,作为特征的词汇在不同类别的文本中的分布一定是不同的,差异越大表示这个词对于分类越重要;单个词汇的重要性通过下式计算得到的tf

idf值进行衡量:式中,x
ik
为词汇i在类别k中的重要性度量,即tf

idf值;f
ik
为类别k的文档中词汇i出现的频率;N为总的文档的数量;n
i
为所有包含词汇i的文档的数量,n
i
值越大,则该词对于此种文档的重要程度就越高;将文本中词汇按照tf

idf值从大到小排序,选择前M个构成词典作为该文本的特征用于分类。5.如权利要求4所述的一种基于机器学习与规则匹配的民航事故报告处理方法,其特征在于:步骤4中将每个文本表示为与词典中词的个数等长的向量,并根据文本中某个词出现的次数为文本对应的数值向量赋值,没有出现的词对应的值为0,构成可用于分类的数据集;随后将数据集分离为训练集和测试集,其中训练...

【专利技术属性】
技术研发人员:卢宾宾焦洋韩静茹董锦涛
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1