一种面向民航监管事项检查记录处理的文本分类方法技术

技术编号:38846634 阅读:21 留言:0更新日期:2023-09-17 09:57
本发明专利技术涉及文本分类技术领域,涉及一种面向民航监管事项检查记录处理的文本分类方法,首先,通过RoFormer

【技术实现步骤摘要】
一种面向民航监管事项检查记录处理的文本分类方法


[0001]本专利技术涉及文本分类
,具体地说,涉及一种面向民航监为整个文本的浅层特征和深层特征的组成管事项检查记录处理的文本分类方法。

技术介绍

[0002]在民航业不断蓬勃发展的背景下,高效的监管是保障航空安全、促进民航行业发展的重中之重。民航局正在大力推进智慧监管系统建设,创新监管方式,在智慧化架构中完成监管任务,促进监管效能的全面提升。传统的监管模式已经无法满足民航局对安全监管的要求,需要结合新技术来实现智慧监管。智慧监管通过收集多源异构数据,运用机器学习、数据挖掘技术,从数据中提取信息和知识,实现数据驱动的风险预警和安全态势判断。
[0003]民航监管事项检查记录是监管执法检查中针对监管事项所发现的问题而记录的文本信息,是典型的短文本,长度在10

70字之间,70字以上只占了不到20%。对该文本进行分类是民航监管数据分析的基础任务。随着监管记录数据的增长,传统人工分类效率低下,无法满足监管业务需求。运用自然语言处理的文本分类技术,对民航监管事项检查记录文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:包括以下步骤:1)输入民航监管事项检查记录数据;2)通过开源预训练模型RoFormer

Sim实现数据增强;3)使用RoBERTa预训练模型获得字嵌入向量;4)使用TextRCNN通过特征提取来提取文本中包含的信息;TextRCNN包括BiLSTM特征提取层和池化层,在池化层使用空洞卷积来减少信息损失;字之间的关系通过概率稀疏自注意力ProbSparse Self

Attention依次学习,对字向量进行加权和求和,得到句子向量;将空洞卷积的结果与句子向量的结果进行融合拼接;5)将融合拼接结果通过softmax输出以获得分类结果。2.根据权利要求1所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:RoBERTa预训练模型中,输入序列的每个字由三部分组成,即标记嵌入、分段嵌入和位置嵌入;标记嵌入、分段嵌入和位置嵌入分别表示字的标记值、句子信息和位置信息;输入分字后的序列{x1, x2,
ꢀ…
, x
n
},Tok表示字矢量编码,Pos表示位置编码向量,通过将Tok和Pos编码向量相加,相加的字是具有位置特征的字向量;最终将分字序列映射为字向量W={ w1, w2,
ꢀ…
, w
n }。3.根据权利要求2所述的一种面向民航监管事项检查记录处理的文本分类方法,其特征在于:BiLSTM特征提取层中,通过前向LSTM提取获得前向隐藏状态L={L1,L2,

L
n
};通过前向LSTM提取获得反向隐藏状态R={R1,R2,

R
n
};通过BiLSTM层获得的上下文特征为H={L;R};将BiLSTM层的输出结果与字向量W的上下文融合,得到具有上下文特征的新的字嵌入向量Y={...

【专利技术属性】
技术研发人员:许雅玺史珂王欣郑涛干镞锐
申请(专利权)人:中国民用航空飞行学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1