【技术实现步骤摘要】
一种基于深度学习的航空参数溯源实体识别方法
[0001]本专利技术涉及一种命名实体识别方法,特别涉及一种基于深度学习的航空参数溯源实体识别方法,属于航空数据的自然语言处理
技术介绍
[0002]航空产品是构成飞机的重要组成部分,其质量的优劣直接影响着飞机的安全性与可靠性。为保障航空产品的生产质量,判断每个产品参数溯源链的精确性,筛选出不符合参数溯源的产品是十分必要的。目前大多数企业采用人工方法进行产品实体的识别与筛选,查询效率低下,疲劳程度随着工作时间的增加导致识别准确率下降。由于航空数据存在较强的孤立性和专业性,现有基于神经网络的方法缺乏该领域的样本训练,不适用于专业领域的命名实体识别,鲁棒性差且精度不高。
[0003]因此,确有必要对命名识别方法进行改进以解决现有技术之不足,进而拓展到航空领域。
技术实现思路
[0004]本专利技术的目的针对现有的人工方法进行产品实体的识别与筛选时存在查询效率低下,疲劳程度随着工作时间的增加,导致识别准确率下降的问题,专利技术一种基于深度学习的航空参数溯源实体识别方法,以解决上述
技术介绍
中提出的问题。
[0005]本专利技术的技术方案是:
[0006]一种基于深度学习的航空参数溯源实体识别方法,包括以下步骤:
[0007]S1:提出一种面向航空领域的预训练语言模型AeroBERT,在词嵌入中引入汉字的字形特征,采用点间互信息掩码策略进行预训练;
[0008]S2:提出基于AeroBERT
‑
CRF ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的航空参数溯源实体识别方法,其特征在于,包括以下步骤:S1:提出一种面向航空领域的预训练语言模型AeroBERT,在词嵌入中引入汉字的字形特征,采用点间互信息掩码策略进行预训练;S2:提出基于AeroBERT
‑
CRF的航空参数溯源实体识别模型,微调AeroBERT后引入CRF层预测实体的最优标签;S3:人工标注少量航空参数溯源训练数据集,模型训练过程引入主动学习算法,以扩充训练集规模,提高模型泛化能力。2.根据权利要求1所述的识别方法,其特征在于:所述步骤S1包括以下内容:a1:采用汉字的字符嵌入方法,设计了一种Glyph
‑
CNN神经网络,通过两个卷积层提取低层次的字符图形特征,然后应用最大池化降低分辨率,最后采用分组卷积将输入汉字图像映射为768维的字符向量;a2:将点间互信息(PMI)掩码策略应用于AeroBERT的预训练过程,给定两个字符w1和w2,二元组w1w2的PMI为:式中n元组p(w1...w
n
)的计算方法为:语料库中它出现的次数除以语料库中所有n元组的数量。a3:PMI是计算二元组相关性的指标,将其扩展到更长的n元组中;下式为n元组所有可能的分段:式中:seg(w1…
w
n
)是n元组w1…
w
n
的所有连续分段的集合,任何分段σ∈seg(w1…
w
n
)由子空间组成,这些子空间共同给出w1…
w
n
。a4:采用PMI和整词掩码对候选字符进行掩码,在预训练语料库中选择n元组n∈{2,3,4,5,6}进行掩码,计算n元组的PMI分数并从高到底排序,最终组成掩码单词比例为15%的掩码词库;其中将80%的字符使用近义词来替换而不是[MASK]掩码;10%的字符使用随机词替换,...
【专利技术属性】
技术研发人员:李泷杲,孔盛杰,李根,侯国义,黄翔,钟骁,杨明烨,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。