一种基于深度学习的航空参数溯源实体识别方法技术

技术编号:39148603 阅读:11 留言:0更新日期:2023-10-23 14:57
一种基于深度学习的航空参数溯源实体识别方法,包括S1:提出一种面向航空领域的预训练语言模型AeroBERT,在词嵌入中引入汉字的字形特征,采用点间互信息掩码策略进行预训练;S2:提出基于AeroBERT

【技术实现步骤摘要】
一种基于深度学习的航空参数溯源实体识别方法


[0001]本专利技术涉及一种命名实体识别方法,特别涉及一种基于深度学习的航空参数溯源实体识别方法,属于航空数据的自然语言处理


技术介绍

[0002]航空产品是构成飞机的重要组成部分,其质量的优劣直接影响着飞机的安全性与可靠性。为保障航空产品的生产质量,判断每个产品参数溯源链的精确性,筛选出不符合参数溯源的产品是十分必要的。目前大多数企业采用人工方法进行产品实体的识别与筛选,查询效率低下,疲劳程度随着工作时间的增加导致识别准确率下降。由于航空数据存在较强的孤立性和专业性,现有基于神经网络的方法缺乏该领域的样本训练,不适用于专业领域的命名实体识别,鲁棒性差且精度不高。
[0003]因此,确有必要对命名识别方法进行改进以解决现有技术之不足,进而拓展到航空领域。

技术实现思路

[0004]本专利技术的目的针对现有的人工方法进行产品实体的识别与筛选时存在查询效率低下,疲劳程度随着工作时间的增加,导致识别准确率下降的问题,专利技术一种基于深度学习的航空参数溯源实体识别方法,以解决上述
技术介绍
中提出的问题。
[0005]本专利技术的技术方案是:
[0006]一种基于深度学习的航空参数溯源实体识别方法,包括以下步骤:
[0007]S1:提出一种面向航空领域的预训练语言模型AeroBERT,在词嵌入中引入汉字的字形特征,采用点间互信息掩码策略进行预训练;
[0008]S2:提出基于AeroBERT

CRF的航空参数溯源实体识别模型,微调AeroBERT后引入CRF层预测实体的最优标签;
[0009]S3:人工标注少量航空参数溯源训练数据集,模型训练过程引入主动学习算法,以扩充训练集规模,提高模型泛化能力。
[0010]作为本专利技术的一种优选技术方案,所述步骤S1包括以下内容:
[0011]a1:提出了汉字的字符嵌入方法,设计了一种Glyph

CNN神经网络,通过两个卷积层提取低层次的字符图形特征,然后应用最大池化降低分辨率,最后采用分组卷积将输入汉字图像映射为768维的字符向量。
[0012]a2:提出一种点间互信息(PMI)掩码策略应用于AeroBERT的预训练过程,给定两个字符w1和w2,二元组w1w2的PMI为:
[0013][0014]式中n元组p(w1…
w
n
)的计算方法为:语料库中它出现的次数除以语料库中所有n元组的数量。
[0015]a3:PMI是计算二元组相关性的指标,需要将其扩展到更长的n元组中。下式为n元组所有可能的分段:
[0016][0017]式中:seg(w1…
w
n
)是n元组w1…
w
n
的所有连续分段的集合,任何分段σ∈seg(w1…
w
n
)由子空间组成,这些子空间共同给出w1…
w
n

[0018]a4:采用PMI和整词掩码对候选字符进行掩码,在预训练语料库中选择n元组n∈{2,3,4,5,6}进行掩码,计算n元组的PMI分数并从高到底排序,最终组成掩码单词比例为15%的掩码词库。其中将80%的字符使用近义词来替换而不是[MASK]掩码。10%的字符使用随机词替换,剩下10%的字符与原始单词保持一致。
[0019]作为本专利技术的一种优选技术方案,所述步骤S2包括以下内容:
[0020]b1:提取各输入汉字字符的向量表示E,E
ge
、E
ce
、E
pe
分别为汉字的字形嵌入、字符嵌入和位置嵌入,w为嵌入权重。
[0021]E=w1E
ge
+w2E
ce
+w3E
pe
[0022]b2:使用航空参数溯源数据集微调预训练后的AeroBERT模型,将E作为AeroBERT的输入,经过12个串联的编码器以输出各字符的特征。
[0023]b3:AeroBERT层为CRF提供了字符特征输入,基于条件概率模型结合中文语句的上下文信息,得到对应的标签序列,各标签的得分由下式计算:
[0024][0025]式中:n为句子长度,A为转移矩阵,y
i
为标签,P
ij
为在第j个标签下第i个字符的得分。
[0026]作为本专利技术的一种优选技术方案,所述步骤S3包括以下内容:
[0027]c1:为节省标注成本在所提出模型中引入主动学习算法,结合CRF条件概率策略s1和不确定度策略s2计算各样本在初始模型下的标签置信度。
[0028][0029]式中:n为句子长度,A为转移矩阵,y为标签,(y|x
i

L
)表示字符x
i
为标签y的概率分布。
[0030]c2:设置策略权重ω根据下式计算标签置信度的最终得分:
[0031]S(x)=S1(x)
ω
S2(x)1‑
ω
[0032]式中S1(x)和S2(x)为字符x分别在CRF条件概率策略和不确定度策略的得分。
[0033]c3:设置置信度阈值threshold,将置信度高的样本增加至训练集中,从低置信度样本集中筛选部分最有价值的交至专家进行标注。
[0034]c4:模型达到预定准确率或标签成本达到上限时停止训练。
[0035]本专利技术的有益效果是:
[0036]1.取代传统的人工识别航空参数溯源数据的模式,解放劳动力,提高产品生产效率,保障参数溯源数据识别的准确率。
[0037]2.传统基于神经网络的实体识别方向仅适用于通用领域,针对专业领域的识别效果较差,因缺乏对航空数据的标注训练导致模型泛化能力差,本专利技术提出一种基于AeroBERT

CRF的模型以完成参数溯源数据的实体识别,具有较高的识别精度与效率,拓展了自然语言处理技术在航空领域的应用。
[0038]3.针对神经网络模型标注成本过高的问题,将主动学习算法引入神经网络模型训练中,提出将CRF条件概率策略与不确定度策略取权重的方式提高样本标记的可信度,扩充已标记数据集,降低标注成本。
附图说明
[0039]图1是航空参数溯源的实体识别方法的流程图。
[0040]图2是AeroBERT

CRF模型结构图。
[0041]图3是汉字字形嵌入的网络结构图。
[0042]图4是提出模型与其它方法的实验对比图。
[0043]图5是结合主动学习的模型训练过程图。
具体实施方式
[0044]下面将结合本专利技术实施例和附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的航空参数溯源实体识别方法,其特征在于,包括以下步骤:S1:提出一种面向航空领域的预训练语言模型AeroBERT,在词嵌入中引入汉字的字形特征,采用点间互信息掩码策略进行预训练;S2:提出基于AeroBERT

CRF的航空参数溯源实体识别模型,微调AeroBERT后引入CRF层预测实体的最优标签;S3:人工标注少量航空参数溯源训练数据集,模型训练过程引入主动学习算法,以扩充训练集规模,提高模型泛化能力。2.根据权利要求1所述的识别方法,其特征在于:所述步骤S1包括以下内容:a1:采用汉字的字符嵌入方法,设计了一种Glyph

CNN神经网络,通过两个卷积层提取低层次的字符图形特征,然后应用最大池化降低分辨率,最后采用分组卷积将输入汉字图像映射为768维的字符向量;a2:将点间互信息(PMI)掩码策略应用于AeroBERT的预训练过程,给定两个字符w1和w2,二元组w1w2的PMI为:式中n元组p(w1...w
n
)的计算方法为:语料库中它出现的次数除以语料库中所有n元组的数量。a3:PMI是计算二元组相关性的指标,将其扩展到更长的n元组中;下式为n元组所有可能的分段:式中:seg(w1…
w
n
)是n元组w1…
w
n
的所有连续分段的集合,任何分段σ∈seg(w1…
w
n
)由子空间组成,这些子空间共同给出w1…
w
n
。a4:采用PMI和整词掩码对候选字符进行掩码,在预训练语料库中选择n元组n∈{2,3,4,5,6}进行掩码,计算n元组的PMI分数并从高到底排序,最终组成掩码单词比例为15%的掩码词库;其中将80%的字符使用近义词来替换而不是[MASK]掩码;10%的字符使用随机词替换,...

【专利技术属性】
技术研发人员:李泷杲孔盛杰李根侯国义黄翔钟骁杨明烨
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1