基于规则和神经网络模型融合的标准指标抽取方法技术

技术编号:34263465 阅读:64 留言:0更新日期:2022-07-24 14:21
本发明专利技术提供一种基于规则和神经网络模型融合的标准指标抽取方法,其包括以下步骤:S1、选取定量的标准文本并进行数据处理;S2、建立数据抽取规则;S3、对标准文本进行标准指标抽取;S4、进行深度学习神经网络模型训练;S5、利用步骤S4中训练好的模型进行标准指标抽取,指导步骤S2的数据抽取规则的迭代;S6、重复上述步骤S2

Standard index extraction method based on rule and neural network model fusion

【技术实现步骤摘要】
基于规则和神经网络模型融合的标准指标抽取方法


[0001]本专利技术涉及航空领域标准指标领域,具体涉及一种基于规则和神经网络模型融合的标准指标抽取方法。

技术介绍

[0002]在航空百科知识中,标准指标抽取对航空领域的内容服务具有非常重要的意义。通过把航空领域的非结构化文本数据转化成结构化的知识信息,以实现航空领域碎片化知识的梳理和有效利用。
[0003]标准指标抽取方法是对标准文本抽取参数名称、参数值和约束条件三个指标,在本质上是序列标注中的命名实体识别任务。命名实体识别是指在文本中识别具有特定意义的实体,例如人名、地名、机构名、时间、货币、专有名词等,是自然语言处理中一项非常基础和重要的任务,广泛应用于信息检索、机器翻译和知识图谱等领域。传统的命名实体识别方法可分为三类:基于规则、基于无监督学习和基于特征工程的监督学习方法。
[0004]基于规则的命名实体识别依赖于人工编写的规则,需要针对特定领域编写特定的规则。由于在特定领域的规则和字典的不完整,通常有较高的精确率和较低的召回率,并且无法将系统迁移到其他领域。典型的基于无监本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于规则和神经网络模型融合的标准指标抽取方法,其特征在于:其包括以下步骤:S1、选取定量的标准文本并进行数据处理:将非结构化的标准文本转化为结构化的标准指标;S2、建立数据抽取规则:根据步骤S1得到的结构化的标准指标的规律建立数据抽取规则;步骤S2具体包括以下子步骤:步骤S21、根据标注指标数据得出具有不同优先级的参数划分词和条件划分词,所述参数划分词用于划分参数值,所述条件划分词用于划分约束条件;步骤S22、对输入的文本数据按分号或句号划分为多个单句,并将具有连续含义的两个单句组合为一个单句;步骤S23、根据步骤S21得到的参数划分词对步骤S22得到的单句进行划分,将单句划分成参数名与约束条件的组合体及对应的参数值;步骤S24、当单句中能够抽取多个指标时,基于参数划分词的优先级,利用高优先级的参数划分词对单句进行划分;步骤S25、在步骤S24过程中如果出现缺失参数名或约束条件的情况,则将缺失参数名或约束条件的指标抽取为该句中前一个指标的参数名或约束条件;步骤S26、将单个指标中的参数名与约束条件的组合体进行分割,划分出参数名和约束条件;步骤S27、根据上述步骤S21至S26,若无法划分出参数名,则以标题代替,若对于整段文本无法划分出参数值,则判断该文本抽取不出指标数据;步骤S28、根据上述步骤S21至S27,将航空领域的非结构化数据抽取为包括参数名、参数值和约束条件的组合形式的结构化数据;S3、对标准文本进行标准指标抽取:利用步骤S2建立的数据抽取规则对标准文本进行标准指标抽取,得到结构化的标准指标;S4、进行深度学习神经网络模型训练:将步骤S3得到的结构化的标准指标数据输入到深度学习神经网络模型中进行训练,得到优化后的深度学习神经网络模型;步骤S4具体包括以下子步骤:步骤S41、利用BERT预训练模型,将文本数据中的位置信息和字信息进行融合,将每个字符转化为字向量;步骤S41具体为:使用BERT预训练模型中的位置编码将位置信息和字信息进行融合,BERT预训练模型将输入文本中的每个字通过嵌入层来传递,将每个字符转换为向量表示,将非结构化的文本转化为输入序列X=(x0,x1,x2,

,x
n
‑1),其中,n是序列的字符总长度,对输入序列添加用于分类的特殊字符[CLS]、用于间隔文本的特殊字符[SEP],之后使用基于Transformer的双向编码器进行编码;输入序列的向量化过程如下面的公式1所示:
其中,表示输入序列X的第i个字符对应的通过BERT模型编码得到的字符向量,x
i
表示输入序列的第i个字符;步骤S42、使用Word2Vec模型分别学习文本数据中的郑码、五笔、拼音和笔画的上下位特征,得到郑码特征向量五笔特征向量拼音特征向量和笔画特征向量步骤S43、将BERT预训练得到的字向量和Word2Vec模型训练得到的郑码特征向量五笔特征向量拼音特征向量和笔画特征向量进行融合,作为模型的输入,对深度学习神经网络模型进行训练,其中,得到融合后向量的具体方法为:将步骤S41和S42获取的五类特征进行拼接处理得到嵌入层的最终向量,特征的处理如公式10所示:其中,分别为通过BERT模型编码得到的字符向量、郑码特征向量、五笔特征向量、拼音特征向量和笔画特征向量,代表第i个字符对应的融合后向量;步骤S44、训练过程中,捕获长短序列的依赖关系,利用FGM对抗训练方法在模型数据中添加微小的扰动;同时,利用条件随机场解码输出概率最大的预测标签序列,得到每个字符的标签类型,对长短序列中的实体提取进行分类;训练完成后,得到优化后的深度学习神经网络模型;S5、利用步骤S4中训练好的模型对非结构化的标准文本进行标准指标抽取,将抽取得到的标准指标数据扩充为模型的训练数据,同时用这些新抽取的标准指标数据指导步骤S2的数据抽取规则的迭代;S6、重复上述步骤S2

S5,迭代抽取规则和模型,得到最优数据抽取规则以及最优深度学习神经网络模型;S7、利用数据抽取规则和深度学习神经网络模型联合进行标准指标抽取:对数据抽取规则进行划分,划分出置信度高的数据抽取规则和置信度低的数据抽取规则,具体包括如下子步骤:S71、设定初始的规则置信度阈值;S72、在测试标注数据集上计算各条数据抽取规则的抽取正确率,并根据规则置信度阈值将数据抽取规则分为置信度高的抽取规则和置信度低的抽取规则;S73、将通过置信度低的抽取规则抽取的数据输入到步骤S4中添加对抗训练的深度学习神经网络模型中,再次计算数据抽取规则的抽取正确率;S74、更新规则置信度阈值,重复上述步骤S71

S73,保存每次抽取正确率的计算结果,在迭代的范围内选择最优的规则置信度阈值,作为划分置信度高和置信度低的规则置信度阈值;S8、输出抽取结果:将置信度高的抽取规则的抽取结果直接输出,将置信度低的抽取规则的抽取结果作为疑似错误文本,进一步输入到深度学习神经网络模型中,并将得到的输出结果与置信度高的抽取规则的抽取结果作为最终的输出结果。
2.根据权利要求1所述的基于规则和神经网络模型融合的标准指标抽取方法,其特征在于:步骤S1中通过标注的方法将非结构化的标准文本转化为结构化的标准指标。3.根据权利要求1所述的基于规则和神经网络模型融合的标准指标抽取方法,其特征在于:步骤S42具体包括以下子步骤:S421、获取郑码特征向量:利用郑码与汉字的映射表将航空领域的非结构化数据进行转换,之后使用Word2Vec模型进行按句训练获取每个字符的上下文特征,并提供字符的向量映射,郑码的向量化过程如公式2和公式3所示:P1=f
zhengma
(X)
ꢀꢀꢀꢀ
(2)其中,X表示输入序列,f
zhengma
表示将输入的字符序列映射为郑码序列的函数,P1为函数结果,之后按照字符在X中i序号在郑码特征向量中查找x
i
对应的郑码特征向量,e
zhengma
表示郑码和输入序列的映射表,表示与输入序列x
i
对应的郑码特征向量;S422、获取五笔特征向量:利用五笔与汉字的映射表将航空领域的非结构化数据进行转换,之后使用Word2Vec模型进行按句训练获取每个字符的上下文特征,并提供字符的向量映射,五笔...

【专利技术属性】
技术研发人员:董洪飞贺薇高魁陶剑武铎高龙刘俊安然何柳王孝天
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1