一种基于地质预训练模型的命名实体识别方法及系统技术方案

技术编号:38636862 阅读:16 留言:0更新日期:2023-08-31 18:32
本发明专利技术提供一种基于地质预训练模型的命名实体识别方法及系统,包括步骤:构建特征适配器,通过特征适配器对汉字特征向量集合与文本语义向量集合进行适配融合,获得强化的文本语义向量集合;构建知识融合器,通过知识融合器对知识语义向量集合与强化的文本语义向量集合进行融合,获得融合语义向量集合;通过融合语义向量集合与四项预训练任务对地质预训练模型进行参数调优,得到最终的地质预训练模型。本发明专利技术提出了一种特征适配器,将汉字特征在预训练阶段融入地质预训练模型,通过汉字特征辅助模型对语义的学习;提出了一种知识融合器,将地质知识图谱融入到地质预训练模型中,从而对地质预训练模型进行知识增强。从而对地质预训练模型进行知识增强。从而对地质预训练模型进行知识增强。

【技术实现步骤摘要】
一种基于地质预训练模型的命名实体识别方法及系统


[0001]本专利技术涉及地质文本识别领域,尤其涉及一种基于地质预训练模型的命名实体识别方法及系统。

技术介绍

[0002]随着数据驱动创新发展的不断深入,对持续暴增的海量文本数据进行知识挖掘与利用更加迫切与重要。命名实体识别(NER)是自然语言处理(NLP)重要的任务之一,其目的是从文本中对实体进行识别与分类。在地质领域的NER中,需要识别的实体包括矿物、岩石、地层、地质构造、地质年代等。预训练语言模型(PLMs)是高效精准识别命名实体的重要基础。利用预训练语言模型能够将复杂的文本知识准确完整地映射到向量空间,得到富含语义信息的表征,为下游模型(比如卷积神经网络)的特征学习提供向量支撑。
[0003]NER目前的实现方法可以总结为基于规则、传统机器学习、深度学习三类方法。基于规则的方法因依赖的规则需要大量的领域知识以及人工导致效率低、可拓展性差。基于机器学习的方法因需要大量的人工标注、泛化能力弱等问题导致整体性能不佳。而基于PLMS的深度学习方法,是当前主流的方向。
[0004]但是下游模型(如BiLSTM

CRF)进行特征学习的重要基础是表征向量中语义丰富。这一点对于垂直领域NER至关重要。因此在很多垂直领域针对这一问题训练了相应的领域预训练模型,比如生物医学领域的BioBERT,临床医学领域的ClinicalBERT,科学领域的SCIBERT,在金融领域的FinBERT,地理领域的GeoBERT。
[0005]此外,预训练模型表征能力的强弱很大程度决定于在预训练阶段该模型学习到的知识。上述的领域预训练模型融入的是语句文本中非结构化知识,而Yu等提出的Jaket模型以及Zhang等提出的SMedBERT融入的是知识图谱,促进了预训练模型的发展。但预训练模型在进行文本表征的时所需的知识是全方面的,包括了汉字的字形、读音特征、文本的语义特征、以及知识库中的结构化知识。而现有的模型并没有考虑到汉字特征对于文本识别的影响,导致文本识别的精确度不高。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供一种基于地质预训练模型的命名实体识别方法,包括步骤:
[0007]S1:获取地质命名实体识别语料库、地质知识图谱和地质文本语料库,通过地质文本语料库构建汉字特征语料库;
[0008]S2:通过图神经网络对地质知识图谱进行表征,获得知识语义向量集合;
[0009]S3:通过BERT对汉字特征语料库进行表征,获得汉字特征向量集合;
[0010]S4:通过Transformer的编码器对地质文本语料库进行表征,获得文本语义向量集合;
[0011]S5:构建特征适配器,通过特征适配器对汉字特征向量集合与文本语义向量集合
进行适配融合,获得强化的文本语义向量集合;
[0012]S6:构建知识融合器,通过知识融合器对知识语义向量集合与强化的文本语义向量集合进行融合,获得融合语义向量集合;
[0013]S7:通过融合语义向量集合与四项预训练任务对地质预训练模型进行参数调优,得到最终的地质预训练模型;
[0014]S8:将最终的地质预训练模型结合BiLSTM

CRF的神经网络结构,在地质命名实体识别语料库上进行充分训练,获得地质命名实体识别模型。
[0015]优选的,所述汉字特征向量集合中的汉字特征向量包括:拼音特征向量、偏旁特征向量和笔画特征向量。
[0016]优选的,步骤S5具体为:
[0017]S51:将第α个汉字的文本语义向量记为A
α
,拼音特征向量记为P
α
,偏旁特征向量记为Y
α
,笔画特征向量记为B
α
,P
α
和B
α
的表达式为:
[0018]P
α
=(P
α1
,P
α2
,P
α3
)
[0019]B
α
=(B
α1
,......,B
αβ
,......,B
αm
)
[0020]其中,α为汉字的编号,β为笔画的编号,m为最大笔画数量,P
α1
为第α个汉字的声母向量,P
α2
为第α个汉字的韵母向量,P
α3
为第α个汉字的声调向量;
[0021]S52:将文本语义向量分别与拼音特征向量P
α
和笔画特征向量B
α
进行非线性变换,计算获得拼音特征参数V
Pαβ
和笔画特征参数V
Bαβ

[0022]S53:计算获得拼音特征向量P
α
对第α个汉字的相关性M

,以及笔画特征向量B
α
对第α个汉字的相关性M


[0023]S54:通过V
Pαβ
、V
Bαβ
、M

和M

计算获得拼音加权特征向量H

和笔画加权特征向量H

,计算公式为:
[0024][0025][0026]S55:将H

、H

、Y
α
和A
α
进行融合,获得强化的文本语义向量,计算公式为:
[0027]G
α
=H

+Y
α
+H

+A
α
[0028]其中,G
α
为第α个汉字的强化的文本语义向量。
[0029]优选的,拼音特征参数V
Pαβ
和笔画特征参数V
Bαβ
的计算公式为:
[0030]V
Pαβ
=W
p2
(tanh(W
P1
P
αβ
+b
P1
))+b
p2
[0031]V
Bαβ
=W
B2
(tanh(W
B1
B
αβ
+b
B1
))+b
B2
[0032]其中,W
P1
、W
B1
分别为拼音和笔画第一次变换的权重矩阵,维度为W
p2
、W
B2
分别为拼音和笔画第二次变换的权重矩阵,维度为γ、分别为BERT的词嵌入大小和隐藏层大小;b
P1
和b
p2
为拼音在两次变换中的偏置参数;b
B1
和b
B2
为笔画在两次变换中的偏置参数。
[0033]优选的,相关性M
P本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于地质预训练模型的命名实体识别方法,其特征在于,包括步骤:S1:获取地质命名实体识别语料库、地质知识图谱和地质文本语料库,通过地质文本语料库构建汉字特征语料库;S2:通过图神经网络对地质知识图谱进行表征,获得知识语义向量集合;S3:通过BERT对汉字特征语料库进行表征,获得汉字特征向量集合;S4:通过Transformer的编码器对地质文本语料库进行表征,获得文本语义向量集合;S5:构建特征适配器,通过特征适配器对汉字特征向量集合与文本语义向量集合进行适配融合,获得强化的文本语义向量集合;S6:构建知识融合器,通过知识融合器对知识语义向量集合与强化的文本语义向量集合进行融合,获得融合语义向量集合;S7:通过融合语义向量集合与四项预训练任务对地质预训练模型进行参数调优,得到最终的地质预训练模型;S8:将最终的地质预训练模型结合BiLSTM

CRF的神经网络结构,在地质命名实体识别语料库上进行充分训练,获得地质命名实体识别模型。2.根据权利要求1所述的基于地质预训练模型的命名实体识别方法,其特征在于,所述汉字特征向量集合中的汉字特征向量包括:拼音特征向量、偏旁特征向量和笔画特征向量。3.根据权利要求2所述的基于地质预训练模型的命名实体识别方法,其特征在于,步骤S5具体为:S51:将第α个汉字的文本语义向量记为A
α
,拼音特征向量记为P
α
,偏旁特征向量记为Y
α
,笔画特征向量记为B
α
,P
α
和B
α
的表达式为:P
α
=(P
α1
,P
α2
,P
α3
)B
α
=(B
α1
,......,B
αβ
,......,B
αm
)其中,α为汉字的编号,β为笔画的编号,m为最大笔画数量,P
α1
为第α个汉字的声母向量,P
α2
为第α个汉字的韵母向量,P
α3
为第α个汉字的声调向量;S52:将文本语义向量分别与拼音特征向量P
α
和笔画特征向量B
α
进行非线性变换,计算获得拼音特征参数V
Pαβ
和笔画特征参数V
Bαβ
;S53:计算获得拼音特征向量P
α
对第α个汉字的相关性M

,以及笔画特征向量B
α
对第α个汉字的相关性M

;S54:通过V
Pαβ
、V
Bαβ
、M

和M

计算获得拼音加权特征向量H

和笔画加权特征向量H

,计算公式为:算公式为:S55:将H

、H

、Y
α
和A
α
进行融合,获得强化的文本语义向量,计算公式为:G
α
=H

+Y
α
+H

+A
α
其中,G
α
为第α个汉字的强化的文本语义向量。4.根据权利要求3所述的基于地质预训练模型的命名实体识别方法,其特征在于,拼音
特征参数V
Pαβ
和笔画特征参数V
Bαβ
的计算公式为:V
Pαβ
=W
p2
(tanh(W
P1
P
αβ
+b
P1
))+b
p2
V
Bαβ
=W
B2
(tanh(W
B1
B
αβ
+b
B1
))+b
B2
...

【专利技术属性】
技术研发人员:马凯郑帅谢忠邱芹军任东盛冠群
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1