【技术实现步骤摘要】
一种基于地质预训练模型的命名实体识别方法及系统
[0001]本专利技术涉及地质文本识别领域,尤其涉及一种基于地质预训练模型的命名实体识别方法及系统。
技术介绍
[0002]随着数据驱动创新发展的不断深入,对持续暴增的海量文本数据进行知识挖掘与利用更加迫切与重要。命名实体识别(NER)是自然语言处理(NLP)重要的任务之一,其目的是从文本中对实体进行识别与分类。在地质领域的NER中,需要识别的实体包括矿物、岩石、地层、地质构造、地质年代等。预训练语言模型(PLMs)是高效精准识别命名实体的重要基础。利用预训练语言模型能够将复杂的文本知识准确完整地映射到向量空间,得到富含语义信息的表征,为下游模型(比如卷积神经网络)的特征学习提供向量支撑。
[0003]NER目前的实现方法可以总结为基于规则、传统机器学习、深度学习三类方法。基于规则的方法因依赖的规则需要大量的领域知识以及人工导致效率低、可拓展性差。基于机器学习的方法因需要大量的人工标注、泛化能力弱等问题导致整体性能不佳。而基于PLMS的深度学习方法,是当前主流的方向。
[0004]但是下游模型(如BiLSTM
‑
CRF)进行特征学习的重要基础是表征向量中语义丰富。这一点对于垂直领域NER至关重要。因此在很多垂直领域针对这一问题训练了相应的领域预训练模型,比如生物医学领域的BioBERT,临床医学领域的ClinicalBERT,科学领域的SCIBERT,在金融领域的FinBERT,地理领域的GeoBERT。
[0005]此外,预训 ...
【技术保护点】
【技术特征摘要】
1.一种基于地质预训练模型的命名实体识别方法,其特征在于,包括步骤:S1:获取地质命名实体识别语料库、地质知识图谱和地质文本语料库,通过地质文本语料库构建汉字特征语料库;S2:通过图神经网络对地质知识图谱进行表征,获得知识语义向量集合;S3:通过BERT对汉字特征语料库进行表征,获得汉字特征向量集合;S4:通过Transformer的编码器对地质文本语料库进行表征,获得文本语义向量集合;S5:构建特征适配器,通过特征适配器对汉字特征向量集合与文本语义向量集合进行适配融合,获得强化的文本语义向量集合;S6:构建知识融合器,通过知识融合器对知识语义向量集合与强化的文本语义向量集合进行融合,获得融合语义向量集合;S7:通过融合语义向量集合与四项预训练任务对地质预训练模型进行参数调优,得到最终的地质预训练模型;S8:将最终的地质预训练模型结合BiLSTM
‑
CRF的神经网络结构,在地质命名实体识别语料库上进行充分训练,获得地质命名实体识别模型。2.根据权利要求1所述的基于地质预训练模型的命名实体识别方法,其特征在于,所述汉字特征向量集合中的汉字特征向量包括:拼音特征向量、偏旁特征向量和笔画特征向量。3.根据权利要求2所述的基于地质预训练模型的命名实体识别方法,其特征在于,步骤S5具体为:S51:将第α个汉字的文本语义向量记为A
α
,拼音特征向量记为P
α
,偏旁特征向量记为Y
α
,笔画特征向量记为B
α
,P
α
和B
α
的表达式为:P
α
=(P
α1
,P
α2
,P
α3
)B
α
=(B
α1
,......,B
αβ
,......,B
αm
)其中,α为汉字的编号,β为笔画的编号,m为最大笔画数量,P
α1
为第α个汉字的声母向量,P
α2
为第α个汉字的韵母向量,P
α3
为第α个汉字的声调向量;S52:将文本语义向量分别与拼音特征向量P
α
和笔画特征向量B
α
进行非线性变换,计算获得拼音特征参数V
Pαβ
和笔画特征参数V
Bαβ
;S53:计算获得拼音特征向量P
α
对第α个汉字的相关性M
Pα
,以及笔画特征向量B
α
对第α个汉字的相关性M
Bα
;S54:通过V
Pαβ
、V
Bαβ
、M
Pα
和M
Bα
计算获得拼音加权特征向量H
pα
和笔画加权特征向量H
Bα
,计算公式为:算公式为:S55:将H
pα
、H
Bα
、Y
α
和A
α
进行融合,获得强化的文本语义向量,计算公式为:G
α
=H
pα
+Y
α
+H
Bα
+A
α
其中,G
α
为第α个汉字的强化的文本语义向量。4.根据权利要求3所述的基于地质预训练模型的命名实体识别方法,其特征在于,拼音
特征参数V
Pαβ
和笔画特征参数V
Bαβ
的计算公式为:V
Pαβ
=W
p2
(tanh(W
P1
P
αβ
+b
P1
))+b
p2
V
Bαβ
=W
B2
(tanh(W
B1
B
αβ
+b
B1
))+b
B2
...
【专利技术属性】
技术研发人员:马凯,郑帅,谢忠,邱芹军,任东,盛冠群,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。