一种模型训练方法、命名实体识别方法、介质及设备技术

技术编号:41203856 阅读:24 留言:0更新日期:2024-05-07 22:29
本发明专利技术公开了一种模型训练方法、命名实体识别方法、介质及设备,涉及水文地质命名实体识别领域,所述模型训练方法,主要包括以下步骤:获取生成式PLM,获取源序列、目标序列,将源序列送入编码器,将目标序列依次送入解码器;获取解码器输出的第c个词的条件概率;获取损失函数,调整模型参数比较不同模型参数下损失函数的值,在损失函数收敛时确定模型参数,得到训练模型。实施本发明专利技术提供的模型训练方法、命名实体识别方法、介质及设备,可以克服当前的命名实体识别方法在水文地质领域效率低、精度差等缺陷。

【技术实现步骤摘要】

本专利技术涉及水文地质命名实体识别领域,更具体地说,涉及一种模型训练方法、命名实体识别方法、介质及设备


技术介绍

1、充足的水文地质数据是水文地质研究的基础。大多数水文地质数据以海量的非结构化文本形式组织。由于每篇水文地质文献包含的关于其内容的关键信息有限,大多存储在非结构化的文献文本中,不能直接应用于水文地质研究。在实践中,人工识别和从文献中提取数据是耗时和人力成本高的。如今,从新兴文本中自动提取水文地质数据为水文地质研究提出了许多挑战,非常有价值。命名实体识别(ner)是从非结构化文本中提取信息的主要方法,已被用于水文地质实体提取,从科学文献中等地质文本中提取地质信息,以支持数据分析和地质解释的关键任务,包括识别和提取重要的地质概念,如岩石类型、地质构造、地质年龄和地名。由于水文地质实体和文本与可用的公共数据集差异很大,以前的ner方法在从水文地质文本中提取实体时面临重大挑战。早期的ner方法是基于词典和规则的。然而,地质领域的实体多样且不断更新,这些方法难以枚举所有规则,无法高效地获取新兴实体。目前,深度学习的发展使神经网络成为ner的主流方法,在本文档来自技高网...

【技术保护点】

1.一种模型训练方法,所述模型用于水文地质命名实体识别,其特征在于,包括以下步骤:

2.根据权利要求1所述的模型训练方法,其特征在于,所述源序列和目标序列通过如下步骤得到:

3.根据权利要求2所述的模型训练方法,其特征在于,所述标签词集合为{Location,AquiferType,GroundwaterType,HydrochemicalType,RockType,StratigraphicGroupType,GeologicAge},其中Location为位置,AquiferType为含水层类型,GroundwaterType为地下水类型,Hydrochemi...

【技术特征摘要】

1.一种模型训练方法,所述模型用于水文地质命名实体识别,其特征在于,包括以下步骤:

2.根据权利要求1所述的模型训练方法,其特征在于,所述源序列和目标序列通过如下步骤得到:

3.根据权利要求2所述的模型训练方法,其特征在于,所述标签词集合为{location,aquifertype,groundwatertype,hydrochemicaltype,rocktype,stratigraphicgrouptype,geologicage},其中location为位置,aquifertype为含水层类型,groundwatertype为地下水类型,hydrochemicaltype为水化学类型,rocktype为岩石类型,stratigraphicgrouptype为地层组类型,geologicage为地质年代,所述标签集合为{loc,aqu,gro,hyd,roc,str,geo},其中loc与location对应,aqu与aquifertype对应,gro与groundwatertype对应,hyd与hydrochemicaltype对应,roc与rocktype对应,str与stratigraphicgrouptype对应,geo与geologicage对应。

4.根据权利要求...

【专利技术属性】
技术研发人员:姚宏李圣文秦汉青孙亮
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1