一种地质文本信息萃取识别方法、装置、设备及存储介质制造方法及图纸

技术编号:39181812 阅读:10 留言:0更新日期:2023-10-27 08:29
本申请公开一种地质文本信息萃取识别方法、装置、设备及存储介质,所述方法包括获取相关的地质文本资料;对地质文本资料进行一次清洗;将地质文本资料转换成可编辑文本,并以段落为单位进行分割,再进行分词处理,形成地质文本语料库;对地质文本语料库进行二次清洗;对地质文本语料库进行标注,得到数据集;根据数据集、预设的提示模板以及预设的标签词与自然词的映射关系,得到输入向量;将输入向量输入到预训练语言模型,得到词预测结果;根据词预测结果和真实标签词计算损失值,训练预训练语言模型。本发明专利技术有助于快速地对需求数据进行实体识别,减少了数据识别过程中的人力、物力成本,提高了数据采集与分析的效率。提高了数据采集与分析的效率。提高了数据采集与分析的效率。

【技术实现步骤摘要】
一种地质文本信息萃取识别方法、装置、设备及存储介质


[0001]本申请涉及地理信息处理
,具体地涉及一种地质文本信息萃取识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]当今社会正处于大数据时代,科学研究已经开始从实验、理论、模拟慢慢转化为以大数据驱动的新型科学研究范式。就地球科学而言,在大数据时代,需要收集尽可能多的地球科学勘探数据(例如结构化数据以及非结构化的技术报告、地质报告和论文)。在地质学中,有些技术可以用于识别地质特征、解释地质事件、预测矿产资源等方面,例如,通过挖掘地质文献中的关键词、地质术语和上下文关联,建立地质学领域的知识图谱。当前地学实体普遍依赖人工从论文中提取数据,人工标注数据会消耗大量的人力和物力,因此如何通过数据挖掘技术手段,从海量的非结构化文本中挖掘出地质命名实体,成为了地学信息化的关键技术之一。
[0003]通过应用NLP(Natural Language Processing,自然语言处理)技术,从海量的地质文本中提取有价值的信息,加深对地质过程和地球内部结构的理解。
[0004]在不同领域下,需要识别命名实体类型也是不相同的,因此,需要标注大量的领域文本数据,这是一件非常耗费精力的事情。近年来,越来越多的人开始研究命名实体识别技术,目前以下述三种方法为主:
[0005](1)基于规则的方法,该方法需要大量的劳动力成本和特定的领域专家来创建大量的词典和规则;
[0006](2)基于静态词向量的方法,与基于规则的方法相比,该方法只需要少量的规则,但通过静态词向量分析语义特征进行实体识别,无法解决一词多义的情况;
[0007](3)基于预训练的方法,与前两种方法相比,该方法通过动态词向量的方式解决了一词多义的问题,得到了非常好的效果,但需要标注大量的文本数据进行训练,因此,如何在少量数据集下训练出一个优秀的识别模型,成为了一个难题。
[0008]传统的地质NER(即命名实体识别)模型需要足够的标记样本数据来学习,并通过学习大量的文本特征来获得良好的识别结果。然而,由于标记数据的稀缺性和识别未知类型实体的挑战,很难从少量样本中学习到丰富的特征,导致识别效果不佳。
[0009]本
技术介绍
描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。

技术实现思路

[0010]本专利技术实施例意图提供一种地质文本信息萃取识别方法、装置、计算机设备及存储介质,以解决由于人工标记地质数据的稀缺性、识别未知类型实体以及地质命名实体识别工作流程稀缺导致难以从少量样本中学习到丰富的特征的问题。
[0011]在第一方面,本专利技术实施例提供了一种地质文本信息萃取识别方法,所述识别方
法包括以下步骤:
[0012]根据目标需求,获取相关的地质文本资料;
[0013]对所述地质文本资料进行一次清洗,去除格式错误、数据缺失的文本;
[0014]将清洗处理后的地质文本资料转换成可编辑文本,并对所述可编辑文本以段落为单位进行分割,对分割得到的段落进行分词处理,形成地质文本语料库;
[0015]对所述地质文本语料库进行二次清洗,删除非文本内容;
[0016]对所述地质文本语料库进行标注,并将标注后的地质文本语料库进行格式转换,得到数据集;
[0017]根据所述数据集、预设的提示模板以及预设的标签词与自然词的映射关系,得到输入向量;
[0018]将所述输入向量输入到预训练语言模型,得到所述输入向量中掩码处的词预测结果;
[0019]根据所述词预测结果和真实标签词计算损失值,根据所述损失值训练所述预训练语言模型。
[0020]进一步地,利用Scrapy分布式爬虫技术从相关网站中下载获取所述地质文本资料。
[0021]进一步地,采用光学字符识别技术将一次清洗处理后的地质文本资料转换成可编辑文本。
[0022]进一步地,所述预设的提示模板为一个含有两个槽的文本串,具体表达式为:
[0023][X],Xi is[Z];
[0024]其中,[X]为句子的数据集,Xi是句子的数据集中的句子,[Z]为掩码空缺;
[0025]所述预设的标签词与自然词的映射关系是将原始标签词映射到一组自然词中,映射函数M:Y

V,其连接类集Y和标签词集V。
[0026]进一步地,所述将所述输入向量输入到预训练语言模型,得到所述输入向量中掩码处的词预测结果,具体包括:
[0027]对输入向量进行转换得到第一结果,具体公式为:
[0028][0029]其中,h为第一结果,x为数据集中的句子,为预设的提示模板,emb()为词向量函数;
[0030]基于所述第一结果,计算每个候选词的概率,具体计算公式为:
[0031][0032]其中,P([MASK]为候选词的概率,为预训练语言模型[MASK]位置W的得分,W
lm
为预训练语言模型的参数,h
[MASK]为候选词向量转换后的第一结果;
[0033]利用Argmax函数将概率最大的候选词填充到掩码空缺中。
[0034]进一步地,所述识别方法还包括:对所述预训练语言模型输出的词预测结果进行人工校验,当校验错误时,将错误提示信息反馈给正则模块,通过地质年代和地点的萃取,降低错误标签带来的识别噪音。
[0035]在第二方面,本专利技术实施例提供了一种地质文本信息萃取识别装置,所述装置包
括:
[0036]获取单元,用于根据目标需求,获取相关的地质文本资料;
[0037]一次清洗单元,用于对所述地质文本资料进行清洗,去除格式错误、数据缺失的文本;
[0038]文本处理单元,用于将清洗处理后的地质文本资料转换成可编辑文本,并对所述可编辑文本以段落为单位进行分割,对分割得到的段落进行分词处理,形成地质文本语料库;
[0039]二次清洗单元,用于对所述地质文本语料库进行二次清洗,删除非文本内容;
[0040]标注单元,用于对所述地质文本语料库进行标注,并将标注后的地质文本语料库进行格式转换,得到数据集;
[0041]构建单元,用于根据所述数据集、预设的提示模板以及预设的标签词与自然词的映射关系,得到输入向量;
[0042]训练单元,用于将所述输入向量输入到预训练语言模型,得到所述输入向量中掩码处的词预测结果;根据所述词预测结果和真实标签词计算损失值,根据所述损失值训练所述预训练语言模型。
[0043]在第三方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的地质文本信息萃取识别方法。
[0044]在第四方面,本专利技术实施例提供一种计算机设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行如上所述的地质文本信息萃取识别方法。
[0045]本专利技术实施例中使用的地质文本信息萃本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地质文本信息萃取识别方法,其特征在于,所述识别方法包括以下步骤:根据目标需求,获取相关的地质文本资料;对所述地质文本资料进行一次清洗,去除格式错误、数据缺失的文本;将清洗处理后的地质文本资料转换成可编辑文本,并对所述可编辑文本以段落为单位进行分割,对分割得到的段落进行分词处理,形成地质文本语料库;对所述地质文本语料库进行二次清洗,删除非文本内容;对所述地质文本语料库进行标注,并将标注后的地质文本语料库进行格式转换,得到数据集;根据所述数据集、预设的提示模板以及预设的标签词与自然词的映射关系,得到输入向量;将所述输入向量输入到预训练语言模型,得到所述输入向量中掩码处的词预测结果;根据所述词预测结果和真实标签词计算损失值,根据所述损失值训练所述预训练语言模型。2.根据权利要求1所述的地质文本信息萃取识别方法,其特征在于,利用Scrapy分布式爬虫技术从相关网站中下载获取所述地质文本资料。3.根据权利要求1所述的地质文本信息萃取识别方法,其特征在于,采用光学字符识别技术将一次清洗处理后的地质文本资料转换成可编辑文本。4.根据权利要求1所述的地质文本信息萃取识别方法,其特征在于,所述预设的提示模板为一个含有两个槽的文本串,具体表达式为:[X],Xiis[Z];其中,[X]为句子的数据集,Xi是句子的数据集中的句子,[Z]为掩码空缺;所述预设的标签词与自然词的映射关系是将原始标签词映射到一组自然词中,映射函数M:Y

V,其连接类集Y和标签词集V。5.根据权利要求1所述的地质文本信息萃取识别方法,其特征在于,所述将所述输入向量输入到预训练语言模型,得到所述输入向量中掩码处的词预测结果,具体包括:对输入向量进行转换得到第一结果,具体公式为:其中,h为第一结果,x为数据集中的句子,为预设的提示模板,emb()为词向量函数;基于所述第一结果,计算每个候选词的概率,具体计算公式为:其中,P([MASK]为候选词的概率,为预训练语言...

【专利技术属性】
技术研发人员:马超何杭侯明才唐闻强钟瀚霆周羽漩
申请(专利权)人:成都理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1