System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于地质文本识别,尤其涉及一种基于多特征融合的锂矿命名实体识别方法及系统。
技术介绍
1、在长年累月的地质调查、矿产勘查和地质科研工作中,作为典型数据密集型学科的地质学积累了海量、多源异构的地质资料数据,其中主要以地质勘探报告和地质文献为主。地质文献和勘探报告包含丰富而有价值的地质信息和知识。从这些丰富但未充分利用的地质文本数据中提取信息对于理解地质过程、发现新知识以及降低勘探风险和成本至关重要。因此,如何从海量地质文本数据中获取关键的、核心的信息知识,应用到矿床领域研究中,是当前矿产资源勘查与成矿预测的难题。
2、地质命名实体识别旨在从地质文本中识别实体边界并将实体分类为预定义的具体地质类别。这是许多下游应用的基础任务,包括信息检索、知识图谱构建、知识发现和智能问答。尽管一些研究已经探讨了地质命名实体识别,但这些研究通常集中在几种实体类型上,主要围绕地质和矿床信息。矿产勘探是一项复杂而困难的工作,涉及多个地球科学学科,包括地质学、岩石学、矿物学、地球化学、地球物理学和遥感。
3、通过上述分析,现有技术存在的问题及缺陷为:现有的地质命名实体识别模型不足以捕捉对矿产勘探至关重要的广泛知识,识别精度较低,导致后续找矿知识的新发现较为困难,较难应用到地质找矿中。为了克服这一挑战,迫切需要一种针对地质找矿的实体识别模型,能够在该领域提取关键信息和全面知识从而为智能化成矿预测服务。
技术实现思路
1、为克服相关技术中存在的问题,本专利技术公开实施例提供了一种
2、所述技术方案如下:基于多特征融合的锂矿命名实体识别方法,包括以下步骤:
3、s1:获取锂矿的中文文献和地质报告,对所获取文档数据进行预处理,得到锂矿文本数据集;
4、s2:定义22种锂矿找矿实体类别;
5、s3:对所述锂矿文本数据集进行标注,构建锂矿命名实体数据集;
6、s4:构建多特征融合的锂矿命名实体识别模型,利用锂矿命名实体数据集,对锂矿命名实体识别模型进行迭代训练,得到最终的锂矿命名实体识别模型;
7、s5:获取待识别文本数据,利用所述最终的锂矿命名实体识别模型对待识别文本数据进行锂矿找矿实体识别,获得识别结果。
8、在步骤s1中,对所获取文档数据进行预处理,得到锂矿文本数据集包括:
9、从所获取文档数据中获取文本数据;
10、去除标题、作者信息和参考文献内容,只保留正文文本数据;
11、对正文文本数据进行分句,得到锂矿文本数据集。
12、在步骤s2中,22种锂矿找矿实体类别包括:大地构造单元、成矿单元、断裂、构造变形、矿床、地层、蚀变、变质岩、沉积岩、岩浆岩、矿体、矿物、地球物理异常、化学元素异常、遥感标志、空间位置、时间、成因类型、品位、规模、矿种、矿物分带。
13、在步骤s4中,所述锂矿命名实体识别模型由bert层、bi-lstm、cnn、multi-headattention融合层和crf层组成;
14、s11,采用bert模型从原始输入句子和包含所有实体类型的句子中获取字特征;
15、s12,字特征通过bi-lstm、cnn和multi-head attention进行特征提取;multi-head attention通过融合实体类型信息来增强原始文本的字特征,cnn和bi-lstm分别捕捉词语和上下文特征;这三组特征被拼接成融合特征;
16、s13,将融合特征输入crf层进行标签序列预测。
17、在步骤s4中,所述利用锂矿命名实体数据集,对锂矿命名实体识别模型进行迭代训练,得到最终的锂矿命名实体识别模型包括:
18、s41:利用bert预训练模型,得到锂矿命名实体数据集的文本字特征x1;
19、s42:将22种实体类型的名称合并成一个单独的句子,以逗号分隔,形成实体类型句子,利用bert预训练模型得到实体类型句子字特征x2;
20、s43:将文本字特征x1和实体类型句子向量x2输入到multi-head attention层中,得到增强字特征xa;
21、s44:将文本字特征x1输入到多个不同大小卷积核cnn层中,得到词特征xb;
22、s45:将文本字特征x1输入到bilstm层中得到上下文特征xc;
23、s46:将增强字特征xa、词特征xb和增强上下文特征xc拼接到一起,得到融合特征xd,将融合特征xd输入到crf层进行解码,得到标签序列。
24、在步骤s5中,所述利用所述最终的锂矿命名实体识别模型对待识别文本数据进行锂矿找矿实体识别包括:使用训练好的锂矿命名实体识别模型,对待识别锂矿文本数据进行命名实体识别,获取22种实体,得到锂矿找矿关键信息。
25、本专利技术的另一目的在于提供一种基于多特征融合的锂矿命名实体识别系统,该系统实施所述基于多特征融合的锂矿命名实体识别方法,该系统包括:
26、预处理模块,用于获取锂矿的中文文献和地质报告,对所获取文档数据进行预处理,得到锂矿文本数据集;
27、实体类别定义模块,用于定义22种锂矿找矿实体类别;
28、锂矿命名实体数据集构建模块,用于对所述锂矿文本数据集进行标注,构建锂矿命名实体数据集;
29、锂矿命名实体识别模型构建模块,用于构建多特征融合的锂矿命名实体识别模型,利用锂矿命名实体数据集,对锂矿命名实体识别模型进行迭代训练,得到最终的锂矿命名实体识别模型;
30、识别结果获取模块,用于获取待识别文本数据,利用所述最终的锂矿命名实体识别模型对待识别文本数据进行锂矿找矿实体识别,获得识别结果。
31、进一步,该系统搭载在计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现该系统的功能。
32、进一步,该系统搭载在计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现该系统的功能。
33、进一步,该系统搭载在信息数据处理终端,所述信息数据处理终端用于实现电子装置上执行时,提供用户输入接口以实施该系统的功能,所述信息数据处理终端包括手机、电脑、交换机。
34、结合上述的所有技术方案,本专利技术所具备的有益效果为:本专利技术将表达锂矿信息实体上位概念的锂矿实体类型,作为外部信息加入到锂矿命名实体识别模型中,利用多头注意力机制学习实体类型与文本数据上下文之间的语义连接,打破了仅使用字特征进行地质领域实体识别的模式,创新性地得到具有地质实体类型信息的字特征,增强了地质实体边界信息,加深了对输入句子中实体语本文档来自技高网...
【技术保护点】
1.一种基于多特征融合的锂矿命名实体识别方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤S1中,对所获取文档数据进行预处理,得到锂矿文本数据集包括:
3.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤S2中,22种锂矿找矿实体类别包括:大地构造单元、成矿单元、断裂、构造变形、矿床、地层、蚀变、变质岩、沉积岩、岩浆岩、矿体、矿物、地球物理异常、化学元素异常、遥感标志、空间位置、时间、成因类型、品位、规模、矿种、矿物分带。
4.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤S4中,所述锂矿命名实体识别模型由BERT层、Bi-LSTM、CNN、Multi-Head Attention融合层和CRF层组成;
5.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤S4中,所述利用锂矿命名实体数据集,对锂矿命名实体识别模型进行迭代训练,得到最终的锂矿命名实体识别模型包括:
6.
7.一种基于多特征融合的锂矿命名实体识别系统,其特征在于,该系统实施如权利要求1至6任意一项所述基于多特征融合的锂矿命名实体识别方法,包括:
8.根据权利要求7所述的基于多特征融合的锂矿命名实体识别系统,其特征在于:该系统搭载在计算机设备,该计算机设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现该系统的功能。
9.根据权利要求7所述的基于多特征融合的锂矿命名实体识别系统,其特征在于:该系统搭载在计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现该系统的功能。
10.根据权利要求7所述的基于多特征融合的锂矿命名实体识别系统,其特征在于:该系统搭载在信息数据处理终端,所述信息数据处理终端用于实现电子装置上执行时,提供用户输入接口以实施该系统的功能,所述信息数据处理终端包括手机、电脑、交换机。
...【技术特征摘要】
1.一种基于多特征融合的锂矿命名实体识别方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤s1中,对所获取文档数据进行预处理,得到锂矿文本数据集包括:
3.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤s2中,22种锂矿找矿实体类别包括:大地构造单元、成矿单元、断裂、构造变形、矿床、地层、蚀变、变质岩、沉积岩、岩浆岩、矿体、矿物、地球物理异常、化学元素异常、遥感标志、空间位置、时间、成因类型、品位、规模、矿种、矿物分带。
4.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤s4中,所述锂矿命名实体识别模型由bert层、bi-lstm、cnn、multi-head attention融合层和crf层组成;
5.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步骤s4中,所述利用锂矿命名实体数据集,对锂矿命名实体识别模型进行迭代训练,得到最终的锂矿命名实体识别模型包括:
6.根据权利要求1所述的基于多特征融合的锂矿命名实体识别方法,其特征在于:在步...
【专利技术属性】
技术研发人员:张楠楠,陶金涛,常金雨,廖世斌,陈利,张浩,
申请(专利权)人:中国科学院新疆生态与地理研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。