一种基于大语言模型的生态修复工程全生命周期追溯方法技术

技术编号:39657894 阅读:15 留言:0更新日期:2023-12-09 11:26
本发明专利技术公开了一种基于大语言模型的生态修复工程全生命周期追溯方法

【技术实现步骤摘要】
一种基于大语言模型的生态修复工程全生命周期追溯方法


[0001]本专利技术涉及国土空间生态修复领域,尤其涉及一种基于大语言模型的生态修复工程全生命周期追溯方法


技术介绍

[0002]随着生态修复工程领域的不断发展,生态修复知识体量呈现日益增长的趋势

与此同时,数字化进程的加速导致互联网和各类信息系统中产生了海量的与生态修复有关的数据信息

为了更好地组织和利用这些信息,构建生态修复知识图谱成为一种有效的手段

知识图谱是一种以图形化方式呈现的知识库,包含了各种实体

概念及其之间的语义关联

[0003]随着知识图谱的不断发展,根据知识的表达范围,知识图谱演化出通用知识图谱

特定领域知识图谱两个大类

通用知识图谱表达存储常识性的百科知识,主要偏向知识的广度,面向普通用户,如搜索引擎构建的知识图谱

与通用知识图谱相比,领域知识图谱可以深度建模领域知识,更紧密地支撑复杂业务

当下知识图谱已在工业领域得到了广泛应用,如搜索领域的
Google
搜索

百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等

当前大数据环境下的生态修复信息服务,普遍存在“数据海量

信息爆炸

知识难求”现象,生态修复知识图谱的建立能够提供全新的生态修复相关数据组织方式和管理应用手段

而生态修复知识除了具有通用知识的内涵和特点之外,还具有特定的时空特征,因此生态修复知识图谱构建和应用具有一定的专业特殊性,导致当前并未建立完善的国土空间生态修复领域知识图谱

目前没有关于建立国土空间生态修复领域知识图谱的相关专利文献公开

[0004]在知识图谱的构建过程中,当前实体对齐领域主流的方法是基于嵌入表示的实体对齐,该方法中的对齐模块需要使用人工标注的等价实体对作为训练集进行训练,依赖于人工操作,若任务知识图谱与预训练知识图谱包含不同的实体和关系,则基于嵌入的方法由于嵌入缺失而无法将有价值的信息传递给下游任务模型,因此对数据稀缺性不具备良好的处理方式

知识图谱的构建需要通过各种大数据平台获取知识,将来自不同数据源的知识进行融合,以构建数据之间的关联

目前知识图谱仍然缺乏有效的知识融合手段,实际应用中语料数据标注多依赖人工
/
半人工的方式进行实体对齐,存在标注效率低

主观性强等问题,效率和准确性距离大规模应用还有一定距离

[0005]国土空间生态修复领域细分业务支线众多,并受自然或人为因素影响,国土空间生态修复数据呈现不定期更新变化状态,基于嵌入表示的方法难以适应数据的变化,从而影响实体对齐的准确性

国土空间生态修复涉及位置

项目

地块

规划

业务等相关信息,每一种信息都包含了大量的内容

现有技术的信息获取方法,一般是由用户对片面化的信息进行人工整理和分析,获取效率低,会因为用户自身的知识储备不足从而遗漏或查询不到自然资源隐含的信息,导致最终获取的信息准确率比较低

[0006]此外,基于嵌入表示的方法不具备上下文理解能力,往往只能捕捉到文本的浅层语义信息,而在国土空间生态修复领域中,很多实体和关系可能涉及到较为复杂的语义信
息,这会导致基于嵌入表示的方法在处理这些实体和关系时出现偏差,效率低下且易出错


技术实现思路

[0007]本专利技术的目的一是为了解决知识图谱在构建过程中依赖人工标注

缺乏语义理解的问题;还为了解决目前自然资源模型中各实体节点之间关联关系单一,尚未形成国土空间生态修复知识图谱,无法从多个维度实现生态修复全周期管理的技术问题

提供一种基于大语言模型的生态修复工程全生命周期追溯方法,引入大语言模型至知识图谱的实体对齐阶段,针对国土空间生态修复领域的业务专业特性和地理特性,依托大规模的语料库和参数,能更准确地对自然语言进行理解和生成

[0008]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于大语言模型的生态修复工程全生命周期追溯方法,包括以下步骤:
S1
:获取包括结构化

半结构化和非结构化存储类型的国土空间生态修复知识数据源;
S2
:分别从各存储类型的数据源中抽取包括实体

关系和属性的初始三元组集合;
S3
:利用
BERT
预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;
S4
:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯

[0009]运用海量语料和机器学习大模型的知识融合能力,大大减少了很多以往依赖人工完成的基础性

模式化工作,能够有效解决多源异构生态修复知识库的实体对齐问题

通过设计并构建本体,运用
BERT
实体对齐模型,形成标准化三元组数据,再将知识提炼加工,最终形成国土空间生态修复知识图谱

依托知识图谱技术,建立国土空间生态修复中各实体节点的多元关联,打破国土空间生态修复各业务条线数据因子之间的数据壁垒,实现对国土空间生态修复工作中各自然资源要素的全生命周期追溯,实时跟踪掌握全空间全时序变化关系

关联全业务全环节信息

[0010]作为优选,所述的国土空间生态修复知识数据源包括现状

规划管控

管理以及其他四类数据

包括空间位置

业务表单

文档材料

标准规范

政策资料等

建立基于关系及关系层级延展

衍生的国土空间生态修复项目工程知识链条,将工程项目立项

实施

验收

管护多环节进行了关系链条表达,将抽取与融合得到的国土空间生态修复知识进行了可视化表达

[0011]作为优选,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体

属性及关系;对于半结构化数据,建立对应的模板抽取器实现知识抽取;主要抽取的是实体名

标签

基本描述
...

【技术保护点】

【技术特征摘要】
1.
一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,包括以下步骤:
S1
:获取包括结构化

半结构化和非结构化存储类型的国土空间生态修复知识数据源;
S2
:分别从各存储类型的数据源中抽取包括实体

关系和属性的初始三元组集合;
S3
:利用
BERT
预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;
S4
:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯
。2.
根据权利要求1所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,所述的国土空间生态修复知识数据源包括现状

规划管控

管理以及其他四类数据
。3.
根据权利要求1或2所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体

属性及关系;对于半结构化数据,建立对应的模板抽取器实现知识抽取;对于非结构化数据,利用抽取器进行文本中的知识抽取
。4.
根据权利要求3所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,创建实体

属性

关系的知识模型,具体包括:定义实体集合;定义实体属性集合,为每个实体构造属性值列表;根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,包括业务关系

时间关系和空间关系;形成完整的实体

属性

关系的知识模型,包括实体

属性

实体属性值

实体

时间关系

实体

实体

空间关系

实体及实体

业务关系

实体的三元组数据结构
。5.
根据权利要求1或4所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,利用
BERT
预训练语言模型进行实体对齐的过程包括:构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述;获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中;
BERT
语义相似度计算,将候选集,利用
BERT
预训练语言模型计算实体间属性相似度和文本相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度;筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布...

【专利技术属性】
技术研发人员:董洋洋张苏枢陈旭明陶慜佘东亮韩光辉朱靖文阎欣许涛涛李金丽王卓月杨丹凤
申请(专利权)人:浙江万维空间信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1