【技术实现步骤摘要】
一种基于大语言模型的生态修复工程全生命周期追溯方法
[0001]本专利技术涉及国土空间生态修复领域,尤其涉及一种基于大语言模型的生态修复工程全生命周期追溯方法
。
技术介绍
[0002]随着生态修复工程领域的不断发展,生态修复知识体量呈现日益增长的趋势
。
与此同时,数字化进程的加速导致互联网和各类信息系统中产生了海量的与生态修复有关的数据信息
。
为了更好地组织和利用这些信息,构建生态修复知识图谱成为一种有效的手段
。
知识图谱是一种以图形化方式呈现的知识库,包含了各种实体
、
概念及其之间的语义关联
。
[0003]随着知识图谱的不断发展,根据知识的表达范围,知识图谱演化出通用知识图谱
、
特定领域知识图谱两个大类
。
通用知识图谱表达存储常识性的百科知识,主要偏向知识的广度,面向普通用户,如搜索引擎构建的知识图谱
。
与通用知识图谱相比,领域知识图谱可以深度建模领域知识,更紧密地支撑复杂业务
。
当下知识图谱已在工业领域得到了广泛应用,如搜索领域的
Google
搜索
、
百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等
。
当前大数据环境下的生态修复信息服务,普遍存在“数据海量
、
信息爆炸
、
知识难求”现象,生态修复知识图谱的建立能够提供全新的生态修复相关数据组
【技术保护点】
【技术特征摘要】
1.
一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,包括以下步骤:
S1
:获取包括结构化
、
半结构化和非结构化存储类型的国土空间生态修复知识数据源;
S2
:分别从各存储类型的数据源中抽取包括实体
、
关系和属性的初始三元组集合;
S3
:利用
BERT
预训练语言模型对初始三元组集合训练,进行有监督学习的实体对齐,形成标准化三元组数据;
S4
:根据标准化三元组数据,依次进行知识加工和知识存储,完成生态修复知识图谱构建;根据用户的请求,调用生态修复知识图谱进行生态修复工程全生命周期追溯
。2.
根据权利要求1所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,所述的国土空间生态修复知识数据源包括现状
、
规划管控
、
管理以及其他四类数据
。3.
根据权利要求1或2所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,对于结构化数据,通过建立数据库中概念与知识图谱中本体的映射关系以及基于规则的推理,实现从数据库中自动抽取生态修复实体
、
属性及关系;对于半结构化数据,建立对应的模板抽取器实现知识抽取;对于非结构化数据,利用抽取器进行文本中的知识抽取
。4.
根据权利要求3所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,创建实体
、
属性
、
关系的知识模型,具体包括:定义实体集合;定义实体属性集合,为每个实体构造属性值列表;根据已经定义完成的实体集合及实体属性集合定义出实体之间的关系集合,包括业务关系
、
时间关系和空间关系;形成完整的实体
、
属性
、
关系的知识模型,包括实体
‑
属性
‑
实体属性值
、
实体
‑
时间关系
‑
实体
、
实体
‑
空间关系
‑
实体及实体
‑
业务关系
‑
实体的三元组数据结构
。5.
根据权利要求1或4所述的一种基于大语言模型的生态修复工程全生命周期追溯方法,其特征在于,利用
BERT
预训练语言模型进行实体对齐的过程包括:构建索引,以生态修复标准实体库作为对照实体库,对实体进行形象化描述;获取候选集,对待对齐实体库中每个实体进行对齐并挂载到生态修复标准实体库中;
BERT
语义相似度计算,将候选集,利用
BERT
预训练语言模型计算实体间属性相似度和文本相似度,并进行向量化表示,再利用余弦聚类计算实体的相似度;筛选对齐实体,将计算的实体相似度的值,按由高到低排序,筛选出相似度最高的作为可对齐实体,并根据相似度分布...
【专利技术属性】
技术研发人员:董洋洋,张苏枢,陈旭明,陶慜,佘东亮,韩光辉,朱靖文,阎欣,许涛涛,李金丽,王卓月,杨丹凤,
申请(专利权)人:浙江万维空间信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。