【技术实现步骤摘要】
一种基于知识图谱的场地土壤污染问答系统及问答方法
[0001]本专利技术涉及知识图谱和问答系统
,尤其是涉及一种基于知识图谱的场地土壤污染问答系统及问答方法
。
技术介绍
[0002]在土地开发和利用过程中,场地土壤污染是一个重要的环境问题
。
准确了解场地土壤污染的性质
、
治理方法以及评估标准对于有效地进行土壤修复和保护环境至关重要
。
目前,虽然已经存在一些场地土壤污染相关的数据库和信息系统,但存在信息分散
、
专业知识要求高和查询效率低的缺点
。
现有的场地土壤污染信息散布在各种数据库
、
文献和专家知识中,获取和整合这些信息非常困难
。
而且对于非专业人员或初学者而言,理解和利用现有场地土壤污染信息的难度较大
。
另外,传统的查询方式需要人工参与,效率低下
。
技术实现思路
[0003]为克服相关技术中存在的问题,本专利技术提供一种基于知识图谱的场地土壤污染问答系统及问答方法,用以解决相关技术中的缺陷
。
[0004]根据本专利技术的第一方面,提供一种基于知识图谱的场地土壤污染问答系统,所述系统包括:数据整合模块,用于从若干数据源中收集与场地土壤污染相关的文本数据,并通过自然语言处理技术对所述文本数据进行处理和分析,以提取场地土壤污染数据;其中,所述数据源至少包括科研论文数据库
、
环境监测数据库
、r/>场地土壤污染调查报告和专家经验;图谱构建模块,用于根据所述场地土壤污染数据构建场地土壤污染知识图谱,以及将所述场地土壤污染知识图谱存储在图数据库中;其中,所述场地土壤污染知识图谱包括场地土壤污染实体
、
场地土壤污染属性和场地土壤污染关系;问答引擎模块,用于对目标问题进行语义理解和意图识别,然后在所述场地土壤污染知识图谱中进行语义匹配和数据检索,获取目标实体
、
目标属性和目标关系,并生成对应所述目标问题的目标答案;用户交互模块,用于获取用户输入的目标问题,以及将所述目标答案返回给所述用户
。
[0005]优选地,所述通过自然语言处理技术对所述文本数据进行处理和分析,以提取场地土壤污染数据,具体包括:通过分词
、
词性标注和构建词典,对所述文本数据进行格式转换;将所述文本数据中的每个词标注为其所属的实体类型;基于预训练的语义信息,通过
BERT
提取词的特征,将每个词转化为对应的
BERT
词向量,形成词向量序列;通过双向长短时记忆网络对所述词向量序列进行编码,并基于注意力机制和上下文依赖关系,获取所述文本数据中的上下文信息;
基于标签依赖关系和所述上下文信息,通过条件随机场序列模型,生成实体标注序列;基于所述实体标注序列,提取所述文本数据中的场地土壤污染数据,所述场地土壤污染数据包括场地土壤污染实体
、
场地土壤污染属性和场地土壤污染关系
。
[0006]优选地,所述场地土壤污染知识图谱包括模式层和数据层;其中,所述模式层用于定义概念节点,包括概念实体和概念属性,以及概念节点间的层级语义关系与约束规则;所述数据层用于基于所述场地土壤污染数据获取场地土壤污染实例的具体要素,所述具体要素包括实体类型
、
实体属性和实体关系,并建立所述具体要素与对应的概念节点之间的映射;所述图谱构建模块具体用于:构建所述场地土壤污染知识图谱的模式层;以及构建所述场地土壤污染知识图谱的数据层
。
[0007]优选地,所述构建所述场地土壤污染知识图谱的模式层,具体包括:定义所述模式层中所包含的核心概念;所述核心概念至少包括场地
、
污染
、
场地相关概念和污染相关概念;通过本体建模语言构建所述核心概念的概念节点;所述概念节点包括概念实体和概念属性;在所述概念节点中,确定所述概念节点之间的层次关系
、
语义关系和属性关系
。
[0008]优选地,所述场地相关概念至少包括场地性质
、
环境敏感目标
、
地质环境
、
气候气象信息
、
产污情况
、
潜在污染区域
、
地下水样点信息
、
土壤样点信息
、
污染企业信息和综合评估结论;所述污染相关概念至少包括污染类型
、
监测手段
、
评估方法
、
多重污染
、
现象
、
生态影响
、
人体健康风险
、
修复技术
、
专家建议和防治措施
。
[0009]优选地,所述构建所述场地土壤污染知识图谱的数据层,具体包括:基于所述场地土壤污染数据提取场地土壤污染实例的实体属性和实体关系,并识别实体类型;建立所述实体属性
、
所述实体关系和所述实体类型与所述核心概念之间的属性关系
、
语义关系和层次关系之间的映射,形成所述模式层到所述数据层的映射
。
[0010]优选地,所述图数据库为
Neo4j
图数据库
。
[0011]优选地,所述数据整合模块还用于从所述若干数据源中定期收集与场地土壤污染相关的新文本数据,并从所述新文本数据提取新场地土壤污染数据;所述图谱构建模块还用于根据所述新场地土壤污染数据,更新所述图数据库中存储的所述场地土壤污染知识图谱
。
[0012]优选地,所述问答引擎模块具体包括:问题处理模块,用于对所述目标问题进行信息抽取,以提取关键信息,以及根据所述关键信息确定用户意图;问题匹配模块,用于基于所述用户意图,通过预先训练的问题分类器确定所述目标问题所属的问题类别,以及根据所述问题类别生成问题模板;答案生成模块,用于根据所述问题模板和所述关键信息构建查询语句,以及根据所述查询语句从所述图数据库中查找与所述目标问题对应的目标实体
、
目标属性和目标关
系,以及根据所述目标实体
、
所述目标属性和所述目标关系生成所述目标答案
。
[0013]根据本专利技术的第二方面,提供一种基于知识图谱的场地土壤污染问答方法,所述方法包括:获取用户输入的目标问题;对所述目标问题进行语义理解和意图识别,获取所述目标问题的关键信息和用户意图;根据所述关键信息和用户意图在预先构建的场地土壤污染知识图谱中进行语义匹配和数据检索,获取与所述目标问题对应的目标实体
、
目标属性和目标关系;根据所述目标实体
、
所述目标属性和所述目标关系,生成对应所述目标问题的目标答案;将所述目标答案返回给用户;其中,所述场地土壤污染知识图谱包括场地土壤污染实体
、
场地土壤污染属本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于知识图谱的场地土壤污染问答系统,其特征在于,所述系统包括:数据整合模块,用于从若干数据源中收集与场地土壤污染相关的文本数据,并通过自然语言处理技术对所述文本数据进行处理和分析,以提取场地土壤污染数据;其中,所述数据源至少包括科研论文数据库
、
环境监测数据库
、
场地土壤污染调查报告和专家经验;图谱构建模块,用于根据所述场地土壤污染数据构建场地土壤污染知识图谱,以及将所述场地土壤污染知识图谱存储在图数据库中;其中,所述场地土壤污染知识图谱包括场地土壤污染实体
、
场地土壤污染属性和场地土壤污染关系;问答引擎模块,用于对目标问题进行语义理解和意图识别,然后在所述场地土壤污染知识图谱中进行语义匹配和数据检索,获取目标实体
、
目标属性和目标关系,并生成对应所述目标问题的目标答案;用户交互模块,用于获取用户输入的目标问题,以及将所述目标答案返回给所述用户
。2.
根据权利要求1所述的系统,其特征在于,所述通过自然语言处理技术对所述文本数据进行处理和分析,以提取场地土壤污染数据,具体包括:通过分词
、
词性标注和构建词典,对所述文本数据进行格式转换;将所述文本数据中的每个词标注为其所属的实体类型;基于预训练的语义信息,通过
BERT
提取词的特征,将每个词转化为对应的
BERT
词向量,形成词向量序列;通过双向长短时记忆网络对所述词向量序列进行编码,并基于注意力机制和上下文依赖关系,获取所述文本数据中的上下文信息;基于标签依赖关系和所述上下文信息,通过条件随机场序列模型,生成实体标注序列;基于所述实体标注序列,提取所述文本数据中的场地土壤污染数据,所述场地土壤污染数据包括场地土壤污染实体
、
场地土壤污染属性和场地土壤污染关系
。3.
根据权利要求1所述的系统,其特征在于,所述场地土壤污染知识图谱包括模式层和数据层;其中,所述模式层用于定义概念节点,包括概念实体和概念属性,以及概念节点间的层级语义关系与约束规则;所述数据层用于基于所述场地土壤污染数据获取场地土壤污染实例的具体要素,所述具体要素包括实体类型
、
实体属性和实体关系,并建立所述具体要素与对应的概念节点之间的映射;所述图谱构建模块具体用于:构建所述场地土壤污染知识图谱的模式层;以及构建所述场地土壤污染知识图谱的数据层
。4.
根据权利要求3所述的系统,其特征在于,所述构建所述场地土壤污染知识图谱的模式层,具体包括:定义所述模式层中所包含的核心概念;所述核心概念至少包括场地
、
污染
、
场地相关概念和污染相关概念;通过本体建模语言构建所述核心概念的概念节点;所述概念节点包括概念实体和概念属性;在所述概念节点中,确定所述概念节点之间的层次关系
、
语义关系和属性关系
。5.
根据权利要求4所述的系统,其特征在于,所述场地相关概念至少包括场地性质
、
环境敏感目标
、
地质环境
、
气候气象信息
、
产污情况
、
技术研发人员:刘永强,周永章,王维曦,王汉雨,贺炬翔,许娅婷,曹伟,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。