【技术实现步骤摘要】
一种建筑环境知识图谱构建方法及装置
[0001]本申请涉及计算机信息处理
,尤其涉及一种建筑环境知识图谱构建方法及装置。
技术介绍
[0002]近年来,随着现代设计和施工技术的快速发展,建筑环境中的实践已经变得更加数字化。然而,从业者或学者在建筑环境中收集复杂的专业知识的要求尚未得到满足,而缺乏适当的知识可视化工具已成为提高建筑环境类项目管理水平和效率的一个关键障碍。
[0003]由于构建环境领域的大量知识仍然是非结构化数据格式的,不能直接使用,依靠基于规则的系统和专家干预等传统方法从大量数据中提取有价值的信息并将其转换为结构化数据,需要大量的时间和劳动力,无法满足不断增长的业务需求。
技术实现思路
[0004]本申请提供了一种建筑环境知识图谱构建方法及装置,用于解决现有的建筑环境知识图谱构建效率低,无法满足不断增长的业务需求的技术问题。
[0005]为解决上述技术问题,本申请第一方面提供了一种建筑环境知识图谱构建方法,包括:
[0006]采集建筑环境类的文本数据;
[0007]通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;
[0008]通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;
[0009]获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进 ...
【技术保护点】
【技术特征摘要】
1.一种建筑环境知识图谱构建方法,其特征在于,包括:采集建筑环境类的文本数据;通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据;通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架;获取带注释信息的实例数据集,以所述知识图框架作为参照信息,对所述实例数据集进行过滤,其中,所述实例数据集中的每个实例均包含一对实体以及所述实体间的关系;通过过滤后的实例数据集训练基于bert的命名实体识别模型与实体关系分类模型,以利用所述命名实体识别模型与所述实体关系分类模型,提取所述文本数据中的实体对象以及实体关系,形成建筑环境知识图谱。2.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过自然语言处理方式和聚类算法,按照各个实体对象的语义,对各个三元组数据进行聚类,根据聚类结果更新各个三元组数据,形成知识图框架具体包括:通过自然语言处理方式和聚类算法,按照各个实体对象的语义,将实体对象语义相似的三元组数据进行聚类,形成多个实体集群;更新各个实体集群中各个三元组数据的实体对象,将更新后的三元组数据转换为嵌入三元组;按照所述嵌入三元组中的实体对象,通过所述聚类算法,对所述嵌入三元组进行聚类,形成知识图框架。3.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中的实体对象,并结合与所述实体对象关联的上下文信息,得到所述实体对象的三元组数据具体包括:通过文本识别算法,对所述文本数据进行预处理,识别所述文本数据中实体对象的三元组数据;将所述实体对象关联的上下文信息,添加到所述三元组数据中,得到所述实体对象的三元组数据。4.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述命名实体识别模型的表达式具体包括:式中,Pred为所述命名实体识别模型的正向输出结果,B表示BERT模型,d和l分别表示dropout层和线性层,C
decode
为维特比算法,emission表示线性层输出,S表示softmax层,C表示CRF层。5.根据权利要求1所述的一种建筑环境知识图谱构建方法,其特征在于,所述实体关系分类模型的表达式具体包括:
式中,O
pred
表示所预测的标签的得分,BP表示BERT
‑
Pair模型,x
r
j表示支持集S中第N个类的第j个实例,y
【专利技术属性】
技术研发人员:杨晓君,王正东,钟浩宇,林浩申,闵海波,周齐,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。