【技术实现步骤摘要】
面向施工图审查规范知识抽取与知识图谱构建方法及系统
[0001]本专利技术属于施工图审查规范知识抽取与图谱的智能化审图
,具体涉及一种面向施工图审查规范知识抽取与知识图谱构建方法及系统。
技术介绍
[0002]目前,施工图审查仍然处于传统人工审图模式。施工图审查规范缺乏规则的知识体系,审图人员对规范的理解程度并不统一,因此导致审图质量和效率并不满足当前需求。面向施工图审查规范语句结构复杂、关联性强的问题,即使借助审图辅助工具,这种审图方式需要耗费巨大的人力与物力。
[0003]从原始文本中提取实体和关系是知识图谱构建的重要步骤,近年来,随着NLP领域的不断发展,大多数用于实体和关系提取的神经网络模型假设一个句子只包含一个关系,无实体嵌套等事实。然而,面对施工图审查规范中有多个三元组有重叠、关系类别多和实体嵌套与实体非嵌套的情况时,现有模型的效果就有一定的局限性。
技术实现思路
[0004]专利技术目的:针对现有的技术问题,本专利技术提供了一种面向施工图审查规范知识抽取与知识图谱构建方法及系统,解 ...
【技术保护点】
【技术特征摘要】
1.一种面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,包括如下步骤:S1、对施工图审查规范的内容进行规范预处理和使用Colabeler标注工具,形成带标签的文本数据,获取标注的数据集Data;并把Data划分为训练集train_data和验证集dev_data;S2、使用训练集train_data训练使用预训练模型BERT的基于GlobalPointer的实体关系联合抽取的模型,得到施工图审查规范实体关系联合抽取训练模型Model;S3、将验证集中的单句输入Model模型,经过打分函数得到每个单句实体关系属性;利用稀疏多标签交叉熵解码进行实体属性关系识别抽取,预测出关系三元组;得到施工图审查规范实体属性关系联合抽取模型Model;S4、采用知识存储映射算法将其三元组转换到Neo4j图数据库中,完成施工规范知识的存储工作,构建施工图审查规范知识图谱;S5、提取审查模型数据并与知识图谱匹配,对待审查的BIM施工图文件数据提取解析,完成匹配内容转化为三维可视的智能化审图结果。2.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S1具体包括:S1.1、建立需要抽取的知识体系:以规范中的术语部分作为抽取实体的基础;以表达实体对象、设计规范知识、设计规范条文和设计规范文件之间关系的元属性以及表达包含关系和空间关系的属性部分作为抽取属性的基础,以数值属性、措施采取和空间距离作为抽取属性值的基础;以方位、组合、修饰、约束、属性定义、属性设定、操作、包含、同级等作为抽取关系的基础;即有实体、属性和属性值要素需要抽取,并抽取要素之间的关联关系;S1.2、对标准施工图审查规范进行规范预处理,长句转单句,依据知识体系,采用Colabeler标注工具标注实体、关系、属性,并对输出带标签的文本数据转化实验数据Data;实验数据的结构体:{“text”:”原文句子”,”spo_list”:[{“subject”:”实体文本”,”predicate”:”关系类型”,”object”:”实体文本”,”subject_type”:”实体类型”,”object_type”:”实体类型”}]}。3.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S2具体包括:S2.1、建立基于GlobalPointer的实体关系联合抽取的模型,所述基于GlobalPointer的实体关系联合抽取的模型的输入为单句,输出为三元组;所述基于GlobalPointer的实体关系联合抽取的模型首先对输入的每条有效数据中的文本内容text进行分词编码,得到token_ids,segment_ids;token_ids列表:token_ids=[X1,X2,....,X
n
]将三元组列表spo_list中的每个三元组中的实体文本subject及实体文本object进行分词编码,得到去除第一列和最后一列的token_ids;将subject和object的token_ids与text的token_ids进行搜索寻找头实体第一个位置sh,头实体的最后一个位置st,尾实体第一个位置oh,尾实体的最后一个位置ot;根据(sh,st)、(oh,ot)、(sh,oh)、(st,ot)分别形成subject标签、object标签、关系头
标签、关系尾标签;将token_ids与segment_ids,作为BERT模型传入数据,得到向量序列(h1,h2,...h
n
)=BERT(x1,x2,...x
n
);BERT的输出为[batch_size,maxlength,hidden_size]其中作为GlobalPointer的输入;GlobalPointer第一步经过全连接层把BERT的输出向量转换为[batch_size,maxlength,head_size*2*heads],其中heads代表实体类型的数量;head_size代表指针对于每个heads所需的线性变换的输出维度;通过两个前馈层,依赖于跨度的开始和结束索引,来计算跨度表示:q
i,
ɑ
=W
q,
ɑ
h
i
+b
q,
ɑ
;k
i,
ɑ
=W
k,
ɑ
h
i
+b
k,
ɑ
,得到序列向量序列[q
1,
ɑ
,q
2,
ɑ
,....,q
n,
ɑ
]和[k
1,
ɑ
,k
2,
ɑ
,...,k
n,
ɑ
];其中对于类型
ɑ
的跨度S[i:j],开始和结束位置表示是q
i,
ɑ
和k
i,
ɑ
,i和j分别为头索引和尾索引;将相对位置信息显式注入模型,ROPE位置编码应用到实体表示中,满足对于类型
ɑ
的跨度S[i:j]打分函数为:将BERT的输出进入GlobalPointer,使heads=2,S(sh,st)、S(oh,ot)分别是subject、object的首尾打分,通过S(sh,st)>0和S(oh,ot)>0来识别出所有的subject和object,完成NER任务;将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(sh,oh)得出实体的头部关系;将BERT的输出进入GlobalPointer,使heads等于关系类别数,根据(st,ot)得出实体的尾部关系;S2.2、将训练集划分为多个批次,采用每个批次训练基于GlobalPointer的实体关系联合抽取的模型参数,得到训练模型Model;通过降低损失函数来优化,损失函数为:其中N为训练样本负类别的集合。4.根据权利要求1所述的面向施工图审查规范知识抽取与知识图谱构建方法,其特征在于,所述步骤S3具体包括:S3...
【专利技术属性】
技术研发人员:冯万利,刘小贝,弭云国,王云鹏,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。