面向地铁设计规范中知识图谱节点自动构建方法技术

技术编号:19479986 阅读:27 留言:0更新日期:2018-11-17 10:31
本发明专利技术提供了一种面向地铁设计规范中知识图谱节点自动构建方法,将《地铁设计规范》中的主谓宾句式规范作为输入文本,围绕谓词将每条规范中的主语宾语划分出来,并生成用于存储知识图谱的图形数据库Neo4j的节点创建语句,从而为构建建筑规范知识图谱服务。本发明专利技术利用哈希词典对谓词词典进行预处理,从而提升查找标记的效率;并在输入建筑规范后,可全自动生成知识图谱节点语句,在节约时间的同时,大大提高了创建知识图谱时的准确性。

【技术实现步骤摘要】
面向地铁设计规范中知识图谱节点自动构建方法
本专利技术属于计算机自然语言处理技术
,具体涉及面向地铁设计规范中知识图谱节点自动构建方法。
技术介绍
随着计算机科学技术的发展,知识图谱的构建在各行各业都非常具有现实意义和应用前景。知识图谱即为实体及实体间关系的描述,自2012年谷歌推出自己第一版知识图谱以来,全球掀起了一股热潮。目前使用知识图谱的行业领域包括搜索引擎,问答系统等等。但建筑行业的信息化建设还处于起步阶段,一个建筑行业的工程项目首先需要设计院进行规划、设计,接着对设计好的模型和图纸进行审查,然后提供给施工单位进行施工,最后投入使用。精确的图纸和模型会极大程度地减少施工阶段因设计变更导致的返工窝工现象,但现下针对建筑施工规范的知识图谱构建寥寥无几,因此传统建筑行业审图多为专家模式、人工操作,无论时间效率还是准确性都存在很大问题。
技术实现思路
本专利技术的目的是提供一种面向地铁设计规范中知识图谱节点自动构建方法,具有将地铁设计规范转化成知识图谱节点,便于地铁轨道交通工程设计自动合规性检查的特点。本专利技术所采用的技术方案是,面向地铁设计规范中主谓宾句式的知识图谱节点自动构建方法,其特征在于,先将建筑规范中的谓词存入哈希词典,再根据词典,对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作,最后生成Neo4j数据库节点及其关系创建语句,包括以下步骤:步骤1,利用词典文件构建谓词哈希词典索引;步骤2,取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1;步骤3,根据谓词词典,对S1进行谓词词性标记操作输出标记后文本S2步骤4,根据步骤1构建的哈希词典索引,利用逆向最大匹配算法对文本S2进行词性标记处理,并输出结果;步骤5,对标记后的S2进行主语宾语的划分;步骤6,生成Neo4j主语节点创建语句,生成Neo4j宾语节点创建语句;步骤7,生成Neo4j关系构建语句,并输出;步骤1中构建谓词哈希索引采用hash_map数据结构。步骤3中将输入文本S1存入一个数组中,S1[0]即为第一个字符;先根据ASCII码值对输入文本S1中的空格、回车、换行进行识别,初步对S1进行划分,并以空格、回车、换行作为划分结点将输入文本S1划分为多个部分;然后根据汉字GB2312编码利用高低区位码进行再次识别,并进行再次划分,并以中文符号作为划分结点。步骤4中逆向最大匹配算法具体步骤如下:步骤4.1,在经步骤3处理的文本S1中,将步骤3中第一次初步划分得到的文本,按照从前往后的顺序,从第一个划分点处获取一个句子;步骤4.2,若步骤4.1中获取的一个句子长度小于最大词长n,则将该句作为匹配字段w,执行步骤4.3;若大于或者等于最大词长n,则从该句的最右侧开始,取最大词长长度的字符串作为匹配字段w,执行步骤4.3;步骤4.3,查找步骤1中的词典文件,根据哈希索引判断步骤4.2中所得w的是否在词典中,若词典文件中含有该词,则匹配成功,对w进行标记处理并输出至S2,并将w从句子中去除,再将剩余句子重复步骤4.2;若不存在,则执行步骤4.4;步骤4.4,将匹配字段w的最左侧字剔除,用剩下的n-1个字组成的字段作为新的匹配字段w,反复执行步骤4.2,如剔除至单个字还未匹配成功,则将该字从句子中剔除,直至句子为空;步骤4.5对一个句子处理完成后,该句子即从S1中剔除,在剩余的S1文本中,按照从前往后的顺序,从第一个划分点处获取一个新句子;步骤4.6,重复执行步骤4.2~4.5,直至S1为空,最终输出S2。步骤5中主语宾语划分部分具体步骤如下:步骤5.1将步骤4中标记文本S2存入一个数组中,S2[0]即为第一个字符;根据ASCII码值对输入文本S2中的空格、回车、换行进行识别,将输入文本S2分为多个部分;然后根据汉字GB2312编码利用高低区位码进行再次识别,并进行再次划分,并以中文符号作为划分结点。步骤5.2将处理后的文本按照从前往后的顺序,从第一个划分点处获取一个句子;对该句子从左到右根据ASCII码值进行遍历,直到找到谓词标记符号“{”“}”,“{”符号前面的成分作为主语部分S3,“}”符号后面的成分作为宾语部分S4,处理完成后将该句子从S2中剔除,不断重复这一步骤,直至S2为空,输出S3和S4。步骤6中生成Neo4j主语节点创建语句,生成Neo4j宾语节点创建语句的具体步骤为:步骤6.1读取经步骤5处理后的文本S3,S4,将S3和S4分别存入一个下标很大的数组中,S3[0]和S4[0]均为第一个字符;根据ASCII码值对输入文本S3,S4中的回车、换行进行识别,将输入文本S3,S4分为多个部分;步骤6.2在经步骤6.1处理的文本S3和S4中,按照从前往后的顺序,从第一个划分点处获取一个词xx,并将其改写成“CREATE(xx{name:"xx"})”的形式,并将其输出至S5和S6。然后将该词从S3和S4中剔除,不断执行该步骤,直至S3和S4为空,输出S5和S6。步骤7中:生成Neo4j关系构建语句的具体步骤如下:步骤7.1:针对步骤5中的每个句子,将步骤5中每个句子的主语部分S3记为Z1,并将其改写成“CREATE(Z1)”的形式,并将Z1从句子中剔除。步骤7.2:将步骤5中每个句子“:”符号和“}”符号之间的部分,即谓词部分记为V1,提取该部分作为节点间的关系,将其改写成“-[:V1]”的形式,并将V1从句子中剔除。步骤7.3:将步骤5中的宾语部分S4记为B1,并将其改写成“->(B1)”的形式,并将B1从句子中剔除。步骤7.4:将上述步骤生成的成分进行拼接,作为关系节点生成语句输出至S7。步骤7.5:判断S2是否为空,若不为空,则反复执行步骤7.1到7.4的步骤;若S2为空,则输出知识图谱节点Neo4j关系构建语句S7。本专利技术的有益效果是:本专利技术围绕谓词进行主宾语的划分,针对不同的建筑规范具有一定的通用性,本专利技术可自动化生成Neo4j节点语句,是知识图谱建立的助力剂,本专利技术有效的规避了在人为审图过程中可能出现的不确定因素,误检率低,操作简单,节约人力,极大地提高了地铁建造工程项目的完成效率。附图说明图1为本专利技术面向地铁设计规范中主谓宾句式的知识图谱节点自动构建方法的总流程图;图2为本专利技术的谓词标记部分的流程图;图3为本专利技术的主语宾语划分部分的流程图;图4为本专利技术的生成Neo4j节点创建语句部分的流程图;图5为本专利技术的生成Neo4j关系创建语句部分的流程图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术面向地铁设计规范中知识图谱节点自动构建方法,先将建筑规范中的谓词存入哈希词典,再根据词典,对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作,最后生成Neo4j数据库节点及其关系创建语句,其流程图如图1所示,从输入一个规范中的语句,到输出关系结点语句,包括以下步骤:步骤1,利用词典文件构建谓词哈希词典索引;步骤2,取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1;步骤3,根据谓词词典,对S1进行谓词词性标记操作输出标记后文本S2步骤4,根据步骤1构建的哈希词典索引,利用逆向最大匹配算法对文本S2进行词性标记处理,并输出结果;步骤5本文档来自技高网...

【技术保护点】
1.面向地铁设计规范中知识图谱节点自动构建方法,其特征在于,先将建筑规范中的谓词存入哈希词典,再根据词典,对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作,最后生成Neo4j数据库节点及其关系创建语句,包括以下步骤:步骤1,利用词典文件构建谓词哈希词典索引;步骤2,取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1;步骤3,根据谓词词典,对S1进行谓词词性标记操作输出标记后文本S2;步骤4,根据步骤1构建的哈希词典索引,利用逆向最大匹配算法对文本S2进行词性标记处理,并输出结果;步骤5,对标记后的S2进行主语宾语的划分;步骤6,生成Neo4j主语节点创建语句,生成Neo4j宾语节点创建语句;步骤7,生成Neo4j关系构建语句,并输出。

【技术特征摘要】
1.面向地铁设计规范中知识图谱节点自动构建方法,其特征在于,先将建筑规范中的谓词存入哈希词典,再根据词典,对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作,最后生成Neo4j数据库节点及其关系创建语句,包括以下步骤:步骤1,利用词典文件构建谓词哈希词典索引;步骤2,取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1;步骤3,根据谓词词典,对S1进行谓词词性标记操作输出标记后文本S2;步骤4,根据步骤1构建的哈希词典索引,利用逆向最大匹配算法对文本S2进行词性标记处理,并输出结果;步骤5,对标记后的S2进行主语宾语的划分;步骤6,生成Neo4j主语节点创建语句,生成Neo4j宾语节点创建语句;步骤7,生成Neo4j关系构建语句,并输出。2.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法,其特征在于,步骤1中构建谓词哈希索引采用hash_map数据结构。3.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法,其特征在于,步骤3中将输入文本S1存入一个数组中,S1[0]即为第一个字符;先根据ASCII码值对输入文本S1中的空格、回车、换行进行识别,初步对S1进行划分,并以空格、回车、换行作为划分结点将输入文本S1划分为多个部分;然后根据汉字GB2312编码利用高低区位码进行再次识别,并进行再次划分,并以中文符号作为划分结点。4.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法,其特征在于,步骤4中逆向最大匹配算法具体步骤如下:步骤4.1,在经步骤3处理的文本S1中,将步骤3中第一次初步划分得到的文本,按照从前往后的顺序,从第一个划分点处获取一个句子;步骤4.2,若步骤4.1中获取的一个句子长度小于最大词长n,则将该句作为匹配字段w,执行步骤4.3;若大于或者等于最大词长n,则从该句的最右侧开始,取最大词长长度的字符串作为匹配字段w,执行步骤4.3;步骤4.3,查找步骤1中的词典文件,根据哈希索引判断步骤4.2中所得w的是否在词典中,若词典文件中含有该词,则匹配成功,对w进行标记处理并输出至S2,并将w从句子中去除,再将剩余句子重复步骤4.2;若不存在,则执行步骤4.4;步骤4.4,将匹配字段w的最左侧字剔除,用剩下的n-1个字组成的字段作为新的匹配字段w,反复执行步骤4.2,如剔除至单个字还未匹配成功,则将该字从句子中剔除,直至句子为空;步骤4.5对一个句子处理完成后,该句子即从S1中剔除,在剩余的S1文本中,按照从前往后的顺序,从第一个划分点处获取一个新句子;步...

【专利技术属性】
技术研发人员:朱磊陈毅黑新宏赵钦杨明松谢国赵金伟姬文江
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1