面向地铁设计规范中知识图谱节点自动构建方法技术

技术编号：19479986 阅读：41 留言：0更新日期：2018-11-17 10:31

本发明专利技术提供了一种面向地铁设计规范中知识图谱节点自动构建方法，将《地铁设计规范》中的主谓宾句式规范作为输入文本，围绕谓词将每条规范中的主语宾语划分出来，并生成用于存储知识图谱的图形数据库Neo4j的节点创建语句，从而为构建建筑规范知识图谱服务。本发明专利技术利用哈希词典对谓词词典进行预处理，从而提升查找标记的效率；并在输入建筑规范后，可全自动生成知识图谱节点语句，在节约时间的同时，大大提高了创建知识图谱时的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
面向地铁设计规范中知识图谱节点自动构建方法
本专利技术属于计算机自然语言处理技术
，具体涉及面向地铁设计规范中知识图谱节点自动构建方法。
技术介绍
随着计算机科学技术的发展，知识图谱的构建在各行各业都非常具有现实意义和应用前景。知识图谱即为实体及实体间关系的描述，自2012年谷歌推出自己第一版知识图谱以来，全球掀起了一股热潮。目前使用知识图谱的行业领域包括搜索引擎，问答系统等等。但建筑行业的信息化建设还处于起步阶段，一个建筑行业的工程项目首先需要设计院进行规划、设计，接着对设计好的模型和图纸进行审查，然后提供给施工单位进行施工，最后投入使用。精确的图纸和模型会极大程度地减少施工阶段因设计变更导致的返工窝工现象，但现下针对建筑施工规范的知识图谱构建寥寥无几，因此传统建筑行业审图多为专家模式、人工操作，无论时间效率还是准确性都存在很大问题。
技术实现思路
本专利技术的目的是提供一种面向地铁设计规范中知识图谱节点自动构建方法，具有将地铁设计规范转化成知识图谱节点，便于地铁轨道交通工程设计自动合规性检查的特点。本专利技术所采用的技术方案是，面向地铁设计规范中主谓宾句式的...

【技术保护点】
1.面向地铁设计规范中知识图谱节点自动构建方法，其特征在于，先将建筑规范中的谓词存入哈希词典，再根据词典，对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作，最后生成Neo4j数据库节点及其关系创建语句，包括以下步骤：步骤1，利用词典文件构建谓词哈希词典索引；步骤2，取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1；步骤3，根据谓词词典，对S1进行谓词词性标记操作输出标记后文本S2；步骤4，根据步骤1构建的哈希词典索引，利用逆向最大匹配算法对文本S2进行词性标记处理，并输出结果；步骤5，对标记后的S2进行主语宾语的划分；步骤6，生成Neo4j主语节点创建语句...

【技术特征摘要】
1.面向地铁设计规范中知识图谱节点自动构建方法，其特征在于，先将建筑规范中的谓词存入哈希词典，再根据词典，对待处理句型结构为主谓宾形式的地铁设计规范进行谓词标记并抽取主语宾语的操作，最后生成Neo4j数据库节点及其关系创建语句，包括以下步骤：步骤1，利用词典文件构建谓词哈希词典索引；步骤2，取《地铁设计规范》文本中主谓宾句式规范作为待处理输入文本S1；步骤3，根据谓词词典，对S1进行谓词词性标记操作输出标记后文本S2；步骤4，根据步骤1构建的哈希词典索引，利用逆向最大匹配算法对文本S2进行词性标记处理，并输出结果；步骤5，对标记后的S2进行主语宾语的划分；步骤6，生成Neo4j主语节点创建语句，生成Neo4j宾语节点创建语句；步骤7，生成Neo4j关系构建语句，并输出。2.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法，其特征在于，步骤1中构建谓词哈希索引采用hash_map数据结构。3.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法，其特征在于，步骤3中将输入文本S1存入一个数组中，S1[0]即为第一个字符；先根据ASCII码值对输入文本S1中的空格、回车、换行进行识别，初步对S1进行划分，并以空格、回车、换行作为划分结点将输入文本S1划分为多个部分；然后根据汉字GB2312编码利用高低区位码进行再次识别，并进行再次划分，并以中文符号作为划分结点。4.根据权利要求1所述的面向地铁设计规范中知识图谱节点自动构建方法，其特征在于，步骤4中逆向最大匹配算法具体步骤如下：步骤4.1，在经步骤3处理的文本S1中，将步骤3中第一次初步划分得到的文本，按照从前往后的顺序，从第一个划分点处获取一个句子；步骤4.2，若步骤4.1中获取的一个句子长度小于最大词长n，则将该句作为匹配字段w，执行步骤4.3；若大于或者等于最大词长n，则从该句的最右侧开始，取最大词长长度的字符串作为匹配字段w，执行步骤4.3；步骤4.3，查找步骤1中的词典文件，根据哈希索引判断步骤4.2中所得w的是否在词典中，若词典文件中含有该词，则匹配成功，对w进行标记处理并输出至S2，并将w从句子中去除，再将剩余句子重复步骤4.2；若不存在，则执行步骤4.4；步骤4.4，将匹配字段w的最左侧字剔除，用剩下的n-1个字组成的字段作为新的匹配字段w，反复执行步骤4.2，如剔除至单个字还未匹配成功，则将该字从句子中剔除，直至句子为空；步骤4.5对一个句子处理完成后，该句子即从S1中剔除，在剩余的S1文本中，按照从前往后的顺序，从第一个划分点处获取一个新句子；步...

【专利技术属性】
技术研发人员：朱磊，陈毅，黑新宏，赵钦，杨明松，谢国，赵金伟，姬文江，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人