一种基于自然语言和知识图谱工程信息智能搜索方法技术

技术编号:25756414 阅读:30 留言:0更新日期:2020-09-25 21:05
本发明专利技术公开了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、构建基于建筑领域的知识图谱;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;S5、施工人员使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从构建好的知识图谱中快速地查询对应的知识,从而提高现场的施工效率。

【技术实现步骤摘要】
一种基于自然语言和知识图谱工程信息智能搜索方法
本专利技术涉及建筑工程领域,特别是涉及一种基于自然语言和知识图谱工程信息智能搜索方法。
技术介绍
现有技术中当工程量进行统计之后,如何快速从大量的工程量数据中快速准确查询到指定的构件的工程量信息是影响工程效率的重要问题。建筑施工所涉及的人员与专业众多,算量信息查询的请求复杂多变。按照现有方式对工程量信息进行查询时,需要先到图纸或三维模型中找到对应的构件,然后到工程量信息表格中找到与之对应的工程量信息,这个过程较为繁琐且效率低下。
技术实现思路
本专利技术目的在于克服现有技术中的上述缺陷,提供了一种基于自然语言和知识图谱工程信息智能搜索方法,其让施工人员能够使用自然语言从构建好的知识图谱中快速地寻找到相应的工程信息,提高现场的施工效率。为实现上述目的,本专利技术提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。优选的,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;以上的知识和数据信息均存入图数据库。优选的,所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行标注,构建建筑领域的字典。优选的,所述步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型。优选的,所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。与现有技术相比,本专利技术的有益效果在于:采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的一种基于自然语言和知识图谱工程信息智能搜索方法中步骤S5和步骤S6的流程图;具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种基于自然语言和知识图谱工程信息智能搜索方法,包括如下步骤:S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;其中步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组,将关系型工程数据转化为实体关系组;因此转化成三元组及关系以上的知识和数据信息均存入图数据库,对于较复杂的问题集,更有利于检索和遍历问题中隐含的关系,从而查出正确答案;S2、收集用户对建筑领域的问题集;S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;所述步骤S3中构建建筑领域问题训练数据集具体为:对从步骤S2中获取的问题集语句中的专有名词、属性名词进行BIO序列标注,构建建筑领域的字典;S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;其中步骤S4的具体过程如下:从步骤S3中所述问题训练数据集中获取的数据作为训练数据集,合理设置optimizer和loss参数,使用BERT模型在相关训练模型上进行预训练,构建出用于建筑领域的命名实体识别的问题集模型;S5、如图1所示,使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;所述步骤S5的具体过程如下:使用自然语言输入一段建筑领域的问题文本,对输入的检索问题使用步骤S4中训练好的问题集模型进行命名实体识别,抽取出检索语句的主体,进行实体链接和关系抽取。S6、根据问题文本识别出实体和语义关系,匹配问题类型,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。综上所述,采用本方法,先构建基于建筑领域的知识图谱,再收集用户对建筑领域的问题集,并对问题集中的文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集,再将该问题训练数据集构建出问题集模型,使得施工人员能够通过输入自然语言的问题文本,能够被问题集模型进行命名实体识别及关系抽取,并生成相应的Cypher语句,最后从存储知识图谱的图数据库中快速地查询到对应的知识,从而提高现场的施工效率。上述实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,包括如下步骤:/nS1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;/nS2、收集用户对建筑领域的问题集;/nS3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;/nS4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;/nS5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;/nS6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。/n

【技术特征摘要】
1.一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,包括如下步骤:
S1、把非结构化的建筑领域知识和关系型工程数据转化成实体关系组,存入图数据库,构建基于建筑领域的知识图谱;
S2、收集用户对建筑领域的问题集;
S3、针对步骤S2中的问题集对文本数据进行预处理,进行序列标注,构建建筑领域问题训练数据集;
S4、获取步骤S3中所述问题训练数据集中的数据,并构建出问题集模型;
S5、使用自然语言输入一段建筑领域的问题文本,使用步骤S4中的问题集模型对问题文本进行命名实体识别及关系抽取;
S6、根据问题文本识别出实体和语义关系,生成相应的Cypher语句,从步骤S1中构建好的知识图谱中查询对应的知识。


2.根据权利要求1所述的一种基于自然语言和知识图谱工程信息智能搜索方法,其特征在于,所述步骤S1中构建基于建筑领域的知识图谱具体为:人工整理建筑领域的基本知识、施工流程及累计经验并将其转化成实体关系组,爬虫获取建筑领域的半结构化信息和相关文档并将其转化成实体关系组...

【专利技术属性】
技术研发人员:龙振佳陈龙
申请(专利权)人:广州华建工智慧科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1