一种基于自然语言处理的BIM产品数据库语义检索方法技术

技术编号:18711557 阅读:26 留言:0更新日期:2018-08-21 22:47
本发明专利技术公开了一种基于自然语言处理的BIM产品数据库语义检索方法,包括:首先对自然语言形式的专业搜索进行语义结构分析和依赖分析得到目标关键词和约束关键词,并依据约束排序规则集获得约束关键词序列;接着利用BIM产品领域本体对关键词序列进行概念标准化,利用改进的语义相似度算法对关键词进行相似扩展,获得最终查询词;最后,利用BIM产品领域本体与BIM产品数据库的索引关系来实现查询词到具体产品的匹配,利用相似度算法对匹配结果排序并呈现。本发明专利技术能够对自然语句作专业级语义理解,提升了BIM产品查询的智能性,有效的避免了传统检索技术的低效和冗余。

A semantic retrieval method for BIM product database based on Natural Language Processing

The invention discloses a method for semantic retrieval of BIM product database based on natural language processing, which includes: firstly, the target keywords and constraint keywords are obtained by semantic structure analysis and dependency analysis of professional search in natural language form, and the constraint keyword sequence is obtained according to the constraint sorting rule set; secondly, the constraint keyword sequence is obtained by using BIM; Product domain ontology standardizes the concept of the keyword sequence, and uses the improved semantic similarity algorithm to extend the keyword similarity to obtain the final query words. Finally, using the index relationship between BIM product domain ontology and BIM product database to achieve the matching of the query words to specific products, using similarity algorithm to match. The results are sorted and presented. The invention can make professional semantic understanding of natural sentences, improve the intelligence of BIM product query, and effectively avoid the inefficiency and redundancy of traditional retrieval technology.

【技术实现步骤摘要】
一种基于自然语言处理的BIM产品数据库语义检索方法
本专利技术涉及自然语言处理领域与建设工程交叉领域,具体涉及一种基于自然语言处理的BIM产品数据库语义检索方法。
技术介绍
BIM产品数据库是由各类建材部品的三维模型及相关参数信息组成的一个模型库,是BIM技术助力建筑工业化,标准化生产的重要成果之一。而目前世界上已有多个这样的数据库,如AutodeskSeek、BIMobject、住房与城乡建设产品BIM大型数据库等,但这些数据库检索技术及组织结构存在共有的缺陷:(1)检索技术选用关键词为基础的搜索技术,这使得只有搜索词与数据库中数据名称完全一致才能检索出结果;(2)所用检索技术无法理解在语义上理解用户检索词的含义,BIM产品数据库无法为非专业用户所使用;(3)BIM产品数据库检索结果呈现顺序不与检索词呈正相关,并且呈现方式各样,不具统一性;(4)BIM产品数据库结构及分类多样,使得产品数据库的条件检索实施难度加大。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种基于自然语言处理的BIM产品数据库语义检索方法。基于自然语言处理的BIM产品数据库语义检索方法,本专利技术首先对自然语言形式的专业搜索进行句法结构分析和依赖分析得到目标关键词和约束关键词,并依据约束排序规则集获得约束关键词序列;其次利用BIM产品领域本体对关键词序列进行概念标准化;接着利用语义相似度算法对关键词进行相似扩展,获得最终查询词;最后,利用本体与BIM产品数据库的索引关系来实现查询词到具体产品的匹配,并利用相似度算法进行排序后呈现结果。本专利技术采用如下技术方案:一种基于自然语言处理的BIM产品数据库语义检索方法,包括如下步骤:S1对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列;S2首先将目标关键词及约束关键词序列标准化,然后在BIM产品领域本体找到标准化的目标关键词及约束关键词序列对应的概念;S3采用语义相似度算法对目标关键词及约束关键词的概念进行相似扩展,形成最终查询词;S4通过BIM产品领域本体与BIM产品数据库建立对应的索引关系,将最终查询词与具体产品匹配,利用相似度算法衡量其匹配程度,并按匹配程度从高到低对产品进行排序并呈现。所述S1对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列,具体步骤如下:S1.1利用分词工具对自然语句进行分词,并利用词性标注器对切分的单词进行词性标注;接着利用句法分析器对各词之间的关系进行句法结构分析并生成句法结构树,根据各词相互关系获取目标关键词和约束关键词;如果出现两个连续的名词,则进行S1.2,否则进入S1.3;S1.2利用依赖分析对两个连续名词之间的依赖关系,确定目标关键词及约束关键词;S1.3对于获取的多个约束关键词,则结合目标关键词的特点及约束排序规则集来确定约束关键词的优先级,从而获取约束关键词序列。所述S3采用语义相似度算法对目标关键词进行相似扩展,形成最终查询词,具体如下:通过BIM产品领域本体的概念结构对标准化后目标关键词与约束关键词进行概念扩展,然后计算目标关键词与约束关键词的概念对应的扩展概念的相似度值,根据预先设定的相似度阈值进行过滤得到相似度值高的扩展概念,最后得到目标关键词与约束关键词的概念及对应的扩展概念形成最终查询词计算语义相似度值是利用Leacock–Chodorow公式:其中:R(C,Ci)代表相似度值;len(C,Ci)代表目标关键词与约束关键词的标准概念,C与扩展概念Ci在BIM产品领域本体结构中最短距离,Depth是BIM产品领域本体最大的深度,系数2用来保证相似度的正值。所述S4具体为:通过BIM产品领域本体与BIM产品数据库建立对应的索引关系,将最后查询词与具体产品匹配,匹配的顺序先是目标关键词与约束关键词的概念,扩展关键词次之,匹配过程中,采用相似度算法用来衡量查询词与具体产品的相似程度,即计算约束关键词序列与具体产品属性的吻合程度,按照程度大小对搜索结果进行排序;接着对扩展关键词概念执行同样的过程,得到搜索结果排序,最后形成一个完整的排序结果并呈现出来。所述标准化包括复数及缩写。所述名词/名词短语中,同时有多个名词出现时,被其他名词修饰的名词即目标关键词。约束排序规则集的建立过程为:先将建筑产品构建分类,包括承重构件、维护构件及特点功能用品;收集各个分类构件的各种属性并根据对于该构件实现其功能的重要性对属性进行排序;将上述排序数据化,并转为计算机可识别的规则。约束排序集包括两层意义:(1)约束是指对目标关键词的修饰限制;(2)针对不同的目标关键词,自然语句中其存在的多个修饰约束对于目标关键词的重要性有着不同优先级。本专利技术的有益效果:本专利技术采用了自然语言处理技术来分析用户的自然语言查询语句的句法结构,并利用BIM产品领域的本体进行语义理解及扩展,使得用户的真实检索意图能够被获取。本专利技术利用BIM产品领域本体与数据库建立了相应的映射关系,使得检索效率更高。本专利技术还利用相似度算法来对检索结果进行排序,使得结果按照与检索词的相关性大小来倒序输出。本专利技术可以理解非专业用户的自然语言查询语句,使得BIM产品数据库的应用门槛大大降低,有助于BIM技术的推广与应用。附图说明图1为实施例中基于自然语言处理的BIM产品数据库语义检索方法流程图;图2为实施例中自然语言句法分析及依赖分析流程图;图3为实施例中BIM产品领域本体概念标准化及扩展流程图;图4为实施例中BIM产品结果呈现流程图。具体实施方式下面结合实施例及附图,对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例图1为实施例中基于自然语言处理的BIM产品数据库语义检索方法流程图,本实施例中,基于自然语言处理的BIM产品数据库语义检索方法流程图主要包括:自然语言处理,用于自然语言查询句子的句法结构分析和依赖分析;BIM产品领域本体,用于目标关键词与约束关键词的概念标准化及语义扩展,BIM产品数据库,用于按设计的形式存储BIM模型及相关参数。一种基于自然语言处理的BIM产品数据库语义检索方法,包括如下步骤:如图2所示,S1句法结构分析和依赖分析:对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列;S1.1利用分词工具对自然语句进行分词,并利用词性标注器对切分的单词进行词性标注;接着利用句法分析器对各词之间的关系进行句法结构分析并生成句法结构树,根据各词相互关系获取目标关键词和约束关键词;如果出现两个连续的名词,则进行S1.2,否则进入S1.3;S1.2利用依赖分析对两个连续名词之间的依赖关系,确定目标关键词及约束关键词;S1.3对于获取的多个约束关键词,则结合目标关键词的特点及约束排序规则集来确定约束关键词的优先级,从而获取约束关键词序列。对于获取的多个约束关键词,则结合目标关键词的特点及约束排序规则集来确定约束关键词的优先级,从而获取约束关键词序列。如句子“rectangularconcretegirderswithlengthof2m”的目标关键词是“girders”,而约束关键本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理的BIM产品数据库语义检索方法,其特征在于,包括如下步骤:S1对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列;S2首先将目标关键词及约束关键词序列标准化,然后在BIM产品领域本体找到标准化的目标关键词及约束关键词序列对应的概念;S3采用语义相似度算法对目标关键词及约束关键词的概念进行相似扩展,形成最终查询词;S4通过BIM产品领域本体与BIM产品数据库建立对应的索引关系,将最终查询词与具体产品匹配,利用相似度算法衡量其匹配程度,并按匹配程度从高到低对产品进行排序并呈现。

【技术特征摘要】
1.一种基于自然语言处理的BIM产品数据库语义检索方法,其特征在于,包括如下步骤:S1对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列;S2首先将目标关键词及约束关键词序列标准化,然后在BIM产品领域本体找到标准化的目标关键词及约束关键词序列对应的概念;S3采用语义相似度算法对目标关键词及约束关键词的概念进行相似扩展,形成最终查询词;S4通过BIM产品领域本体与BIM产品数据库建立对应的索引关系,将最终查询词与具体产品匹配,利用相似度算法衡量其匹配程度,并按匹配程度从高到低对产品进行排序并呈现。2.根据权利要求1所述的BIM产品数据库语义检索方法,其特征在于,所述S1对自然语言形式的专业搜索进行句法结构分析及依赖分析,得到目标关键词及约束关键词,并根据约束排序规则集获得约束关键词序列,具体步骤如下:S1.1利用分词工具对自然语句进行分词,并利用词性标注器对切分的单词进行词性标注;接着利用句法分析器对各词之间的关系进行句法结构分析并生成句法结构树,根据各词相互关系获取目标关键词和约束关键词;如果出现两个连续的名词,则进行S1.2,否则进入S1.3;S1.2利用依赖分析对两个连续名词之间的依赖关系,确定目标关键词及约束关键词;S1.3对于获取的多个约束关键词,则结合目标关键词的特点及约束排序规则集来确定约束关键词的优先级,从而获取约束关键词序列。3.根据权利要求1所述的BIM产品数据库语义检索方法,其特征在于,所述S3采用语义相似度算法对目标关键词进行相似扩展,形成最终查询词,具体如下:通过BIM产品领域本体的概念结构对标准化后目标关键词与约束关键词进行概念扩展,然后计算目标关键词与约束关键词的概念对应的扩展概念的相似度值,根据预先设定的相似度阈值进行过滤得到相似度值高的扩展概念,最后得到目标关...

【专利技术属性】
技术研发人员:吴松飞邓逸川吴观众
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1