本发明专利技术涉及一种BIM和GIS的语义匹配方法及装置,通过设置开始符和结束符将所述第一文本数据和第二文本数据中每一个字符串隔开,将所述字符串进行分割得到若干字符,对字符串的若干字符利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的第一词向量和第二词向量,通过对第一词向量和第二词向量进行相似度计算,根据相似度最高的两个词向量对应的文本数据,得到准确的语义匹配结果。相对于现有技术,本发明专利技术实现IFC与CityGML定义的实体智能匹配,具有更高的匹配精度和效率。
A semantic matching method and device of Bim and GIS
【技术实现步骤摘要】
一种BIM和GIS的语义匹配方法及装置
本专利技术涉及建筑信息处理领域,尤其是涉及一种BIM和GIS的语义匹配方法及装置。
技术介绍
由于建筑信息模型(BuildingInformationModel,BIM)能以一种互操作方式和数据重用方式来产生、存储、管理、共享和交换建筑信息数据,所以被广泛地应用在建筑物、工程建设领域。BIM构建的小尺度或室内空间三维模型主要应用于建筑物等工程的全生命周期管理,因而具备了丰富的几何、属性及语义信息。而三维地理信息系统(3DGeographyInformationSystem,3DGIS)提供了数据制作、管理、分析等功能,主要针对的是大尺度的三维场景建模,其主要面向的是室外大规模三维场景的渲染、空间分析等用途。BIM与GIS的融合一方面可以构建室内外一体化的三维场景,另一方面可以大大减少GIS建模过程中的数据采集、模型制作及语义标注等工作,可以极大地丰富3DGIS的数据来源。因此,BIM与GIS的数据融合受到了越来越多的关注。工业基础类(IndustryFoundationClasses,IFC)是BIM领域最具代表性的数据共享与交换标准之一,其采用文件系统进行数据存储与交换。IFC包含了空间对象的属性、功能等丰富的语义信息,并采用对象化建模方式来表示三维空间对象。而CityGML是3DGIS领域主要的开放式数据存储与交换标准,CityGML涵盖了三维数据模型的几何、语义、拓扑关系等内容,并采用地理标记语言(GeographyMarkupLanguage,GML)进行描述。由于IFC与CityGML之间具有诸多的相似性,所以二者间的数据融合备受业界关注。由于IFC和CityGML分别使用了不同的对象几何表达方式和语义,传统的IFC与CityGML数据融合方法一般采用人工方法进行语义匹配。但是,IFC与CityGML定义的实体数量较多,人工语义匹配方法耗时耗力,效率较低。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种自动匹配的BIM和GIS的语义匹配方法及装置,具有更高的匹配精度和效率。所述技术方案如下:第一方面,本申请实施例提供了一种BIM和GIS的语义匹配方法,包括以下步骤:获取IFC和CityGML文件,提取所述IFC和CityGML文件中的实体名称和实体定义作为第一文本数据和第二文本数据;将所述第一文本数据和第二文本数据中每一个字符串进行分割,获得若干字符;其中,每个字符串分别对应一个实体;基于所述字符,利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的词向量,得到第一词向量和第二词向量;根据所述第一词向量与第二词向量,获取所述第一文本数据和第二文本数据中每两个实体之间的相似度;根据相似度最高的两个词向量对应的文本数据,得到语义匹配结果。可选的,所述提取对应的实体名称和实体定义作为第一文本数据和第二文本数据的步骤还包括:在所述第一文本数据和第二文本数据中每一个字符串的前后设置开始符和结束符,将每一个字符串分隔开。可选的,所述获取所述第一文本数据和第二文本数据中每两个实体之间的相似度步骤具体包括:按照以下公式,计算第一文本数据和第二文本数据中每两个实体之间的相似度:其中,Sim(i,j)表示实体i和j之间的语义相似度,vi和vj分别表示实体i和j的词向量,|vi|和|vj|分别为词向量vi和vj的模。第二方面,本申请实施例提供了一种BIM和GIS的语义匹配装置,包括:文本提取模块,用于获取IFC和CityGML文件,提取所述IFC和CityGML文件中的实体名称和实体定义作为第一文本数据和第二文本数据;分割模块,用于将所述第一文本数据和第二文本数据中每一个字符串进行分割,获得若干字符;其中,每个字符串分别对应一个实体;词向量构建模块,用于基于所述字符,利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的词向量,得到第一词向量和第二词向量;相似度计算模块,用于根据所述第一词向量与第二词向量,获取所述第一文本数据和第二文本数据中每两个实体之间的相似度;语义匹配模块,用于根据相似度最高的两个词向量对应的文本数据,得到语义匹配结果;可选的,所述文本提取模块还包括:分隔单元,用于在所述第一文本数据和第二文本数据中每一个字符串的前后设置开始符和结束符,将每一个字符串分隔开。可选的,所述相似度计算模块包括:按照以下公式,计算第一文本数据和第二文本数据中每两个实体之间的相似度:其中,Sim(i,j)表示实体i和j之间的语义相似度,vi和vj分别表示实体i和j的词向量,|vi|和|vj|分别为词向量vi和vj的模。第三方面,本申请实施例提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的BIM和GIS的语义匹配方法的步骤。第四方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的BIM和GIS的语义匹配方法的步骤。在本申请实施例中,通过设置开始符和结束符将所述第一文本数据和第二文本数据中每一个字符串隔开,将所述字符串进行分割得到若干字符,对字符串的若干字符利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的第一词向量和第二词向量,无需对所述文本数据进行停用词去除、词干提取等人工操作,避免因为不同的操作人员可能采用不同的停用词表或词干提取算法而造成语义匹配结果出现较大差异,进一步提高语义匹配效率,减少人工操作的影响。本申请实施例中通过对第一词向量和第二词向量进行相似度计算,根据相似度最高的两个词向量对应的文本数据,得到准确的语义匹配结果,实现IFC与CityGML定义的实体智能匹配,具有更高的匹配精度和效率。为了更好地理解和实施,下面结合附图详细说明本专利技术。附图说明图1为本专利技术一个示例性的实施例中一种BIM和GIS的语义匹配方法的流程图;图2为本专利技术一个示例性的实施例中一种BIM和GIS的语义匹配装置的结构示意图;图3为本专利技术一个示例性的实施例中构建词向量的过程示意图;图4为本专利技术一个示例性的实施例与现有的语义匹配方法进行语义匹配得到的匹配精度曲线图;图5为本专利技术一个示例性的实施例与现有的BIM和GIS的语义匹配方法进行语义匹配得到的召回率曲线图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。在本申请实本文档来自技高网...
【技术保护点】
1.一种BIM和GIS的语义匹配方法,其特征在于,包括以下步骤:/n获取IFC和CityGML文件,提取所述IFC和CityGML文件中的实体名称和实体定义作为第一文本数据和第二文本数据;/n将所述第一文本数据和第二文本数据中每一个字符串进行分割,获得若干字符;其中,每个字符串分别对应一个实体;/n基于所述字符,利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的词向量,得到第一词向量和第二词向量;/n根据所述第一词向量与第二词向量,获取所述第一文本数据和第二文本数据中每两个实体之间的相似度;/n根据相似度最高的两个词向量对应的文本数据,得到语义匹配结果。/n
【技术特征摘要】
1.一种BIM和GIS的语义匹配方法,其特征在于,包括以下步骤:
获取IFC和CityGML文件,提取所述IFC和CityGML文件中的实体名称和实体定义作为第一文本数据和第二文本数据;
将所述第一文本数据和第二文本数据中每一个字符串进行分割,获得若干字符;其中,每个字符串分别对应一个实体;
基于所述字符,利用哈希算法构建所述第一文本数据和所述第二文本数据中各字符串对应的词向量,得到第一词向量和第二词向量;
根据所述第一词向量与第二词向量,获取所述第一文本数据和第二文本数据中每两个实体之间的相似度;
根据相似度最高的两个词向量对应的文本数据,得到语义匹配结果。
2.根据权利要求1所述的BIM和GIS的语义匹配方法,其特征在于,所述提取对应的实体名称和实体定义作为第一文本数据和第二文本数据的步骤还包括:
在所述第一文本数据和第二文本数据中每一个字符串的前后设置开始符和结束符,将每一个字符串分隔开。
3.根据权利要求1所述的BIM和GIS的语义匹配方法,其特征在于,所述获取所述第一文本数据和第二文本数据中每两个实体之间的相似度步骤具体包括:
按照以下公式,计算第一文本数据和第二文本数据中每两个实体之间的相似度:
其中,Sim(i,j)表示实体i和j之间的语义相似度,vi和vj分别表示实体i和j的词向量,|vi|和|vj|分别为词向量vi和vj的模。
4.一种BIM和GIS的语义匹配装置,其特征在于,包括:
文本提取模块,用于获取IFC和CityGML文件,提取所述IFC和CityGML文件中的实体名称和实体定义作为第一文本数据和...
【专利技术属性】
技术研发人员:丁小辉,李勇,杨骥,黄吴蒙,李华朋,
申请(专利权)人:广州地理研究所,南方海洋科学与工程广东省实验室广州,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。