一种建筑规范条文检索方法及装置制造方法及图纸

技术编号:38754383 阅读:10 留言:0更新日期:2023-09-10 09:39
本发明专利技术公开了一种建筑规范条文检索方法及装置,该方法包括:获取待查询文本信息;利用预设的条文检索模型和预设的聚类中心集合对待查询文本信息进行计算处理,得到查询残差向量;聚类中心集合包括若干个聚类中心;利用预设的条文量化编码信息集合对查询残差向量进行检索匹配处理,得到检索结果信息;检索结果信息用于指示定位识别建筑规范条文。可见,本发明专利技术能够利用条文检索模型和聚类中心集合对待查询文本信息进行计算处理,再利用条文量化编码信息集合进行检索匹配处理,以得到用于指示定位识别建筑规范条文的检索结果信息,有利于减少重复计算,加速检索过程,进而提高检索近义词及逐字逐句匹配度和检索效率。近义词及逐字逐句匹配度和检索效率。近义词及逐字逐句匹配度和检索效率。

【技术实现步骤摘要】
一种建筑规范条文检索方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种建筑规范条文检索方法及装置。

技术介绍

[0002]建筑规范条文检索是建筑图纸设计和审查过程中的重要手段。目前常用的建筑规范条文检索方法主要基于关键字匹配,即输入关键字,返回逐字匹配的检索结果。当输入的查询文本较长或查询文本为专业术语的近义表述而非准确表述时,该方法通常只能获得字词级的匹配结果,无法获得在语义上与查询文本近义的建筑规范条文。另一方面,每输入一条查询文本,该方案均需逐字遍历库中所有的建筑规范条文获得匹配结果,检索效率较低。因此,提供一种建筑规范条文检索方法及装置,以减少重复计算,加速检索过程,进而提高检索近义词及逐字逐句匹配度和检索效率显得尤为重要。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种建筑规范条文检索方法及装置,能够利用条文检索模型和聚类中心集合对待查询文本信息进行计算处理,再利用条文量化编码信息集合进行检索匹配处理,以得到用于指示定位识别建筑规范条文的检索结果信息,有利于减少重复计算,加速检索过程,进而提高检索近义词及逐字逐句匹配度和检索效率。
[0004]为了解决上述技术问题,本专利技术实施例第一方面公开了一种建筑规范条文检索方法,所述方法包括:
[0005]获取待查询文本信息;
[0006]利用预设的条文检索模型和预设的聚类中心集合对所述待查询文本信息进行计算处理,得到查询残差向量;所述聚类中心集合包括若干个聚类中心;
[0007]利用预设的条文量化编码信息集合对所述查询残差向量进行检索匹配处理,得到检索结果信息;所述检索结果信息用于指示定位识别建筑规范条文。
[0008]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述利用预设的条文检索模型和预设的聚类中心集合对所述待查询文本信息进行计算处理,得到查询残差向量,包括:
[0009]利用预设的条文检索模型对所述待查询文本信息进行处理,得到查询文本句向量;
[0010]对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量。
[0011]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量,包括:
[0012]对于任一所述聚类中心,计算所述查询文本句向量与该聚类中心的欧式距离,得到该聚类中心对应的聚类距离;
[0013]对所有的所述聚类距离从小到大进行排序,得到距离序列;
[0014]选取所述距离序列中排序第一的聚类距离为目标聚类距离;
[0015]确定所述目标聚类距离对应的聚类中心为目标聚类中心;
[0016]对所述查询文本句向量和所述目标聚类中心进行向量差计算,得到查询残差向量。
[0017]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述利用预设的条文量化编码信息集合对所述查询残差向量进行检索匹配处理,得到检索结果信息,包括:
[0018]对所述查询残差向量进行空间切分,得到查询段信息;所述查询段信息包括若干个查询段;任意两个所处查询段的长度是相一致的;
[0019]对所述查询段信息和预设的条文量化编码信息集合进行计算和筛选处理,得到检索结果信息。
[0020]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述条文量化编码信息集合包括子聚类中心信息集合和残差向量矩阵;
[0021]所述对所述查询段信息和预设的条文量化编码信息集合进行计算和筛选处理,得到检索结果信息,包括:
[0022]对所述查询段信息和子聚类中心信息集合进行欧式距离计算处理,得到距离矩阵信息;
[0023]对所述距离矩阵信息和残差向量矩阵进行查表求和处理,得到非对称距离信息;
[0024]对所述非对称距离信息进行排序筛选处理,得到检索结果信息。
[0025]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述聚类中心集合是基于以下步骤得到的:
[0026]获取条文库信息;所述条文库信息包括N条所述建筑规范条文;所述N为大于等于1的正整数;
[0027]对所述条文库信息进行向量转换处理,得到条文句向量信息;所述条文句向量信息包括所述N个条文句向量;所述条文句向量的维度为768;
[0028]对所述条文句向量信息进行聚类处理,得到所述聚类中心集合。
[0029]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述条文量化编码信息集合是基于以下步骤得到的:
[0030]对所述条文句向量信息和所述聚类中心集合进行向量差计算,得到残差向量矩阵;所述残差向量矩阵的维度为N*768;
[0031]对所述残差向量矩阵进行空间切分,得到子空间矩阵集合;所述子空间矩阵集合包括M个子空间矩阵;所述M为4的整数倍正数;
[0032]对所述子空间矩阵集合中的每个所述子空间矩阵进行聚类处理,得到子聚类中心信息集合;所述子聚类中心信息集合包括所述M个子聚类中心信息;所述子聚类中心信息包括L个子聚类中心;所述L为2的几何级倍数;
[0033]对所述子聚类中心信息集合和所述残差向量矩阵进行关联处理,得到条文量化编码信息集合。
[0034]本专利技术实施例第二方面公开了一种建筑规范条文检索装置,装置包括:
[0035]获取模块,用于获取待查询文本信息;
[0036]第一处理模块,用于利用预设的条文检索模型和预设的聚类中心集合对所述待查
询文本信息进行计算处理,得到查询残差向量;所述聚类中心集合包括若干个聚类中心;
[0037]第二处理模块,用于利用预设的条文量化编码信息集合对所述查询残差向量进行检索匹配处理,得到检索结果信息;所述检索结果信息用于指示定位识别建筑规范条文。
[0038]作为一种该可选的实施方式,在本专利技术实施例第二方面中,所述第一处理模块利用预设的条文检索模型和预设的聚类中心集合对所述待查询文本信息进行计算处理,得到查询残差向量的具体方式为:
[0039]利用预设的条文检索模型对所述待查询文本信息进行处理,得到查询文本句向量;
[0040]对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量。
[0041]作为一种该可选的实施方式,在本专利技术实施例第二方面中,所述第一处理模块对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量的具体方式为:
[0042]对于任一所述聚类中心,计算所述查询文本句向量与该聚类中心的欧式距离,得到该聚类中心对应的聚类距离;
[0043]对所有的所述聚类距离从小到大进行排序,得到距离序列;
[0044]选取所述距离序列中排序第一的聚类距离为目标聚类距离;
[0045]确定所述目标聚类距离对应的聚类中心为目标聚类中心;
[0046]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种建筑规范条文检索方法,其特征在于,所述方法包括:获取待查询文本信息;利用预设的条文检索模型和预设的聚类中心集合对所述待查询文本信息进行计算处理,得到查询残差向量;所述聚类中心集合包括若干个聚类中心;利用预设的条文量化编码信息集合对所述查询残差向量进行检索匹配处理,得到检索结果信息;所述检索结果信息用于指示定位识别建筑规范条文。2.根据权利要求1所述的建筑规范条文检索方法,其特征在于,所述利用预设的条文检索模型和预设的聚类中心集合对所述待查询文本信息进行计算处理,得到查询残差向量,包括:利用预设的条文检索模型对所述待查询文本信息进行处理,得到查询文本句向量;对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量。3.根据权利要求2所述的建筑规范条文检索方法,其特征在于,所述对所述查询文本句向量和所述预设的聚类中心集合进行欧式距离计算和筛选处理,得到查询残差向量,包括:对于任一所述聚类中心,计算所述查询文本句向量与该聚类中心的欧式距离,得到该聚类中心对应的聚类距离;对所有的所述聚类距离从小到大进行排序,得到距离序列;选取所述距离序列中排序第一的聚类距离为目标聚类距离;确定所述目标聚类距离对应的聚类中心为目标聚类中心;对所述查询文本句向量和所述目标聚类中心进行向量差计算,得到查询残差向量。4.根据权利要求1所述的建筑规范条文检索方法,其特征在于,所述利用预设的条文量化编码信息集合对所述查询残差向量进行检索匹配处理,得到检索结果信息,包括:对所述查询残差向量进行空间切分,得到查询段信息;所述查询段信息包括若干个查询段;任意两个所处查询段的长度是相一致的;对所述查询段信息和预设的条文量化编码信息集合进行计算和筛选处理,得到检索结果信息。5.根据权利要求4所述的建筑规范条文检索方法,其特征在于,所述条文量化编码信息集合包括子聚类中心信息集合和残差向量矩阵;所述对所述查询段信息和预设的条文量化编码信息集合进行计算和筛选处理,得到检索结果信息,包括:对所述查询段信息和子聚类中心信息集合进行欧式距离计算处理,得到距离矩阵信息;对所述距离矩阵信息和残差向量矩阵进行查表求和处理,得到非对称距离信息;对所述...

【专利技术属性】
技术研发人员:李旭斐赵茜吴晓宇佟博高玮叶凯亮陈俊儒曹峻海林冠邱雯霞吴政翰
申请(专利权)人:广东博智林软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1