一种用于燃气管网数据治理的气量值映射方法与系统技术方案

技术编号:38007866 阅读:8 留言:0更新日期:2023-06-30 10:25
本发明专利技术公开了一种用于燃气管网数据治理的气量值映射方法与系统,包括:数据导取模块:手动或自动导取气量值数据;自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;本发明专利技术通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性填充模块和数据保存模块配合,涵盖了GIS点和气量值无法通过公共ID精准的未知情况,相较于人工匹配,考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,GIS点数据和气量值相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短GIS点与气量值的映射时间并提高了实施的可行性。高了实施的可行性。高了实施的可行性。

【技术实现步骤摘要】
一种用于燃气管网数据治理的气量值映射方法与系统


[0001]本专利技术属于城市燃气管网数据治理
,具体涉及一种用于燃气管网数据治理的气量值映射方法与系统。

技术介绍

[0002]GIS,即地理信息系统,是能源行业必备的信息处理系统。以城市燃气行业为例,庞大复杂的城市天然气管网系统,连接着数以万计的用户和调压设施,一般以点表和线表构成管网拓扑数据,数据源自于多种来源,包括但不限于:分析仪(色谱等)、流量计(涡轮、超声波、毫米波等)、加溴计、传感器、设备(保压、压力远传、燃气物联)等。
[0003]拓扑数据以点表和线表构成。前者代表拓扑中各种类型的节点,点表中包含节点的ID、位置名称、类型、坐标等属性信息;后者代表连接节点的管道,线表中包含管道的ID、管长、管径、壁厚、坐标等属性信息。
[0004]气量值数据表在燃气中指的是包含流量值和压力值、ID、地址、公司名称、街道、小区、合同号等属性信息的数据表。
[0005]在管网拓扑中,节点类型一般有气源、用户、调压站、阀门、堵头、阀门井、阀井、球阀等,一般是边界点才有对应的流量值和压力值。边界点指的是连接一根管道的节点(一般情况下是终端用户、气源),终端用户对应的气量值数据一般是流量值,气源对应的气量值数据是压力值和流量值。
[0006]如果要利用管网的拓扑数据(即GIS数据)进行仿真计算要用到GIS拓扑中边界点的气量值数据,所以要将GIS点数据和气量值数据匹配起来,保证每个边界点有准确的气量值数据,可以大幅提高仿真计算精度。
[0007]现实情况是,燃气公司提供的气量值的数据表的ID和拓扑点表数据(ID不同,导致无法直接匹配各节点的压力值和流量值,而人工匹配不但效率低,而且错误率高。因此,构建一种基于文本相似度和高精地图坐标拾取的点表和气量值数据表映射系统,快速的将GIS点和气量值数据匹配成功,以提高对城市燃气管网拓扑进行赋值及仿真计算的效率。
[0008]但是,由述两种对数据表映射方式存在以下缺点:
[0009]1.人工检查缺时:当数据量很大时,人工手动映射犯错率和漏查率较高;
[0010]2.使用GIS点数据和气量值数据公共ID去做表的内连接匹配:
[0011]使用场景受到较大限制:仅限二者都有公共ID字段并全部能匹配上的情况,无法解决最普遍出现的ID缺失和ID无法匹配的问题。
[0012]因此,本申请提出一种基于文本相似度技术和高精地图坐标相结合的城市燃气管网气量值映射方法与系统来解决上述问题。

技术实现思路

[0013]本专利技术的目的在于提供用于燃气管网数据治理的气量值映射方法与系统,通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性
填充模块和数据保存模块配合,使其考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,点表数据和气量值表相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短点表与气量值表的映射时间并提高了实施的可行性,以解决上述
技术介绍
中提出的问题。
[0014]为实现上述目的,本专利技术采用了如下技术方案:
[0015]一种用于燃气管网数据治理的气量值映射方法,包括如下步骤:
[0016]第一步、通过数据导取模块手动或自动导取气量值数据;
[0017]第二步、通过自然语言处理模块对导取的用气量点数据文本字段数据进行自然语言处理NLP;
[0018]第三步、通过相似度计算模块计算用气量点数据文本数据的相似度;
[0019]第四步、通过数据筛选模块将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
[0020]第五步、通过高精地图搜索模块将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
[0021]第六步、通过属性填充模块为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
[0022]第七步、通过数据保存模块将属性填充模块最终匹配到的数据入库保存。
[0023]优选的,所述数据导取模块在数据上传时,由于燃气公司导出的气量值数据,文件字段名和预先实现的GIS点和气量值数据映射系统中字段不一致,无法进行后面的各个模块,所以要将气量值数据导入系统中,并导入字段配置信息,最终系统会将起气量值数据格式化成可用的数据。
[0024]优选的,所述自然语言处理模块在对气量值数据中的文本字段数据处理时,包括如下步骤:
[0025]S1、将气量值表中的所有文本字段拼接为一个新的文本字段,即new_text;
[0026]S2、使用分词语法对new_text进行分词处理得到语料,即Intermediate_text;
[0027]S3、将TF

IDF算法和Word2vec模型融合后对Intermediate_text处理,得到气量值表空间向量GV;
[0028]S4、对点表中的所有文本字段同样做拼接、分词和融合算法的处理,得到点表空间向量NV。
[0029]优选的,所述相似度计算模块是使用GV和NV之间相似度得到相似度值,相似度值的取值是GV和NV夹角的余弦值作为衡量两个个体之间差异的大小,即把1设为相同,0设为不同,相似度的值就是在0

1之间,相似度值越接近于1说明GIS点数据和气量点数据匹配程度越高。
[0030]优选的,所述数据筛选模块在筛选时由于相似度值的取值范围为0

1,越趋近于0说明两条文本越不相似,为了保证通过文本相似度匹配的精度更高,将阈值大于等于X的数据作为匹配成功的数据,将阈值小于X的数据作为不是匹配成功的数据作为下一模块的输入进行再次处理。
[0031]优选的,所述高精地图搜索模块是将气量值数据通过高精地图坐标拾取系统搜索
得到的用户作为新的GIS点;由于数据筛选模块处理后剩余相似度值小于X的数据,通过高精地图地址检索的方法来新增气量点数据使其完全匹配,高精地图能够精准的通过模糊的GIS点名称精准的搜索到精准地址。
[0032]优选的,所述属性填充模块在填充时由于高精地图搜索到的数据只有地址和经纬度没有压力和流量属性,故通过人工和燃气公司合作为高精地图搜索到的数据填充属性,使其保证和原始气量数据一致性。
[0033]基于以上叙述的一种用于燃气管网数据治理的气量值映射方法,本专利技术还提供一种用于燃气管网数据治理的气量值映射系统,包括:
[0034]数据导取模块:手动或自动导取气量值数据;
[0035]自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;
[0036]相似度计算模块:用于计算用气量点数据文本数据的相似度;
[0037]数据筛选模块:将相似度计算模块计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于燃气管网数据治理的气量值映射方法,其特征在于:包括如下步骤:第一步、通过数据导取模块手动或自动导取气量值数据;第二步、通过自然语言处理模块对导取的用气量点数据文本字段数据进行自然语言处理NLP;第三步、通过相似度计算模块计算用气量点数据文本数据的相似度;第四步、通过数据筛选模块将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;第五步、通过高精地图搜索模块将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;第六步、通过属性填充模块为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;第七步、通过数据保存模块将属性填充模块最终匹配到的数据入库保存。2.根据权利要求1所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述数据导取模块在数据上传时,由于燃气公司导出的气量值数据,文件字段名和预先实现的GIS点和气量值数据映射系统中字段不一致,无法进行后面的各个模块,所以要将气量值数据导入系统中,并导入字段配置信息,最终系统会将起气量值数据格式化成可用的数据。3.根据权利要求2所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述自然语言处理模块在对气量值数据中的文本字段数据处理时,包括如下步骤:S1、将气量值表中的所有文本字段拼接为一个新的文本字段,即new_text;S2、使用分词语法对new_text进行分词处理得到语料,即Intermediate_text;S3、将TF

IDF算法和Word2vec模型融合后对Intermediate_text处理,得到气量值表空间向量GV;S4、对点表中的所有文本字段同样做拼接、分词和融合算法的处理,得到点表空间向量NV。4.根据权利要求3所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述相似度计算模块是使用GV和NV之间相似度得到相似度值,相似度值的取值是GV和NV夹角的余弦值作为衡量两个个体之间差异的大小,即把1设为相同,0设为不同,相似度的值就是在0

1之间,相似度值越接近于1说明GIS点数据和气量点数据匹配程度越...

【专利技术属性】
技术研发人员:孟辉栾星王子峥栾东晓周翔
申请(专利权)人:上海叁零肆零科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1