一种基于地址匹配技术的电网数据关联方法技术

技术编号:18711797 阅读:51 留言:0更新日期:2018-08-21 22:49
本发明专利技术涉及一种基于地址匹配技术的电网数据关联方法。目的是使没有客户编号的报修及投诉工单通过地址模糊匹配技术与客户基础档案信息进行关联。电网数据关联方法,包括如下步骤:预处理;接收客户的保修地址信息,并保存为文本信息;删除结构化地址信息、特殊字符、阿拉伯数字;中文地址字符串进行编辑距离计算;将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。本发明专利技术相对于现有技术的进步在于:本方法提出利用非结构化数据关联实现结构化数据关联的方式,实现了跨专业数据融合分析;基于最小编辑距离算法计算地址匹配度,避免采用中文分词降低误判概率。

A power grid data association method based on address matching technology

The invention relates to a power grid data association method based on address matching technology. The purpose is to associate repair and complaint orders without customer numbers with customer basic file information through address fuzzy matching technology. Power grid data association method includes the following steps: preprocessing; receiving customer warranty address information and saving it as text information; deleting structured address information, special characters, Arabic numerals; computing the editing distance of Chinese address string; computing the user's Chinese address string corresponding to the smallest result. Fix the address for the user. Compared with the prior art, the method proposed in this paper realizes cross-disciplinary data fusion analysis by using unstructured data association to realize structured data association, calculates address matching degree based on minimum editing distance algorithm, avoids using Chinese word segmentation to reduce the probability of misjudgment.

【技术实现步骤摘要】
一种基于地址匹配技术的电网数据关联方法
:本专利技术涉及专门适用于电力公共服务部门的方法,具体涉及一种基于地址匹配技术的电网数据关联方法。
技术介绍
:经过5年的集中运营,国网客服中心目前已经积累了156TB的客户诉求数据和录音信息,但是受各地方言难以精确识别、90%以上的客户无法提供用电编号等问题影响,加之公司营配调数据未完全实现贯通,无法通过“站-线-变-户”关联数据结构精准建立客户报修位置与电网设备之间的关系,从客户视角分析电网设备供电质量问题。客户报修数据中包含客户用电地址信息,在无法通过客户编号实现关联的背景下,需要通过客户报修地址模糊关联客户基础档案信息中的地址,进而能够通过“户-变”关系,准确定位客户报修的电网设备。但是地址数据为非结构化数据,同一地址不同的表述方式可能导致数据间无法进行关联,加之95598客服专员主要通过接听客户电话记录客户报修地址,方言和同音字也可能导致记录信息存在偏差,给准确匹配地址信息带来较大难度。目前分析停电”站-线-变-户”的关联关系主要通过两种手段,一是基于停电信息到户的关联分析。该方法通过调度部门发布的停电信息,结合电网拓扑结构和客户用电基础档案信息,自顶向下进行关联,依托停电信息数据、停电设备数据及停电客户清单三类数据间的关联关系实现关联分析。二是通过客户编号进行关联分析。建立客户通过95598热线报修的数据与电网拓扑结构的数据关联,利用“客户-计量表-设备表-线路表-变电站表表”的关联关系使工单与电网设备关联。该方法需要客户提供客户编号,但实际中超过90%的客户无法提供用电编号,因此该方法无法获取足够的样本量数据。综上所述,现有基于停电信息到户的关联分析和通过客户编号进行关联分析是目前开展停电”站-线-变-户”关联分析的主流手段,但两种方法均存在一定的问题。基于停电信息到户的关联分析的主要缺点为受电网遥测数据质量影响,30分钟内发布的电网故障停电信息范围可能不完全准确,存在漏报和错报的情况,加之“客户-变压器”对应关系普遍存在误差,供电企业发布的停电到户清单与真实停电客户存在一定差异,对分析准确性带来影响。通过客户编号进行关联分析的主要缺点为客户通过95598热线报修故障时,很难在第一时间内提供客户编号,通过实际统计发现超过90%的报修客户无法提供用电编号。另外,受方言和热线通话质量等因素影响,95598客服专员可能存在户号记录存在错误的问题,因此该方法在数据覆盖程度和准确性方面均存在一定影响。
技术实现思路
:本方法主要基于计算地址文本相似度的方法辅助挖掘95598工单客户地址和客户用电地址数据中存在的匹配关联关系,建立分析关联关系桥梁,使没有客户编号的报修及投诉工单通过地址模糊匹配技术与客户基础档案信息进行关联,进而能够关联分析到电网设备,实现通过客户拨打95598直接关联分析电网设备,支撑国家电网公司生产运行和电网建设工作。目前,95598客户报修记录的现场地址信息分为两个部分,一部分为结构化数据,包含省、市及县级供电单位信息;另一部分为非结构化数据,涵盖村、镇、街道、路、小区及门牌号组合的字符串信息,例如:在“湖北省荆州市江陵县郝穴镇江城社区江陵大道木材站宿舍”这一地址信息中,“湖北省荆州市江陵县”就属于结构化地址信息,“郝穴镇江城社区江陵大道木材站宿舍”就属于非结构化地址信息。字符串的编辑距离,又称为Levenshtein距离,是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:(1)删除一个字符,(2)插入一个字符,(3)修改一个字符;一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0(不需要任何操作)。不难分析出,两个字符串的编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。技术方案之一如下:一种基于地址匹配技术的电网数据关联方法,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;然后转步骤4;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。技术方案之二如下:一种基于地址匹配技术的电网数据关联方法,包括如下步骤:预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息,将用户中文地址字符串转化为拼音信息,保存为“用户拼音地址字符串”;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;步骤3:将步骤2中处理后的地址信息转化为拼音信息,称为“报修拼音地址字符串”;保存中文地址字符串和拼音地址字符串两组数据;步骤4:将接收到的报修拼音地址字符串与数据库中的用户拼音地址字符串信息逐个进行编辑距离计算,计算结果称为“第二距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。技术方案之三如下:一种基于地址匹配技术的电网数据关联方法,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息,将用户中文地址字符串转化为拼音信息,保存为“用户拼音地址字符串”;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;步骤3:将步骤2中处理后的地址信息转化为拼音信息,称为“报修拼音地址字符串”;保存中文地址字符串和拼音地址字符串两组数据;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”,用符号Y1i来代表;将接收到的报修拼音地址字符串与数据库中的用户拼音地址字符串信息逐个进行编辑距离计算,计算结果称为“第二距离”,用符号Y2i来代表;步骤5:第一距离与第二距离进行加权计算,计算结果用Xi来代表,Min{Xi}所对应的用户中文地址字符串确定为用户报修地址。技术方案之三的优选,加权公式如下:Xi=0.4*Y1i+0.6*Y2iMin{Xi}所对应的用户中文地址字符串确定为用户报修地址。作为上述技术方案之一、之二、之三共同的优选方案,还可以包括以下后续步骤:步骤6:判断距离是否小于设定的阀值,如果是转步骤7,否则转步骤8;步骤7:以用户地址为入口,关联出计量表、设备表、线路表、变电站表信息数据,显示并输出;然后结束;步骤8:显示未找到匹配的地址;然后结束。本专利技术相对于现有技术的进步在于:(一)本方法提出利用非结构化数据关联实现结构化数据关联的方式,实现了跨专业数据融合分析。(二)基于最小编辑距离算法计算地址匹配度,避免采用中文分词降低误判概率;实施例中,将地址数据和地址拼音状态数据加权计算匹配本文档来自技高网
...

【技术保护点】
1.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;然后转步骤4;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。

【技术特征摘要】
1.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;然后转步骤4;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。2.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤:预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息,将用户中文地址字符串转化为拼音信息,保存为“用户拼音地址字符串”;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;步骤3:将步骤2中处理后的地址信息转化为拼音信息,称为“报修拼音地址字符串”;保存中文地址字符串和拼音地址字符串两组数据;步骤4:将接收到的报修拼音地址字符串与数据库中的用户拼音地址字符串信息逐个进行编辑距离计算,计算结果称为“第二距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。3.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理...

【专利技术属性】
技术研发人员:王宗伟陈鹏盛妍金鹏李艳艳卜晓阳赵郭燚张全刘鲲鹏宫立华杨菁
申请(专利权)人:国家电网公司客户服务中心
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1