The invention relates to a power grid data association method based on address matching technology. The purpose is to associate repair and complaint orders without customer numbers with customer basic file information through address fuzzy matching technology. Power grid data association method includes the following steps: preprocessing; receiving customer warranty address information and saving it as text information; deleting structured address information, special characters, Arabic numerals; computing the editing distance of Chinese address string; computing the user's Chinese address string corresponding to the smallest result. Fix the address for the user. Compared with the prior art, the method proposed in this paper realizes cross-disciplinary data fusion analysis by using unstructured data association to realize structured data association, calculates address matching degree based on minimum editing distance algorithm, avoids using Chinese word segmentation to reduce the probability of misjudgment.
【技术实现步骤摘要】
一种基于地址匹配技术的电网数据关联方法
:本专利技术涉及专门适用于电力公共服务部门的方法,具体涉及一种基于地址匹配技术的电网数据关联方法。
技术介绍
:经过5年的集中运营,国网客服中心目前已经积累了156TB的客户诉求数据和录音信息,但是受各地方言难以精确识别、90%以上的客户无法提供用电编号等问题影响,加之公司营配调数据未完全实现贯通,无法通过“站-线-变-户”关联数据结构精准建立客户报修位置与电网设备之间的关系,从客户视角分析电网设备供电质量问题。客户报修数据中包含客户用电地址信息,在无法通过客户编号实现关联的背景下,需要通过客户报修地址模糊关联客户基础档案信息中的地址,进而能够通过“户-变”关系,准确定位客户报修的电网设备。但是地址数据为非结构化数据,同一地址不同的表述方式可能导致数据间无法进行关联,加之95598客服专员主要通过接听客户电话记录客户报修地址,方言和同音字也可能导致记录信息存在偏差,给准确匹配地址信息带来较大难度。目前分析停电”站-线-变-户”的关联关系主要通过两种手段,一是基于停电信息到户的关联分析。该方法通过调度部门发布的停电信息,结合电网拓扑结构和客户用电基础档案信息,自顶向下进行关联,依托停电信息数据、停电设备数据及停电客户清单三类数据间的关联关系实现关联分析。二是通过客户编号进行关联分析。建立客户通过95598热线报修的数据与电网拓扑结构的数据关联,利用“客户-计量表-设备表-线路表-变电站表表”的关联关系使工单与电网设备关联。该方法需要客户提供客户编号,但实际中超过90%的客户无法提供用电编号,因此该方法无法获取足够的样本 ...
【技术保护点】
1.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;然后转步骤4;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。
【技术特征摘要】
1.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;然后转步骤4;步骤4:将接收到的报修中文地址字符串与数据库中的用户中文地址字符串信息逐个进行编辑距离计算,计算结果称为“第一距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。2.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤:预处理:将数据库中的用户地址信息保存为不含结构化地址信息、特殊字符、阿拉伯数字的“用户中文地址字符串”信息,将用户中文地址字符串转化为拼音信息,保存为“用户拼音地址字符串”;步骤1:接收客户的保修地址信息,并保存为文本信息;步骤2:将上述文本信息中的结构化地址信息、特殊字符、阿拉伯数字删除,称为“报修中文地址字符串”;步骤3:将步骤2中处理后的地址信息转化为拼音信息,称为“报修拼音地址字符串”;保存中文地址字符串和拼音地址字符串两组数据;步骤4:将接收到的报修拼音地址字符串与数据库中的用户拼音地址字符串信息逐个进行编辑距离计算,计算结果称为“第二距离”;步骤5:将计算结果最小者所对应的用户中文地址字符串确定为用户报修地址。3.一种基于地址匹配技术的电网数据关联方法,其特征在于,包括如下步骤;预处理...
【专利技术属性】
技术研发人员:王宗伟,陈鹏,盛妍,金鹏,李艳艳,卜晓阳,赵郭燚,张全,刘鲲鹏,宫立华,杨菁,
申请(专利权)人:国家电网公司客户服务中心,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。