【技术实现步骤摘要】
一种基于电力数据进行企业身份识别的方法及装置
[0001]本专利技术涉及电力数据处理
,特别涉及一种基于电力数据进行企业身份识别的方法及装置。
技术介绍
[0002]电网资产管理是一项复杂的工作,既涉及电力系统和设备的可靠性,又与系统规划、在线监测、故障诊断技术和运行、调度、检修、资产全寿命周期管理等有关,直接影响到电网公司的运营和管理,在电力市场环境下还会影响到电网公司的收益。
[0003]电力数据中的客户基础档案数据和工单数据以客户用电账户作为唯一标识,记录了该用电账户的客户名称和客户地址。然而电力数据中记录的客户名称和客户地址没有与企业信息存在严格对应关系,且存在电力数据中记录的客户名称、客户地址不完整以及一个企业多个用电账户的情况,导致企业匹配率低,企业电力数据统计不全等问题。亟需要一种企业身份识别的方法,提高企业匹配率,完善企业电力数据统计结果,提高数据质量,为基于电力数据进行关于企业的分析提供支撑。
技术实现思路
[0004]本专利技术提供一种基于电力数据进行企业身份识别的方法及装置 ...
【技术保护点】
【技术特征摘要】
1.一种基于电力数据进行企业身份识别的方法,其特征在于,包括以下步骤:根据电力数据中的标记字段,筛选出企业电力数据;所述电力数据包括基础档案数据和工单数据;构建行政地址库,对所述企业电力数据中的企业地址信息进行标准化,并对标准化后的企业地址进行地址拼接,得到标准化的企业地址信息;根据所述标准化的企业地址信息构建非关键词词库,并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词,得到企业用电地址及用电账户名称信息;对所述企业用电地址及用电账户名称信息进行文本切分,并对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码;将要识别的企业名称或企业地址进行非关键词过滤,并计算对应的Simhash编码;根据所述要识别的企业名称或企业地址的Simhash编码与电力数据中的所述企业用电地址及用电账户名称信息的Simhash编码的海明距离;当所述海明距离小于等于预设阈值时,确定所述电力数据的用电账户和企业用电地址与要识别的企业名称或企业地址相似;将与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户以及与要识别的企业名称相似的工单数据中的企业名称对应的用电账户取交集,得到与要识别的企业名称相似的电力数据的用电账户;将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户以及与要识别的企业地址相似的工单数据中的企业地址对应的用电账户取交集,得到与要识别的企业地址相似的电力数据的用电账户。2.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所述方法还包括:若所述电力数据为基础档案数据,则汇总与要识别的企业名称相似的基础档案数据中的企业名称对应的用电账户,得到与要识别的企业名称相似的电力数据的用电账户,汇总将与要识别的企业地址相似的基础档案数据中的企业地址对应的用电账户;若所述电力数据为是工单数据,则汇总与要识别的企业名称相似的工单数据中的企业名称对应的用电账户,得到与要识别的企业名称相似的电力数据的用电账户,汇总将与要识别的企业地址相似的工单数据中的企业地址对应的用电账户。3.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所述方法还包括:将所述企业用电地址及用电账户名称信息的Simhash编码进行子串拆分,并根据所述子串基于抽屉原理创建倒排索引表;将要识别的企业名称或企业地址进行非关键词过滤,并计算对应的Simhash编码后,将所述对应的Simhash编码同样进行子串拆分后,在所述倒排索引表中查询对应的企业地址或企业名称作为相似企业地址或企业名称。4.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所述方法还包括:对所述企业电力数据进行清洗,剔除已经销户的用电账户、基础档案和工单中均无企业名称或用电地址的用电账户以及重复记录的用电账户。5.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所
述构建行政地址库,对所述企业电力数据中的企业地址信息进行标准化,并对标准化后的企业地址进行地址拼接,具体包括:构建行政地址库,从国家统计局获取全国行政地址库,构建行政地址库数据表;台区编号与行政地址的映射,行政地址详细到区县一级;将基础档案数据和工单数据中的用电地址剔除掉区县级以上的这部分地址;将台区编号映射的行政地址与地址标准化的地址进行拼接,中间用分隔符隔开。6.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所述构建非关键词词库,并根据所述非关键词词库过滤所述企业电力数据中的企业地址信息中的非关键词,具体包括:所述非关键词包括地址中存在描述不规范且去掉该词不会明显改变地址的词;基于非关键词词库,将拼接后的用电地址、用电账户名称进行非关键词过滤,得到过滤后的用电地址、用电账户名称。7.根据权利要求1所述的一种基于电力数据进行企业身份识别的方法,其特征在于,所述对切分后的分词进行Simhash编码得到企业用电地址及用电账户名称信息的Simhash编码,具体包括:通过hash算法计算1
‑
gram切分后的每个字符变成hash值;所述hash值是只包含0和1的一串数字;将hash值为0的替换为
‑
1,hash值为1的保持不变;将非关键词过滤后的文本中的每个字符的hash值相加;把相加的结果转换成0,1串,每一位大于0的记...
【专利技术属性】
技术研发人员:邓志东,刘鲲鹏,朱克,朱青,宫立华,刘莉莉,汪莉,丁毛毛,张会磊,修乐天,
申请(专利权)人:国家电网有限公司客户服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。