【技术实现步骤摘要】
一种基于词库双向最大匹配法的电网停电地址匹配方法
本专利技术涉及电网营配数据管理领域,具体是一种基于词库双向最大匹配法的电网停电地址匹配方法。
技术介绍
近年来,随着优质服务的不断提升,人民电业为人民的宗旨不断深入人心,停电计划精益化管理势在必行。同时,随着智能电网信息化的快速发展,一大批服务于各个专业的信息管理系统逐步建成和应用,并产生了大量蕴含丰富价值的数据。但由于这些信息管理系统受不同部门“竖井式”管理模式影响,易形成信息孤岛,从而造成数据多源、内容和格式不一致等数据质量问题。在实际电网运营中,营销管理系统与生产管理系统对同一停电事件的停电地址存在不一致会导致计划停电发布停电公告或给客户发送停电通知等信息时出现告知的停电事件与实际发生停电事件不一致,例如实际停电但没有被告知、实际未停电但误告知等,使用户产生抱怨情绪甚至来电投诉。目前电网企业主要依靠人工检查辨识不同系统的停电地址是否一致,存在人力资源投入多、工作效率低下的不足。引入停电地址匹配技术能够高效识别多个信息管理系统中关于停电地址是否匹配问题,有助于提升停电计划 ...
【技术保护点】
1.一种基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:包括如下步骤:/n步骤一:收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据,根据地址命名特征定义各级别地址要素特征字,通过正则表达式提取各级地址要素构建地址要素词库,收集不规范、冗余信息形成停用词库,收集同一要素的不同表达构成同义词库,最终形成停电地址元素库;/n步骤二:利用停用词库剔除待匹配地址文本中的冗余信息、非法字符,利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧;/n步骤三:基于地址要素词库作为分词词库,利用双向最大匹配分词法,对待匹配地 ...
【技术特征摘要】
1.一种基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:包括如下步骤:
步骤一:收集营销管理系统停电公告信息、生产管理系统停电事件信息中包含停电范围的存量非结构化文本数据,根据地址命名特征定义各级别地址要素特征字,通过正则表达式提取各级地址要素构建地址要素词库,收集不规范、冗余信息形成停用词库,收集同一要素的不同表达构成同义词库,最终形成停电地址元素库;
步骤二:利用停用词库剔除待匹配地址文本中的冗余信息、非法字符,利用同义词库对带匹配地址文本中出现的错别字进行替换、对同义词进行消歧;
步骤三:基于地址要素词库作为分词词库,利用双向最大匹配分词法,对待匹配地址文本进行分词,切分出待匹配系统的地址要素序列;
步骤四:针对待匹配系统的地址要素序列,按照地址要素匹配规则进行比对,判断是否匹配,如果不匹配,则列出差异项。
2.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在步骤一中,停电地址元素库根据后续增量地址匹配结果做持续添加更新。
3.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:在步骤三中,双向最大匹配分词法是分别用正向最大匹配法和逆向最大匹配法进行初步切分,然后将两者的分词结果进行比较,若分词结果相同,则判定分词结果正确;若分词结果存在差异,则判定分词结果有歧义,则按照特定规则的歧义消除方法对有差异的结果进行歧义消除。
4.如权利要求1所述的基于词库双向最大匹配法的电网停电地址匹配方法,其特征在于:步骤三中双向最大匹配算法对集合A进行分词,得到两组分词结果,分别用集合表示为:
F={a1…ad,ad+1…ae,…,af…an}={f1,f2,…,fz}(1)
R={a1…ag,ag+1…ah,…,al…an}={r1,r2,…,rm}(2)
式中,an为地址的第n个字,F为正向最大匹配法切分集合A得到的分词结果集合,集合F中每一个元素由集合A中一个或多个元素构成,令f1=a1…ad,f2=ad+1…ae,…,fz=af…an,1≤d<e<f≤n;
R为逆向最大匹配法算法切分集合A得到的分词结果集合,集合R中每一个元素由集合A中一个或多个元素构成,令r1=a1…ag,r2=ag+1…ah,…,rm=al…an,1≤g&l...
【专利技术属性】
技术研发人员:蔡德福,周鲲鹏,严道波,万磊,余飞,曹侃,王文娜,周楚,刘海光,饶渝泽,王莹,陈汝斯,叶畅,
申请(专利权)人:国网湖北省电力有限公司电力科学研究院,国家电网有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。